BR112015030103B1 - COMPRESSION OF SOUND FIELD DECOMPOSED REPRESENTATIONS - Google Patents

COMPRESSION OF SOUND FIELD DECOMPOSED REPRESENTATIONS Download PDF

Info

Publication number
BR112015030103B1
BR112015030103B1 BR112015030103-7A BR112015030103A BR112015030103B1 BR 112015030103 B1 BR112015030103 B1 BR 112015030103B1 BR 112015030103 A BR112015030103 A BR 112015030103A BR 112015030103 B1 BR112015030103 B1 BR 112015030103B1
Authority
BR
Brazil
Prior art keywords
vectors
audio
coefficients
matrix
spherical harmonic
Prior art date
Application number
BR112015030103-7A
Other languages
Portuguese (pt)
Other versions
BR112015030103A2 (en
Inventor
Dipanjan Sen
Sang-uk Ryu
Original Assignee
Qualcomm Incorporated
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/289,522 external-priority patent/US11146903B2/en
Application filed by Qualcomm Incorporated filed Critical Qualcomm Incorporated
Publication of BR112015030103A2 publication Critical patent/BR112015030103A2/en
Publication of BR112015030103B1 publication Critical patent/BR112015030103B1/en

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

compressão de representações decompostas de um campo sonoro. trata-se, em general, de técnicas que são descritas para comprimir representações decompostas de um campo sonoro. um dispositivo que compreende um ou mais processadores pode ser configurado para realizar as técnicas. os um ou mais processadores podem ser configurados para obter um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, sendo que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.compression of decomposed representations of a sound field. These are, in general, techniques that are described to compress decomposed representations of a sound field. a device comprising one or more processors may be configured to perform the techniques. The one or more processors may be configured to obtain a bit stream comprising a compressed version of a spatial component of a sound field, the spatial component being generated by performing a vector-based synthesis with respect to a plurality of spherical harmonic coefficients.

Description

[0001] Este pedido reivindica o benefício do Pedido Provisório n° U.S. 61/828.445 depositado em 29 de maio de 2013, Pedido Provisório n° U.S. 61/829.791 depositado em 31 de maio de 2013, Pedido Provisório n° U.S. 61/899.034 depositado em 01 de novembro de 2013, Pedido Provisório n° U.S. 61/899.041 depositado em 01 de novembro de 2013, Pedido Provisório n° U.S. 61/829.182 depositado em 30 de maio de 2013, Pedido Provisório n° U.S. 61/829.174 depositado em 30 de maio de 2013, Pedido Provisório n° U.S. 61/829.155 depositado em 30 de maio de 2013, Pedido Provisório n° U.S. 61/933.706 depositado em 30 de janeiro de 2014, Pedido Provisório n° U.S. 61/829.846 depositado em 31 de maio de 2013, Pedido Provisório n° U.S. 61/886.605 depositado em 03 de outubro de 2013, Pedido Provisório n° U.S. 61/886.617 depositado em 03 de outubro de 2013, Pedido Provisório n° U.S. 61/925.158 depositado em 08 de janeiro de 2014, Pedido Provisório n° U.S. 61/933.721 depositado em 30 de janeiro de 2014, Pedido Provisório n° U.S. 61/925.074 depositado em 08 de janeiro de 2014, Pedido Provisório n° U.S. 61/925.112 depositado em 08 de janeiro de 2014, Pedido Provisório n° U.S. 61/925.126 depositado em 08 de janeiro de 2014 e Pedido Provisório n° U.S. 62/003.515 depositado em 27 de maio de 2014 e Pedido Provisório n° U.S. 61/828.615 depositado em 29 de maio de 2013, cujo conteúdo completo de cada um é incorporado no presente documento a título de referência.[0001] This application claims the benefit of Interim Application No. US 61/828,445 filed May 29, 2013, Interim Application No. US 61/829,791 filed May 31, 2013, Interim Application No. US 61/899,034 filed on November 1, 2013, Interim Application No. US 61/899,041 filed on November 01, 2013, Interim Application No. US 61/829,182 filed on May 30, 2013, Interim Application No. US 61/829,174 filed on 30 May 2013, Interim Application No. US 61/829,155 filed May 30, 2013, Interim Application No. US 61/933,706 filed January 30, 2014, Interim Application No. US 61/829,846 filed May 31 2013, Provisional Application No. US 61/886,605 filed on October 03, 2013, Interim Application No. US 61/886,617 filed on October 03, 2013, Provisional Application No. US 61/925,158 filed on January 8, 2014 , Provisional Application No. US 61/933,721 filed on January 30, 2014, Application Pr Interim Application No. US 61/925,074 filed on January 8, 2014, Interim Application No. US 61/925,112 filed on January 8, 2014, Interim Application No. US 61/925,126 filed on January 8, 2014 and Interim Application No. No. US 62/003,515 filed May 27, 2014 and Interim Application No. US 61/828,615 filed May 29, 2013, the entire contents of which are incorporated herein by reference.

CAMPO DA TÉCNICAFIELD OF TECHNIQUE

[0002] Esta revelação refere-se a dados de áudio e, mais especificamente, a compressão de dados de áudio.[0002] This disclosure pertains to audio data and, more specifically, the compression of audio data.

ANTECEDENTESBACKGROUND

[0003] Um sinal de ambisonics de ordem superior (HOA) (frequentemente representado por uma pluralidade de coeficientes harmônicos esféricos (SHC) ou outros elementos hierárquicos) é uma representação tridimensional de um campo sonoro. Essa representação de HOA ou SHC pode representar esse campo sonoro de uma maneira que é independente da geometria de alto-falante usada para reproduzir um sinal de áudio de multicanal renderizados a partir desse sinal de SHC. Esse sinal de SHC também pode facilitar a compatibilidade com versões anteriores à medida que esse sinal de SHC pode ser renderizado para formatos de multicanal bem conhecidos e altamente adotados, como um formato de canal de áudio 5.1 ou um formato de canal de áudio 7.1. A representação de SHC pode habilitar, portanto, uma representação melhor de um campo sonoro que também acomoda a compatibilidade com versões anteriores.[0003] A higher order ambisonics (HOA) signal (often represented by a plurality of spherical harmonic coefficients (SHC) or other hierarchical elements) is a three-dimensional representation of a sound field. This HOA or SHC representation can represent that sound field in a way that is independent of the speaker geometry used to reproduce a multichannel audio signal rendered from that SHC signal. This SHC signal can also facilitate backwards compatibility as this SHC signal can be rendered to well-known and highly adopted multi-channel formats such as a 5.1 audio channel format or a 7.1 audio channel format. SHC representation can therefore enable a better representation of a sound field that also accommodates backwards compatibility.

SUMÁRIOSUMMARY

[0004] Em geral, as técnicas são descritas para a compressão e descompressão de dados de áudio ambisonic de ordem superior.[0004] In general, techniques are described for compressing and decompressing higher-order ambisonic audio data.

[0005] Em um aspecto, um método compreende obter um ou mais primeiros vetores que descrevem componentes distintos de um campo sonoro e um ou mais segundos vetores que descrevem os componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos desempenhando-se uma transformação em relação a uma pluralidade de coeficientes harmônicos esféricos.[0005] In one aspect, a method comprises obtaining one or more first vectors that describe distinct components of a sound field and one or more second vectors that describe the background components of the sound field, both the one or more first vectors and the one or more second vectors generated by at least performing a transformation with respect to a plurality of spherical harmonic coefficients.

[0006] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para determinar um ou mais primeiros vetores que descrevem componentes distintos de um campo sonoro e um ou mais segundos vetores que descrevem os componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos desempenhando-se uma transformação em relação a uma pluralidade de coeficientes harmônicos esféricos.[0006] In another aspect, a device comprises one or more processors configured to determine one or more first vectors that describe distinct components of a sound field and one or more second vectors that describe the background components of the sound field, both the one or more first vectors than the one or more second vectors generated by at least performing a transformation with respect to a plurality of spherical harmonic coefficients.

[0007] Em outro aspecto, um dispositivo compreende meios para obter um ou mais primeiros vetores que descrevem componentes distintos de um campo sonoro e um ou mais segundos vetores que descrevem os componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos desempenhando-se uma transformação em relação a uma pluralidade de coeficientes harmônicos esféricos e meios para armazenar os um ou mais primeiros vetores.[0007] In another aspect, a device comprises means for obtaining one or more first vectors that describe distinct components of a sound field and one or more second vectors that describe the background components of the sound field, either the one or more first vectors and the one or more second vectors generated by at least performing a transformation with respect to a plurality of spherical harmonic coefficients and means for storing the one or more first vectors.

[0008] Em outro aspecto, um meio de armazenamento legíveis por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que os um ou mais processadores obtenham um ou mais primeiros vetores que descrevem componentes distintos de um campo sonoro e um ou mais segundos vetores que descrevem os componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos desempenhando-se uma transformação em relação a uma pluralidade de coeficientes harmônicos esféricos.[0008] In another aspect, a non-transient computer-readable storage medium has instructions stored therein which, when executed, cause the one or more processors to obtain one or more first vectors that describe distinct components of a sound field and one or more second vectors describing the background components of the sound field, either the one or more first vectors or the one or more second vectors generated by at least performing a transformation with respect to a plurality of spherical harmonic coefficients.

[0009] Em outro aspecto, um método compreende selecionar um dentre uma pluralidade de esquemas de descompressão baseada na indicação de se uma versão comprimida de coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético, e descomprimir a versão comprimida dos coeficientes harmônicos esféricos com o uso aquele esquema selecionado da pluralidade de esquemas de descompressão.[0009] In another aspect, a method comprises selecting one of a plurality of decompression schemes based on indicating whether a compressed version of spherical harmonic coefficients representative of a sound field are generated from a synthetic audio object, and decompressing the compressed version of the spherical harmonic coefficients using that scheme selected from the plurality of decompression schemes.

[0010] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para selecionar um dentre uma pluralidade de esquemas de descompressão baseada na indicação de se uma versão comprimida de coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético, e descomprimir a versão comprimida dos coeficientes harmônicos esféricos com o uso aquele esquema selecionado da pluralidade de esquemas de descompressão.[0010] In another aspect, a device comprises one or more processors configured to select one of a plurality of decompression schemes based on the indication of whether a compressed version of spherical harmonic coefficients representative of a sound field are generated from a decompression object. synthetic audio, and decompressing the compressed version of the spherical harmonic coefficients using that scheme selected from the plurality of decompression schemes.

[0011] Em outro aspecto, um dispositivo compreende meios para selecionar um dentre uma pluralidade de esquemas de descompressão baseada na indicação de se uma versão comprimida de coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético, e meios para descomprimir a versão comprimida dos coeficientes harmônicos esféricos com o uso aquele esquema selecionado da pluralidade de esquemas de descompressão.[0011] In another aspect, a device comprises means for selecting one of a plurality of decompression schemes based on indicating whether a compressed version of spherical harmonic coefficients representative of a sound field are generated from a synthetic audio object, and means for decompressing the compressed version of the spherical harmonic coefficients using that scheme selected from the plurality of decompression schemes.

[0012] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado nele instruções que, quando executadas, fazem com que um ou mais processadores de um dispositivo de decodificação integrado para selecionar um dentre uma pluralidade de esquemas de descompressão baseada na indicação de se uma versão comprimida de coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético, e descomprimir a versão comprimida dos coeficientes harmônicos esféricos com o uso aquele esquema selecionado da pluralidade de esquemas de descompressão.[0012] In another aspect, a non-transient computer-readable storage medium has stored instructions thereon which, when executed, cause one or more processors of an integrated decoding device to select one of a plurality of decompression schemes based on the indicating whether a compressed version of spherical harmonic coefficients representative of a sound field is generated from a synthetic audio object, and decompressing the compressed version of spherical harmonic coefficients using that scheme selected from the plurality of decompression schemes.

[0013] Em outro aspecto, um método compreende obter uma indicação de se os coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético.[0013] In another aspect, a method comprises obtaining an indication of whether representative spherical harmonic coefficients of a sound field are generated from a synthetic audio object.

[0014] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para obter uma indicação de se os coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético.[0014] In another aspect, a device comprises one or more processors configured to obtain an indication of whether representative spherical harmonic coefficients of a sound field are generated from a synthetic audio object.

[0015] Em outro aspecto, um dispositivo compreende meios para armazenar coeficientes harmônicos esféricos representativos de um campo sonoro, e meios para obter uma indicação de se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético.[0015] In another aspect, a device comprises means for storing spherical harmonic coefficients representative of a sound field, and means for obtaining an indication of whether spherical harmonic coefficients are generated from a synthetic audio object.

[0016] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores obtenham uma indicação de se os coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético.[0016] In another aspect, a non-transient computer-readable storage medium has stored therein instructions which, when executed, cause one or more processors to obtain an indication of whether representative spherical harmonic coefficients of a sound field are generated. from a synthetic audio object.

[0017] Em outro aspecto, um método compreende quantizar um ou mais primeiros vetores representativos de um ou mais componentes de um campo sonoro, e compensar o erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que também são representativos dos mesmos um ou mais componentes do campo sonoro.[0017] In another aspect, a method comprises quantizing one or more first vectors representative of one or more components of a sound field, and compensating for the error introduced due to quantizing the one or more first vectors into one or more second vectors that are also representative of the same one or more components of the sound field.

[0018] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para quantizar um ou mais primeiros vetores representativos de um ou mais componentes de um campo sonoro, e compensar erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que também são representativos dos mesmos um ou mais componentes do campo sonoro.[0018] In another aspect, a device comprises one or more processors configured to quantize one or more first vectors representative of one or more components of a sound field, and compensate for error introduced due to quantizing the one or more first vectors into one or more second vectors that are also representative of the same one or more sound field components.

[0019] Em outro aspecto, um dispositivo compreende meios para quantizar um ou mais primeiros vetores representativos de um ou mais componentes de um campo sonoro e meios para compensar o erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que também são representativos dos mesmos um ou mais componentes do campo sonoro.[0019] In another aspect, a device comprises means for quantizing one or more first vectors representative of one or more components of a sound field and means for compensating for the error introduced due to quantizing the one or more first vectors into one or more second vectors which are also representative of the same one or more sound field components.

[0020] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores quantizem um ou mais primeiros vetores representativos de um ou mais componentes de um campo sonoro, e compensem erros introduzidos devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que também são representativos dos mesmos um ou mais componentes do campo sonoro.[0020] In another aspect, a non-transient computer-readable storage medium has instructions stored therein which, when executed, cause one or more processors to quantize one or more first vectors representing one or more components of a sound field. , and compensate for errors introduced due to the quantization of the one or more first vectors into one or more second vectors that are also representative of the same one or more components of the sound field.

[0021] Em outro aspecto, um método compreende realizar, com base em uma taxa de bit alvo, a redução de ordem em relação a uma pluralidade de coeficientes harmônicos esféricos ou decomposições dos mesmos para gerar coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos, em que a pluralidade de coeficientes harmônicos esféricos representa um campo sonoro.[0021] In another aspect, a method comprises performing, based on a target bit rate, order reduction with respect to a plurality of spherical harmonic coefficients or decompositions thereof to generate reduced spherical harmonic coefficients or reduced decompositions thereof , wherein the plurality of spherical harmonic coefficients represents a sound field.

[0022] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para realizar, com base em uma taxa de bit alvo, a redução de ordem em relação a uma pluralidade de coeficientes harmônicos esféricos ou decomposições dos mesmos para gerar coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos, em que a pluralidade de coeficientes harmônicos esféricos representa um campo sonoro.[0022] In another aspect, a device comprises one or more processors configured to perform, based on a target bit rate, order reduction with respect to a plurality of spherical harmonic coefficients or decompositions thereof to generate reduced spherical harmonic coefficients or reduced decompositions thereof, wherein the plurality of spherical harmonic coefficients represents a sound field.

[0023] Em outro aspecto, um dispositivo compreende meios para armazenar uma pluralidade de coeficientes harmônicos esféricos ou decomposições dos mesmos, e meios para realizar, com base em uma taxa de bit alvo, a redução de ordem em relação à pluralidade de coeficientes harmônicos esféricos ou as decomposições dos mesmos para gerar coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos, em que a pluralidade de coeficientes harmônicos esféricos representa um campo sonoro.[0023] In another aspect, a device comprises means for storing a plurality of spherical harmonic coefficients or decompositions thereof, and means for performing, based on a target bit rate, order reduction with respect to the plurality of spherical harmonic coefficients or decompositions thereof to generate reduced spherical harmonic coefficients or reduced decompositions thereof, wherein the plurality of spherical harmonic coefficients represents a sound field.

[0024] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores para realizar, com base em uma taxa de bit alvo, a redução de ordem em relação a uma pluralidade de coeficientes harmônicos esféricos ou decomposições dos mesmos para gerar coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos, em que a pluralidade de coeficientes harmônicos esféricos representa um campo sonoro.[0024] In another aspect, a non-transient computer-readable storage medium has stored therein instructions which, when executed, cause one or more processors to perform, based on a target bit rate, order reduction. with respect to a plurality of spherical harmonic coefficients or decompositions thereof to generate reduced spherical harmonic coefficients or reduced decompositions thereof, wherein the plurality of spherical harmonic coefficients represents a sound field.

[0025] Em outro aspecto, um método compreende obter um primeiro conjunto diferente de zero de coeficientes de um vetor que representa um componente distinto do campo sonoro, sendo que o vetor foi decomposto a partir de uma pluralidade de coeficientes harmônicos esféricos que descrevem um campo sonoro.[0025] In another aspect, a method comprises obtaining a first non-zero set of coefficients of a vector that represents a distinct component of the sound field, the vector being decomposed from a plurality of spherical harmonic coefficients that describe a field sound.

[0026] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para obter um primeiro conjunto diferente de zero de coeficientes de um vetor que representa um componente distinto de um campo sonoro, sendo que o vetor foi decomposto a partir de uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.[0026] In another aspect, a device comprises one or more processors configured to obtain a first non-zero set of coefficients from a vector representing a distinct component of a sound field, the vector being decomposed from a plurality of spherical harmonic coefficients that describe the sound field.

[0027] Em outro aspecto, um dispositivo compreende meios para obter um primeiro conjunto diferente de zero de coeficientes de um vetor que representa um componente distinto de um campo sonoro, sendo que o vetor foi decomposto a partir de uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro e meios para armazenar o primeiro conjunto diferente de zero de coeficientes.[0027] In another aspect, a device comprises means for obtaining a first non-zero set of coefficients from a vector representing a distinct component of a sound field, the vector being decomposed from a plurality of spherical harmonic coefficients that describe the sound field and means for storing the first non-zero set of coefficients.

[0028] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores para determinar um primeiro conjunto diferente de zero de coeficientes de um vetor que representa um componente distinto de um campo sonoro, sendo que o vetor foi decomposto a partir de uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.[0028] In another aspect, a non-transient computer-readable storage medium has stored therein instructions which, when executed, cause one or more processors to determine a non-zero first set of coefficients from a vector representing a distinct component of a sound field, the vector being decomposed from a plurality of spherical harmonic coefficients that describe the sound field.

[0029] Em outro aspecto, um método compreende obter, a partir de um fluxo de bits, pelo menos um dentre um ou mais vetores decompostos a partir dos coeficientes harmônicos esféricos que foram recombinados com coeficientes harmônicos esféricos de segundo plano, em que os coeficientes harmônicos esféricos descrevem um campo sonoro, e em que os coeficientes harmônicos esféricos de segundo plano descreveram um ou mais componentes de segundo plano do mesmo campo sonoro.[0029] In another aspect, a method comprises obtaining, from a bit stream, at least one of one or more vectors decomposed from the spherical harmonic coefficients that have been recombined with spherical background harmonic coefficients, in which the coefficients spherical harmonics describe a sound field, and where the spherical background harmonic coefficients describe one or more background components of the same sound field.

[0030] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para determinar, a partir de um fluxo de bits, pelo menos um dentre um ou mais vetores decompostos a partir dos coeficientes harmônicos esféricos que foram recombinados com coeficientes harmônicos esféricos de segundo plano, em que os coeficientes harmônicos esféricos descrevem um campo sonoro, e em que os coeficientes harmônicos esféricos de segundo plano descreveram um ou mais componentes de segundo plano do mesmo campo sonoro.[0030] In another aspect, a device comprises one or more processors configured to determine, from a stream of bits, at least one of one or more vectors decomposed from spherical harmonic coefficients that have been recombined with spherical harmonic coefficients of second plane, where spherical harmonic coefficients describe a sound field, and where background spherical harmonic coefficients describe one or more background components of the same sound field.

[0031] Em outro aspecto, um dispositivo compreende meios para obter, a partir de um fluxo de bits, pelo menos um dentre um ou mais vetores decompostos a partir dos coeficientes harmônicos esféricos que foram recombinados com coeficientes harmônicos esféricos de segundo plano, em que os coeficientes harmônicos esféricos descrevem um campo sonoro, e em que os coeficientes harmônicos esféricos de segundo plano descreveram um ou mais componentes de segundo plano do mesmo campo sonoro.[0031] In another aspect, a device comprises means for obtaining, from a bit stream, at least one of one or more vectors decomposed from spherical harmonic coefficients that have been recombined with spherical background harmonic coefficients, wherein spherical harmonic coefficients describe a sound field, and where background spherical harmonic coefficients describe one or more background components of the same sound field.

[0032] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores obtenham, a partir de um fluxo de bits, pelo menos um dentre um ou mais vetores decompostos a partir dos coeficientes harmônicos esféricos que foram recombinados com coeficientes harmônicos esféricos de segundo plano, em que os coeficientes harmônicos esféricos descrevem um campo sonoro, e em que os coeficientes harmônicos esféricos de segundo plano descreveram um ou mais componentes de segundo plano do mesmo campo sonoro.[0032] In another aspect, a non-transient computer-readable storage medium has instructions stored therein which, when executed, cause one or more processors to obtain, from a stream of bits, at least one of one or more more vectors decomposed from the spherical harmonic coefficients that were recombined with spherical background harmonic coefficients, where the spherical harmonic coefficients describe a sound field, and where the spherical harmonic coefficients of the background describe one or more of the background components of the sound field. same sound field.

[0033] Em outro aspecto, um método compreende identificar um ou mais objetos de áudio distintos a partir de um ou mais coeficientes harmônicos esféricos (SHC) associados aos objetos de áudio com base em uma direcionalidade determinada para um ou mais dos objetos de áudio.[0033] In another aspect, a method comprises identifying one or more distinct audio objects from one or more spherical harmonic coefficients (SHC) associated with the audio objects based on a given directionality for one or more of the audio objects.

[0034] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para identificar um ou mais objetos de áudio distintos a partir de um ou mais coeficientes harmônicos esféricos (SHC) associados aos objetos de áudio com base em uma direcionalidade determinada para um ou mais dos objetos de áudio.[0034] In another aspect, a device comprises one or more processors configured to identify one or more distinct audio objects from one or more spherical harmonic coefficients (SHC) associated with the audio objects based on a directionality determined to one or more more of the audio objects.

[0035] Em outro aspecto, um dispositivo compreende meios para armazenar um ou mais coeficientes harmônicos esféricos (SHC) e meios para identificar um ou mais objetos de áudio distintos a partir do um ou mais coeficientes harmônicos esféricos (SHC) associados aos objetos de áudio com base em uma direcionalidade determinada para um ou mais dos objetos de áudio.[0035] In another aspect, a device comprises means for storing one or more spherical harmonic coefficients (SHC) and means for identifying one or more distinct audio objects from the one or more spherical harmonic coefficients (SHC) associated with the audio objects based on a given directionality to one or more of the audio objects.

[0036] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores identifiquem um ou mais objetos de áudio distintos a partir de um ou mais coeficientes harmônicos esféricos (SHC) associados aos objetos de áudio com base em uma direcionalidade determinada para um ou mais dos objetos de áudio.[0036] In another aspect, a non-transient computer-readable storage medium has instructions stored therein which, when executed, cause one or more processors to identify one or more distinct audio objects from one or more harmonic coefficients. spheres (SHC) associated with the audio objects based on a given directionality to one or more of the audio objects.

[0037] Em outro aspecto, um método compreende desempenhar uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos para gerar representações decompostas da pluralidade de coeficientes harmônicos esféricos representativos de um ou mais objetos de áudio e que correspondem informações direcionais, em que os coeficientes harmônicos esféricos são associados a uma ordem e descrevem um campo sonoro, determinar informações direcionais distintas e em segundo plano a partir das informações direcionais, reduzir uma ordem das informações direcionais associadas aos objetos de áudio de segundo plano para gerar informações direcionais de segundo plano transformadas, aplicar compensação para aumentar valores das informações direcionais transformadas para preservar uma energia geral do campo sonoro.[0037] In another aspect, a method comprises performing vector-based synthesis against a plurality of spherical harmonic coefficients to generate decomposed representations of the plurality of spherical harmonic coefficients representative of one or more audio objects and corresponding to directional information, where spherical harmonic coefficients are associated with an order and describe a sound field, determine distinct and background directional information from the directional information, reduce an order of directional information associated with background audio objects to generate directional information from background transforms, apply compensation to increase values of the transformed directional information to preserve an overall sound field energy.

[0038] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para realizar uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos para gerar representações decompostas da pluralidade de coeficientes harmônicos esféricos representativos de um ou mais objetos de áudio e que correspondem informações direcionais, em que os coeficientes harmônicos esféricos são associados a uma ordem e descrevem um campo sonoro, determinar informações direcionais distintas e em segundo plano a partir das informações direcionais, reduzir uma ordem das informações direcionais associadas aos objetos de áudio de segundo plano para gerar informações direcionais de segundo plano transformadas, aplicar compensação para aumentar valores das informações direcionais transformadas para preservar uma energia geral do campo sonoro.[0038] In another aspect, a device comprises one or more processors configured to perform vector-based synthesis against a plurality of spherical harmonic coefficients to generate decomposed representations of the plurality of spherical harmonic coefficients representative of one or more audio objects and that correspond to directional information, where the spherical harmonic coefficients are associated with an order and describe a sound field, determine distinct and background directional information from the directional information, reduce an order of the directional information associated with the second audio objects plane to generate transformed background directional information, apply compensation to increase values of the transformed directional information to preserve an overall sound field energy.

[0039] Em outro aspecto, um dispositivo compreende meios para desempenhar uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos para gerar representações decompostas da pluralidade de coeficientes harmônicos esféricos representativos de um ou mais objetos de áudio e que correspondem informações direcionais, em que os coeficientes harmônicos esféricos são associados a uma ordem e descrevem um campo sonoro, meios para determinar informações direcionais distintas e em segundo plano a partir das informações direcionais, meios para reduzir uma ordem das informações direcionais associadas aos objetos de áudio de segundo plano para gerar informações direcionais de segundo plano transformadas e meios para aplicar compensação para aumentar valores das informações direcionais transformadas para preservar uma energia geral do campo sonoro.[0039] In another aspect, a device comprises means for performing vector-based synthesis against a plurality of spherical harmonic coefficients to generate decomposed representations of the plurality of spherical harmonic coefficients representative of one or more audio objects and corresponding information directional, where spherical harmonic coefficients are associated with an order and describe a sound field, means for determining distinct directional information and background from the directional information, means for reducing an order of directional information associated with second audio objects plane to generate transformed background directional information and means to apply compensation to increase values of the transformed directional information to preserve an overall sound field energy.

[0040] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores realizem uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos para gerar representações decompostas da pluralidade de coeficientes harmônicos esféricos representativos de um ou mais objetos de áudio e informações direcionais correspondentes, em que os coeficientes harmônicos esféricos são associados a uma ordem e descrevem um campo sonoro, determinem informações direcionais distintas e de segundo plano a partir das informações direcionais, reduzem uma ordem das informações direcionais associadas aos objetos de áudio de segundo plano para gerar informações direcionais de segundo plano transformadas, e aplicam compensação para aumentar os valores das informações direcionais transformadas para preservar uma energia geral do campo sonoro.[0040] In another aspect, a non-transient computer-readable storage medium has stored therein instructions which, when executed, cause one or more processors to perform vector-based synthesis with respect to a plurality of spherical harmonic coefficients to generate decomposed representations of the plurality of spherical harmonic coefficients representative of one or more audio objects and corresponding directional information, wherein the spherical harmonic coefficients are associated with an order and describe a sound field, determine distinct and background directional information from of directional information, reduce an order of the directional information associated with the background audio objects to generate transformed background directional information, and apply compensation to increase the values of the transformed directional information to preserve an overall sound field energy.

[0041] Em outro aspecto, um método compreende obter coeficientes harmônicos esféricos interpolados decompostos por um segmento de tempo, pelo menos em parte, desempenhando-se uma interpolação em relação a uma primeira decomposição de uma primeira pluralidade de coeficientes harmônicos esféricos e uma segunda decomposição de uma segunda pluralidade de coeficientes harmônicos esféricos.[0041] In another aspect, a method comprises obtaining interpolated spherical harmonic coefficients decomposed by a time segment, at least in part, by performing an interpolation with respect to a first decomposition of a first plurality of spherical harmonic coefficients and a second decomposition of a second plurality of spherical harmonic coefficients.

[0042] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para obter coeficientes harmônicos esféricos interpolados decompostos por um segmento de tempo, pelo menos em parte, desempenhando-se uma interpolação em relação a uma primeira decomposição de uma primeira pluralidade de coeficientes harmônicos esféricos e uma segunda decomposição de uma segunda pluralidade de coeficientes harmônicos esféricos.[0042] In another aspect, a device comprises one or more processors configured to obtain interpolated spherical harmonic coefficients decomposed by a time segment, at least in part, performing an interpolation with respect to a first decomposition of a first plurality of coefficients spherical harmonics and a second decomposition of a second plurality of spherical harmonics.

[0043] Em outro aspecto, um dispositivo compreende meios para armazenar uma primeira de coeficientes harmônicos esféricos e uma segunda pluralidade de coeficientes harmônicos esféricos e meios para obter coeficientes harmônicos esféricos interpolados decompostos por um segmento de tempo, pelo menos em parte, desempenhando-se uma interpolação em relação a uma primeira decomposição da primeira pluralidade de coeficientes harmônicos esféricos e a segunda decomposição de uma segunda pluralidade de coeficientes harmônicos esféricos.[0043] In another aspect, a device comprises means for storing a first of spherical harmonic coefficients and a second plurality of spherical harmonic coefficients and means for obtaining interpolated spherical harmonic coefficients decomposed by a time segment, at least in part, performing an interpolation with respect to a first decomposition of the first plurality of spherical harmonic coefficients and the second decomposition of a second plurality of spherical harmonic coefficients.

[0044] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que compreende um ou mais processadores obtenham coeficientes harmônicos esféricos interpolados decompostos por um segmento de tempo, pelo menos em parte, desempenhando-se uma interpolação em relação a uma primeira decomposição de uma primeira pluralidade de coeficientes harmônicos esféricos e uma segunda decomposição de uma segunda pluralidade de coeficientes harmônicos esféricos.[0044] In another aspect, a non-transient computer-readable storage medium has stored therein instructions which, when executed, cause comprising one or more processors to obtain interpolated spherical harmonic coefficients decomposed by a time segment, at least in part, an interpolation being performed with respect to a first decomposition of a first plurality of spherical harmonic coefficients and a second decomposition of a second plurality of spherical harmonic coefficients.

[0045] Em outro aspecto, um método compreende obter um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[0045] In another aspect, a method comprises obtaining a bit stream comprising a compressed version of a spatial component of a sound field, the spatial component generated by performing vector-based synthesis against a plurality of harmonic coefficients spherical.

[0046] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para obter um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[0046] In another aspect, a device comprises one or more processors configured to obtain a bit stream comprising a compressed version of a spatial component of a sound field, the spatial component generated by performing vector-based synthesis against to a plurality of spherical harmonic coefficients.

[0047] Em outro aspecto, um dispositivo compreende meios para obter um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos e meios para armazenar o fluxo de bits.[0047] In another aspect, a device comprises means for obtaining a bit stream comprising a compressed version of a spatial component of a sound field, the spatial component generated by performing vector-based synthesis against a plurality of spherical harmonic coefficients and means for storing the bit stream.

[0048] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores obtenham um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[0048] In another aspect, a non-transient computer-readable storage medium has stored therein instructions which, when executed, cause one or more processors to obtain a stream of bits comprising a compressed version of a spatial component of a sound field, the spatial component generated by performing vector-based synthesis against a plurality of spherical harmonic coefficients.

[0049] Em outro aspecto, um método compreende gerar um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[0049] In another aspect, a method comprises generating a bit stream comprising a compressed version of a spatial component of a sound field, the spatial component generated by performing vector-based synthesis against a plurality of harmonic coefficients spherical.

[0050] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para gerar um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[0050] In another aspect, a device comprises one or more processors configured to generate a bit stream comprising a compressed version of a spatial component of a sound field, the spatial component generated by performing vector-based synthesis against to a plurality of spherical harmonic coefficients.

[0051] Em outro aspecto, um dispositivo compreende meios para gerar um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos e meios para armazenar o fluxo de bits.[0051] In another aspect, a device comprises means for generating a bit stream comprising a compressed version of a spatial component of a sound field, the spatial component generated by performing vector-based synthesis against a plurality of spherical harmonic coefficients and means for storing the bit stream.

[0052] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem instruções que, quando executadas, fazem com que um ou mais processadores gerem um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[0052] In another aspect, a non-transient computer-readable storage medium has instructions that, when executed, cause one or more processors to generate a bit stream comprising a compressed version of a spatial component of a sound field, the spatial component generated by performing vector-based synthesis against a plurality of spherical harmonic coefficients.

[0053] Em outro aspecto, um método compreende identificar um livro de códigos de Huffman para usar quando descomprimir uma versão comprimida de um componente espacial de uma pluralidade de componentes espaciais comprimidos com base em uma ordem da versão comprimida do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais comprimidos, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[0053] In another aspect, a method comprises identifying a Huffman codebook to use when decompressing a compressed version of a spatial component from a plurality of compressed spatial components based on an order of the compressed version of the spatial component relative to those remaining of the plurality of compressed spatial components, the spatial component generated by performing vector-based synthesis with respect to a plurality of spherical harmonic coefficients.

[0054] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para identificar um livro de códigos de Huffman para usar quando descomprimir uma versão comprimida de um componente espacial de uma pluralidade de componentes espaciais comprimidos com base em uma ordem da versão comprimida do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais comprimidos, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[0054] In another aspect, a device comprises one or more processors configured to identify a Huffman codebook for use when decompressing a compressed version of a spatial component from a plurality of compressed spatial components based on an order of the compressed version of the spatial component with respect to those remaining of the plurality of compressed spatial components, the spatial component generated by performing vector-based synthesis with respect to a plurality of spherical harmonic coefficients.

[0055] Em outro aspecto, um dispositivo compreende meios para identificar um livro de códigos de Huffman para usar quando descomprimir uma versão comprimida de um componente espacial de uma pluralidade de componentes espaciais comprimidos com base em uma ordem da versão comprimida do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais comprimidos, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos, e meios para encadear a pluralidade de componentes espaciais comprimidos.[0055] In another aspect, a device comprises means for identifying a Huffman codebook for use when decompressing a compressed version of a spatial component from a plurality of compressed spatial components based on an order of the compressed version of the spatial component with respect to to those remaining of the plurality of compressed spatial components, the spatial component generated by performing vector-based synthesis with respect to a plurality of spherical harmonic coefficients, and means for chaining the plurality of compressed spatial components.

[0056] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores identifiquem um livro de códigos de Huffman para usar quando se descomprime um componente espacial de uma pluralidade de componentes espaciais com base em uma ordem do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[0056] In another aspect, a non-transient computer-readable storage medium has stored therein instructions which, when executed, cause one or more processors to identify a Huffman codebook to use when decompressing a spatial component of a plurality of spatial components based on an order of the spatial component with respect to those remaining from the plurality of spatial components, the spatial component generated by performing vector-based synthesis with respect to a plurality of spherical harmonic coefficients.

[0057] Em outro aspecto, um método compreende identificar um livro de códigos de Huffman para usar quando se comprime um componente espacial de uma pluralidade de componentes espaciais com base em uma ordem do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais, os componentes espaciais gerados desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[0057] In another aspect, a method comprises identifying a Huffman codebook to use when compressing a spatial component of a plurality of spatial components based on an order of the spatial component relative to those remaining in the plurality of spatial components, the spatial components generated by performing vector-based synthesis against a plurality of spherical harmonic coefficients.

[0058] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para identificar um livro de códigos de Huffman para usar quando se comprime um componente espacial de uma pluralidade de componentes espaciais com base em uma ordem do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais, os componentes espaciais gerados desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[0058] In another aspect, a device comprises one or more processors configured to identify a Huffman codebook for use when compressing a spatial component of a plurality of spatial components based on an order of the spatial component relative to those remaining in the plurality of spatial components, the spatial components generated by performing vector-based synthesis with respect to a plurality of spherical harmonic coefficients.

[0059] Em outro aspecto, um dispositivo compreende meios para armazenar um livro de códigos de Huffman, e meios para identificar o livro de códigos de Huffman para usar quando se comprime um componente espacial de uma pluralidade de componentes espaciais com base em uma ordem do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais, os componentes espacial gerados desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[0059] In another aspect, a device comprises means for storing a Huffman codebook, and means for identifying the Huffman codebook for use when compressing a spatial component of a plurality of spatial components based on an order of the spatial component with respect to those remaining of the plurality of spatial components, the spatial components generated by performing vector-based synthesis with respect to a plurality of spherical harmonic coefficients.

[0060] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores identifiquem um livro de códigos de Huffman para usar quando se comprime um componente espacial de uma pluralidade de componentes espaciais com base em uma ordem do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[0060] In another aspect, a non-transient computer-readable storage medium has stored therein instructions which, when executed, cause one or more processors to identify a Huffman codebook to use when compressing a spatial component of a plurality of spatial components based on an order of the spatial component with respect to those remaining from the plurality of spatial components, the spatial component generated by performing vector-based synthesis with respect to a plurality of spherical harmonic coefficients.

[0061] Em outro aspecto, um método compreende determinar um tamanho de etapa de quantização para ser usado quando se comprime um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[0061] In another aspect, a method comprises determining a quantization step size to be used when compressing a spatial component of a sound field, the spatial component generated by performing vector-based synthesis against a plurality of spherical harmonic coefficients.

[0062] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para determinar um tamanho de etapa de quantização para ser usado quando se comprime um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[0062] In another aspect, a device comprises one or more processors configured to determine a quantization step size to be used when compressing a spatial component of a sound field, the spatial component generated by performing vector-based synthesis. with respect to a plurality of spherical harmonic coefficients.

[0063] Em outro aspecto, um dispositivo compreende meios para determinar um tamanho de etapa de quantização para ser usado quando se comprime um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos, e meios para armazenar o tamanho de etapa de quantização.[0063] In another aspect, a device comprises means for determining a quantization step size to be used when compressing a spatial component of a sound field, the spatial component generated by performing vector-based synthesis against a plurality of spherical harmonic coefficients, and means for storing the quantization step size.

[0064] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores determinam um tamanho de etapa de quantização a ser usada quando se comprime um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[0064] In another aspect, a non-transient computer-readable storage medium has stored therein instructions which, when executed, cause one or more processors to determine a quantization step size to be used when compressing a spatial component. of a sound field, the spatial component generated by performing vector-based synthesis against a plurality of spherical harmonic coefficients.

[0065] Os detalhes da um ou mais aspectos das técnicas são estabelecidos nos desenhos anexos e na descrição abaixo. Outros recursos, objetos e vantagens dessas técnicas serão evidentes a partir da descrição e dos desenhos, e a partir das reivindicações.[0065] Details of one or more aspects of the techniques are set out in the accompanying drawings and description below. Other features, objects and advantages of these techniques will be apparent from the description and drawings, and from the claims.

BREVE DESCRIÇÃO DOS DESENHOSBRIEF DESCRIPTION OF THE DRAWINGS

[0066] As Figuras 1 e 2 são diagramas que ilustram funções de base harmônica esférica de várias ordens e subordens.[0066] Figures 1 and 2 are diagrams that illustrate spherical harmonic basis functions of various orders and suborders.

[0067] A Figura 3 é um diagrama que ilustra um sistema que pode realizar vários aspectos das técnicas descritas nesta revelação.[0067] Figure 3 is a diagram illustrating a system that can perform various aspects of the techniques described in this disclosure.

[0068] A Figura 4 é um diagrama de blocos que ilustra, em mais detalhes, um exemplo do dispositivo de codificação de áudio mostrado no exemplo da Figura 3 que pode realizar vários aspectos das técnicas descritas nesta revelação.[0068] Figure 4 is a block diagram illustrating, in more detail, an example of the audio encoding device shown in the example of Figure 3 that can perform various aspects of the techniques described in this disclosure.

[0069] A Figura 5 é um diagrama de blocos que ilustra o dispositivo de decodificação de áudio da Figura 3 em mais detalhes.[0069] Figure 5 is a block diagram illustrating the audio decoding device of Figure 3 in more detail.

[0070] A Figura 6 é um fluxograma que ilustra a operação exemplificativa de uma unidade de análise de conteúdo de um dispositivo de codificação de áudio no desempenho de vários aspectos das técnicas descritas nesta revelação.[0070] Figure 6 is a flowchart illustrating the exemplary operation of a content analysis unit of an audio encoding device in performing various aspects of the techniques described in this disclosure.

[0071] A Figura 7 é um fluxograma que ilustra a operação exemplificativa de um dispositivo de codificação de áudio no desempenho de vários aspectos das técnicas de síntese com base em vetor descritas nesta revelação.[0071] Figure 7 is a flowchart illustrating the exemplary operation of an audio encoding device in performing various aspects of the vector-based synthesis techniques described in this disclosure.

[0072] A Figura 8 é um fluxograma que ilustra a operação exemplificativa de um dispositivo de decodificação de áudio no desempenho de vários aspectos das técnicas descritas nesta revelação.[0072] Figure 8 is a flowchart illustrating the exemplary operation of an audio decoding device in performing various aspects of the techniques described in this disclosure.

[0073] As Figuras 9A a 9L são diagramas de bloco que ilustram vários aspectos do dispositivo de codificação de áudio do exemplo da Figura 4 em mais detalhes.[0073] Figures 9A to 9L are block diagrams illustrating various aspects of the audio encoding device of the Figure 4 example in more detail.

[0074] As Figuras 10A a 10O(ii) são diagramas que ilustram uma porção do fluxo de bits ou informações de canal auxiliar que podem especificar os componentes espaciais comprimidos em mais detalhes.[0074] Figures 10A to 10O(ii) are diagrams illustrating a portion of the bit stream or auxiliary channel information that may specify the compressed spatial components in more detail.

[0075] As Figuras 1lA a 11G são diagramas de blocos que ilustram, em mais detalhes, várias unidades do dispositivo de decodificação de áudio mostrado no exemplo da Figura 5.[0075] Figures 11A to 11G are block diagrams illustrating, in more detail, various units of the audio decoding device shown in the example of Figure 5.

[0076] A Figura 12 é um diagrama que ilustra um ecossistema de áudio exemplificativo que pode realizar vários aspectos das técnicas descritas nesta revelação.[0076] Figure 12 is a diagram illustrating an exemplary audio ecosystem that can perform various aspects of the techniques described in this disclosure.

[0077] A Figura 13 é um diagrama que ilustra um exemplo do ecossistema de áudio da Figura 12 em mais detalhes.[0077] Figure 13 is a diagram illustrating an example of the audio ecosystem of Figure 12 in more detail.

[0078] A Figura 14 é um diagrama que ilustra um exemplo do ecossistema de áudio da Figura 12 em mais detalhes.[0078] Figure 14 is a diagram illustrating an example of the audio ecosystem of Figure 12 in more detail.

[0079] As Figuras 15A e 15B são diagramas que ilustram outros exemplos do ecossistema de áudio da Figura 12 em mais detalhes.[0079] Figures 15A and 15B are diagrams that illustrate other examples of the audio ecosystem of Figure 12 in more detail.

[0080] A Figura 16 é um diagrama que ilustra um dispositivo de codificação de áudio exemplificativo que pode realizar vários aspectos das técnicas descritas nesta revelação.[0080] Figure 16 is a diagram illustrating an exemplary audio encoding device that can perform various aspects of the techniques described in this disclosure.

[0081] A Figura 17 é um diagrama que ilustra um exemplo do dispositivo de codificação de áudio da Figura 16 em mais detalhes.[0081] Figure 17 is a diagram illustrating an example of the audio encoding device of Figure 16 in more detail.

[0082] A Figura 18 é um diagrama que ilustra um dispositivo de decodificação de áudio exemplificativo que pode realizar vários aspectos das técnicas descritas nesta revelação.[0082] Figure 18 is a diagram illustrating an exemplary audio decoding device that can perform various aspects of the techniques described in this disclosure.

[0083] A Figura 19 é um diagrama que ilustra um exemplo do dispositivo de decodificação de áudio da Figura 18 em mais detalhes.[0083] Figure 19 is a diagram illustrating an example of the audio decoding device of Figure 18 in more detail.

[0084] As Figuras 20A a 20G são diagramas que ilustram dispositivos de aquisição de áudio exemplificativos que podem realizar vários aspectos das técnicas descritas nesta revelação.[0084] Figures 20A through 20G are diagrams illustrating exemplary audio acquisition devices that can perform various aspects of the techniques described in this disclosure.

[0085] As Figuras 21A a 21G são diagramas que ilustram dispositivos de reprodução de áudio exemplificativos que podem realizar vários aspectos das técnicas descritas nesta revelação.[0085] Figures 21A to 21G are diagrams illustrating exemplary audio reproduction devices that may perform various aspects of the techniques described in this disclosure.

[0086] As Figuras 22A a 22H são diagramas que ilustram ambientes de reprodução de áudio exemplificativos de acordo com uma ou mais técnicas descritas nesta revelação.[0086] Figures 22A to 22H are diagrams illustrating exemplary audio playback environments in accordance with one or more techniques described in this disclosure.

[0087] A Figura 23 é um diagrama que ilustra um caso de uso exemplificativo em que um usuário pode experimentar um campo sonoro em 3D de um jogo de esporte enquanto usa fones de ouvido de acordo com uma ou mais técnicas descritas nesta revelação.[0087] Figure 23 is a diagram illustrating an exemplary use case in which a user can experience a 3D sound field of a sports game while wearing headphones in accordance with one or more of the techniques described in this disclosure.

[0088] A Figura 24 é um diagrama que ilustra um estádio de esportes em que um campo sonoro em 3D pode ser gravado de acordo com uma ou mais técnicas descritas nesta revelação.[0088] Figure 24 is a diagram illustrating a sports stadium in which a 3D sound field can be recorded according to one or more techniques described in this disclosure.

[0089] A Figura 25 é um diagrama de fluxo que ilustra uma técnica para renderizar um campo sonoro em 3D com base em uma paisagem de áudio local de acordo com uma ou mais técnicas descritas nesta revelação.[0089] Figure 25 is a flow diagram illustrating a technique for rendering a 3D sound field based on a local audio landscape in accordance with one or more techniques described in this disclosure.

[0090] A Figura 26 é um diagrama que ilustra um estúdio de jogos exemplificativo de acordo com uma ou mais técnicas descritas nesta revelação.[0090] Figure 26 is a diagram illustrating an exemplary game studio in accordance with one or more techniques described in this disclosure.

[0091] A Figura 27 é um diagrama que ilustra uma pluralidade de sistemas de jogo que inclui renderizar mecanismos de acordo com uma ou mais técnicas descritas nesta revelação.[0091] Figure 27 is a diagram illustrating a plurality of game systems that include rendering engines in accordance with one or more techniques described in this disclosure.

[0092] A Figura 28 é um diagrama que ilustra uma configuração de alto-falante que pode ser simulada através de fones de ouvido de acordo com uma ou mais técnicas descritas nesta revelação.[0092] Figure 28 is a diagram illustrating a speaker configuration that can be simulated through headphones in accordance with one or more of the techniques described in this disclosure.

[0093] A Figura 29 é um diagrama que ilustra uma pluralidade de dispositivos móveis que podem ser usados para adquirir e/ou editar um campo sonoro em 3D de acordo com uma ou mais técnicas descritas nesta revelação.[0093] Figure 29 is a diagram illustrating a plurality of mobile devices that can be used to acquire and/or edit a 3D sound field in accordance with one or more techniques described in this disclosure.

[0094] A Figura 30 é um diagrama que ilustra um quadro de vídeo associado a um campo sonoro em 3D que pode ser processado de acordo com uma ou mais técnicas descritas nesta revelação.[0094] Figure 30 is a diagram illustrating a video frame associated with a 3D sound field that can be processed according to one or more techniques described in this disclosure.

[0095] As Figuras 31A a 31M são diagramas que ilustram gráficos que mostram vários resultados de simulação de desempenhar a categorização sintética ou gravada do campo sonoro de acordo com vários aspectos das técnicas descritas nesta revelação.[0095] Figures 31A to 31M are diagrams illustrating graphs showing various simulation results of performing synthetic or recorded sound field categorization in accordance with various aspects of the techniques described in this disclosure.

[0096] A Figura 32 é um diagrama que ilustra um gráfico de valores únicos a partir de uma matriz S decomposta a partir de coeficientes ambisonic de ordem superior de acordo com as técnicas descritas nesta revelação.[0096] Figure 32 is a diagram illustrating a graph of single values from a matrix S decomposed from higher order ambisonic coefficients in accordance with the techniques described in this disclosure.

[0097] As Figuras 33A e 33B são diagramas que ilustram os respectivos gráficos que mostram um impacto potencial que a reordenação tem quando codifica os vetores que descrevem componentes de primeiro plano do campo sonoro de acordo com as técnicas descritas nesta revelação.[0097] Figures 33A and 33B are diagrams illustrating respective graphs showing a potential impact that reordering has when encoding vectors describing foreground components of the sound field in accordance with the techniques described in this disclosure.

[0098] As Figuras 34 e 35 são diagramas conceituais que ilustram diferenças entre identificação somente com base em energia e com base em direcionalidade de objetos de áudio distintos, de acordo com esta revelação.[0098] Figures 34 and 35 are conceptual diagrams illustrating differences between energy-only and directionality-based identification of distinct audio objects, in accordance with this disclosure.

[0099] As Figuras 36A a 36G são diagramas que ilustram projeções de pelo menos uma porção da versão decomposta de coeficientes harmônicos esféricos para o domínio espacial de modo a desempenhar a interpolação de acordo com vários aspectos das técnicas descritas nesta revelação.[0099] Figures 36A to 36G are diagrams illustrating projections of at least a portion of the decomposed version of spherical harmonic coefficients into the spatial domain in order to perform interpolation in accordance with various aspects of the techniques described in this disclosure.

[0100] A Figura 37 ilustra uma representação de técnicas para obter uma interpolação espaço-temporal conforme descrito no presente documento.[0100] Figure 37 illustrates a representation of techniques to obtain a spatiotemporal interpolation as described in this document.

[0101] A Figura 38 é um diagrama de blocos que ilustra matrizes U.S. artificiais, USi e US2, para blocos de SVD sequenciais para um sinal multidimensional de acordo com técnicas descritas no presente documento.[0101] Figure 38 is a block diagram illustrating artificial U.S. matrices, USi and US2, for sequential SVD blocks for a multidimensional signal in accordance with techniques described herein.

[0102] A Figura 39 é um diagrama de blocos que ilustra a decomposição de quadros subsequentes de um sinal de ambisonics de ordem superior (HOA) com o uso de Decomposição de Valor Único e suavização dos componentes espaço-temporais de acordo com as técnicas descritas nesta revelação.[0102] Figure 39 is a block diagram illustrating the decomposition of subsequent frames of a higher order ambisonics (HOA) signal using Single Value Decomposition and smoothing of spatiotemporal components according to the techniques described in this revelation.

[0103] As Figuras 40A a 40J são, cada uma, um diagrama de blocos que ilustra os dispositivos de codificação de áudio que podem realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descrevem campos sonoros bi ou tridimensionais.[0103] Figures 40A to 40J are each a block diagram illustrating audio encoding devices that can perform various aspects of the techniques described in this disclosure to compress spherical harmonic coefficients that describe two- or three-dimensional sound fields.

[0104] A Figura 41A a 41D são diagramas de blocos que ilustram, cada um, um dispositivo de decodificação de áudio exemplificativo que pode realizar vários aspectos das técnicas descritas nesta revelação para decodificar coeficientes harmônicos esféricos que descrevem campos sonoros bi ou tridimensionais.[0104] Figures 41A to 41D are block diagrams each illustrating an exemplary audio decoding device that can perform various aspects of the techniques described in this disclosure to decode spherical harmonic coefficients that describe two- or three-dimensional sound fields.

[0105] As Figuras 42A a 42C são, cada uma, diagramas de blocos que ilustram a unidade de redução de ordem mostrada nos exemplos das Figuras 40B a 40J em mais detalhes.[0105] Figures 42A to 42C are each block diagrams illustrating the order reduction unit shown in the examples of Figures 40B to 40J in more detail.

[0106] A Figura 43 é um diagrama que ilustra a unidade de compressão V mostrada na Figura 401 em mais detalhes.[0106] Figure 43 is a diagram illustrating the compression unit V shown in Figure 401 in more detail.

[0107] A Figura 44 é um diagrama que ilustra operações exemplificativas realizadas pelo dispositivo de codificação de áudio para compensar o erro de quantização de acordo com vários aspectos das técnicas descritas nesta revelação.[0107] Figure 44 is a diagram illustrating exemplary operations performed by the audio encoding device to compensate for quantization error in accordance with various aspects of the techniques described in this disclosure.

[0108] As Figuras 45A e 45B são diagramas que ilustram a interpolação de subquadros a partir de porções de dois quadros de acordo com vários aspectos das técnicas descritas nesta revelação.[0108] Figures 45A and 45B are diagrams illustrating the interpolation of subframes from portions of two frames in accordance with various aspects of the techniques described in this disclosure.

[0109] As Figuras 46A a 46E são diagramas que ilustram um corte transversal de uma projeção de um ou mais vetores de uma versão decomposta de uma pluralidade de coeficientes harmônicos esféricos que foram interpolados de acordo com as técnicas descritas nesta revelação.[0109] Figures 46A to 46E are diagrams illustrating a cross-section of a projection of one or more vectors of a decomposed version of a plurality of spherical harmonic coefficients that have been interpolated in accordance with the techniques described in this disclosure.

[0110] A Figura 47 é um diagrama de blocos que ilustra, em mais detalhes, a unidade de extração dos dispositivos de decodificação de áudio mostrados nos exemplos das Figuras 41A a 41D.[0110] Figure 47 is a block diagram illustrating, in more detail, the extraction unit of the audio decoding devices shown in the examples of Figures 41A to 41D.

[0111] A Figura 48 é um diagrama de blocos que ilustra a unidade de renderização de áudio do dispositivo de decodificação de áudio mostrado nos exemplos das Figuras 41A a 41D em mais detalhes.[0111] Figure 48 is a block diagram illustrating the audio rendering unit of the audio decoding device shown in the examples of Figures 41A to 41D in more detail.

[0112] As Figuras 49A a 49E(ii) são diagramas que ilustram os respectivos sistemas de codificação de áudio que podem implantar vários aspectos das técnicas descritas nesta revelação.[0112] Figures 49A to 49E(ii) are diagrams illustrating respective audio coding systems that can implement various aspects of the techniques described in this disclosure.

[0113] As Figuras 50A e 50B são diagramas de blocos que ilustram, cada uma, uma das duas abordagens diferentes para reduzir potencialmente a ordem do conteúdo de segundo plano de acordo com as técnicas descritas nesta revelação.[0113] Figures 50A and 50B are block diagrams each illustrating one of two different approaches to potentially reducing the order of background content in accordance with the techniques described in this disclosure.

[0114] A Figura 51 é um diagrama de blocos que  ilustra os exemplos de um caminho de compressão de componente distinto de um dispositivo de codificação de áudio que pode implantar vários aspectos das técnicas descritas nesta revelação para comprimir os coeficientes harmônicos esféricos.[0114] Figure 51 is a block diagram  illustrating examples of a distinct component compression path of an audio encoding device that can implement various aspects of the techniques described in this disclosure to compress spherical harmonic coefficients.

[0115] As Figuras 52 são um diagrama de blocos que ilustra outro exemplo de um dispositivo de decodificação de áudio que pode implantar vários aspectos das técnicas descritas nesta revelação para reconstruir ou praticamente reconstruir coeficientes harmônicos esféricos (SHC).[0115] Figures 52 is a block diagram illustrating another example of an audio decoding device that can implement various aspects of the techniques described in this disclosure to reconstruct or substantially reconstruct spherical harmonic coefficients (SHC).

[0116] A Figura 53 é um diagrama de bloco que ilustra um outro exemplo de um dispositivo de codificação de áudio que pode realizar vários aspectos das técnicas descritas nesta revelação.[0116] Figure 53 is a block diagram illustrating another example of an audio encoding device that can perform various aspects of the techniques described in this disclosure.

[0117] A Figura 54 é um diagrama de blocos que ilustra, em mais detalhes, uma implantação exemplificativa do dispositivo de codificação de áudio mostrado no exemplo da Figura 53.[0117] Figure 54 is a block diagram illustrating, in more detail, an exemplary implementation of the audio encoding device shown in the example of Figure 53.

[0118] As Figuras 55A e 55B são diagramas que ilustram um exemplo de realizar vários aspectos das técnicas descritas nesta revelação para girar um campo sonoro.[0118] Figures 55A and 55B are diagrams illustrating an example of performing various aspects of the techniques described in this disclosure to rotate a sound field.

[0119] A Figura 56 é um diagrama que ilustra um campo sonoro exemplificativo capturado de acordo com um primeiro quadro de referência que é, então, girado de acordo com as técnicas descritas nesta revelação para expressar o campo sonoro em termos de um segundo quadro de referência.[0119] Figure 56 is a diagram illustrating an exemplary sound field captured in accordance with a first frame of reference which is then rotated in accordance with the techniques described in this disclosure to express the sound field in terms of a second frame of reference. reference.

[0120] As Figuras 57A a 57E são, cada uma, um diagrama que ilustra fluxos de bits formados de acordo com as técnicas descritas nesta revelação.[0120] Figures 57A to 57E are each a diagram illustrating bit streams formed in accordance with the techniques described in this disclosure.

[0121] A Figura 58 é um fluxograma que ilustra a operação exemplificativa do dispositivo de codificação de áudio mostrado no exemplo da Figura 53 na implantação dos aspectos de rotação das técnicas descritas nesta revelação.[0121] Figure 58 is a flowchart illustrating the exemplary operation of the audio encoding device shown in the example of Figure 53 in implementing the rotation aspects of the techniques described in this disclosure.

[0122] A Figura 59 é um fluxograma que ilustra a operação exemplificativa do dispositivo de codificação de áudio mostrado no exemplo da Figura 53 na realização dos aspectos de transformação das técnicas descritas nesta revelação.[0122] Figure 59 is a flowchart illustrating the exemplary operation of the audio encoding device shown in the example of Figure 53 in performing the transforming aspects of the techniques described in this disclosure.

DESCRIÇÃO DETALHADADETAILED DESCRIPTION

[0123] A evolução do som surround disponibilizou muitos formatos de saída para o entretenimento hoje em dia. Os exemplos de tais formatos de som surround do consumidor são, principalmente, "canal" com base no fato de que os mesmos especificam implicitamente alimentações para os alto-falantes em determinadas coordenadas geométricas. Esses incluem o formato popular 5.1 (que inclui os seis canais a seguir: esquerda frontal (FL), direita frontal (FR), centro ou centro frontal, esquerda posterior ou esquerda surround, direita posterior ou direita surround, e efeitos de baixa frequência (LFE)), o crescente formato 7.1, vários formatos que incluem alto falantes de altura como o formato 7.1.4 e o formato 22.2 (por exemplo, para uso com o padrão de Televisão de Definição Ultra Alta). Os formatos para não consumidor podem abranger qualquer quantidade de alto-falantes (em geometrias simétricas e não simétricas) frequentemente designados "arranjos surround". Um exemplo de tal arranjo inclui 32 alto-falantes posicionados em coordenadas dos cantos de um icosaedro truncado.[0123] The evolution of surround sound has made many output formats available for entertainment today. Examples of such consumer surround sound formats are primarily "channel" based on the fact that they implicitly specify feeds to the speakers in certain geometric coordinates. These include the popular 5.1 format (which includes the following six channels: front left (FL), front right (FR), front center or center, back left or surround left, right back or surround right, and low frequency effects ( LFE)), the growing 7.1 format, various formats that include loudspeakers such as the 7.1.4 format and the 22.2 format (e.g. for use with the Ultra High Definition Television standard). Non-consumer formats can span any number of speakers (in symmetrical and non-symmetrical geometries) often referred to as "surround arrays". An example of such an arrangement includes 32 speakers positioned in coordinates of the corners of a truncated icosahedron.

[0124] A entrada em um codificador de MPEG futuro é opcionalmente um dos três formatos possíveis: (i) áudio com base em canal tradicional (conforme discutido acima), que é destinado a ser reproduzido através de alto- falantes em posições pré-especificadas; (ii) áudio com base em objeto, que envolve dados de modulação de código de pulso discreto (PCM) para únicos objetos de áudio com metadados associados que contêm suas coordenadas de local (dentre outras informações); e (iii) áudio com base em cena, que envolve representar o campo sonoro com uso de coeficientes de funções de base harmônica esférica (também chamados de “coeficientes harmônicos esféricos” ou SHC, “ambisonics de ordem superior” ou HOA, e “coeficientes de HOA”). Esse codificador de MPEG futuro pode ser descrito em mais detalhes em um documento intitulado “Call for Proposals for 3D Audio”, pela Organização Internacional para Padronização/Comissão Internacional de Eletrotécnica (ISO)/(IEC) JTC1/SC29/WG11/N13411, liberado em janeiro de 2013 em Genebra, Suíça, e disponível em http://mpeg.chiariglione.org/sites/default/files/files/stan dards/parts/docs/w13411.zip[0124] Input to a future MPEG encoder is optionally one of three possible formats: (i) traditional channel-based audio (as discussed above), which is intended to be played through speakers at pre-specified positions ; (ii) object-based audio, which involves discrete pulse code modulation (PCM) data for single audio objects with associated metadata that contain their location coordinates (among other information); and (iii) scene-based audio, which involves representing the sound field using coefficients of spherical harmonic basis functions (also called “spherical harmonic coefficients” or SHC, “higher order ambisonics” or HOA, and of HOA”). This future MPEG encoder can be described in more detail in a document entitled “Call for Proposals for 3D Audio” by the International Organization for Standardization/International Electrotechnical Commission (ISO)/(IEC) JTC1/SC29/WG11/N13411, released in January 2013 in Geneva, Switzerland, and available at http://mpeg.chiariglione.org/sites/default/files/files/stan dards/parts/docs/w13411.zip

[0125] Há vários formatos com base em canal de "som surround" no mercado. Eles variam, por exemplo, de sistema de home theatre 5.1 (que foi o mais bem-sucedido em termos de fazer avanços nas salas de estar além do estéreo) ao sistema 22.2 desenvolvido por NHK (Nippon Hoso Kyokai ou Japan Broadcasting Corporation). Os criadores de conteúdo (por exemplo, estúdios de Hollywood) gostariam de produzir a trilha sonora para um filme uma vez e sem gastar esforços para remixar a mesma para cada configuração de alto- falante. Recentemente, as Organizações de Desenvolvimento de Padrões têm considerado modos nos quais deve-se fornecer uma codificação para um fluxo de bits padronizado e uma decodificação subsequente que é adaptável e agnóstica à geometria do alto-falante (e número) e condições acústicas no local da reprodução (que envolve um renderizador).[0125] There are several channel-based formats of "surround sound" on the market. They range, for example, from the 5.1 home theater system (which was the most successful in terms of making advances in living rooms beyond stereo) to the 22.2 system developed by NHK (Nippon Hoso Kyokai or Japan Broadcasting Corporation). Content creators (eg Hollywood studios) would like to produce the soundtrack for a movie once and without spending the effort remixing it for each speaker configuration. Recently, Standards Development Organizations have considered ways in which to provide an encoding for a standardized bitstream and subsequent decoding that is adaptive and agnostic to speaker geometry (and number) and acoustic conditions at the location of the speaker. playback (which involves a renderer).

[0126] Para fornecer tal flexibilidade para os criadores de conteúdo, um conjunto hierárquico de elementos podem ser usados para representar um campo sonoro. O conjunto hierárquico de elementos pode se referir a um conjunto de elementos em que os elementos são ordenados de tal modo que um conjunto básico de elementos ordenados inferiores fornece uma representação completa do campo sonoro modelado. Conforme o conjunto é estendido para incluir elementos de ordem superior, a representação se torna mais detalhada, aumentando a resolução.[0126] To provide such flexibility to content creators, a hierarchical set of elements can be used to represent a sound field. The hierarchical set of elements can refer to a set of elements in which the elements are ordered in such a way that a basic set of lower-ordered elements provides a complete representation of the modeled sound field. As the set is extended to include higher-order elements, the representation becomes more detailed, increasing resolution.

[0127] Um exemplo de um conjunto hierárquico de elementos é um conjunto de coeficientes harmônicos esféricos (SHC). A expressão a seguir demonstra uma descrição ou representação de um campo sonoro com o uso de SHC:

Figure img0001
[0127] An example of a hierarchical set of elements is a set of spherical harmonic coefficients (SHC). The following expression demonstrates a description or representation of a sound field using SHC:
Figure img0001

[0128] Essa expressão mostra que a pressão pi em qualquer ponto {rr, r, r} do campo sonoro, no tempo t, pode ser representada unicamente pelo SHC, Amn(k). No presente, k = , c a velocidade do som (-343 m/s), {rr, r, r} é um ponto de referência (ou ponto de observação),jn(•) é a função de Bessel esférica da ordem n, e são as funções de base harmônica esférica da ordem n e subordem m. Pode-se reconhecer que o termo em parênteses quadrados é uma representação de domínio de frequência do sinal (istode coeficientes de funções com base de multirresolução[0128] This expression shows that the pressure pi at any point {rr, r, r} of the sound field, at time t, can be represented solely by the SHC, Amn(k). At present, k = , c the speed of sound (-343 m/s), {rr, r, r} is a reference point (or observation point), jn(•) is the spherical Bessel function of order n , and are the spherical harmonic basis functions of order n and suborder m. It can be recognized that the term in square brackets is a frequency domain representation of the signal (i.e. coefficients of multi-resolution based functions

[0129] A Figura 1 é um diagrama que ilustra funções de base harmônica esférica da ordem zero (n = 0) até a quarta ordem (n = 4). Conforme pode ser visto, para cada ordem, há uma expressão de subordens m que são mostrados, mas não explicitamente notados no exemplo da Figura 1 para facilitar os fins de ilustração.[0129] Figure 1 is a diagram that illustrates spherical harmonic basis functions from zero order (n = 0) to fourth order (n = 4). As can be seen, for each order, there is an expression of suborders m which are shown, but not explicitly noted in the example of Figure 1 for ease of illustration purposes.

[0130] A Figura 2 é outro diagrama que ilustra funções de base harmônica esférica da ordem zero (n = 0) até a quarta ordem (n = 4). Na Figura 2, as funções de base harmônica esférica são mostradas no espaço de coordenada tridimensional tanto com a ordem quanto com a subordem mostradas.[0130] Figure 2 is another diagram that illustrates spherical harmonic basis functions from zero order (n = 0) to fourth order (n = 4). In Figure 2, the spherical harmonic basis functions are shown in three-dimensional coordinate space with both order and suborder shown.

[0131] O SHC

Figure img0002
pode ou ser fisicamente adquirido (por exemplo, gravado) através de várias configurações de arranjo de microfone ou, alternativamente, pode ser derivado de descrições com base em canal ou com base em objeto do campo sonoro. O SHC representa o áudio com base em cena, em que o SHC pode ser inserido em um codificador de áudio para obter o SHC codificado que pode promover a transmissão ou armazenamento mais eficaz. Por exemplo, uma representação de quarta ordem que envolve (1+4)2 (25, e, por isso, quarta ordem) os coeficientes podem ser usados.[0131] The SHC
Figure img0002
it can either be physically acquired (eg, recorded) through various microphone array configurations, or alternatively it can be derived from channel-based or object-based descriptions of the sound field. SHC stands for scene-based audio, where SHC can be inserted into an audio encoder to get encoded SHC that can promote more efficient transmission or storage. For example, a fourth-order representation involving (1+4)2(25, and therefore fourth-order) coefficients can be used.

[0132] Conforme notado acima, o SHC pode ser derivado de uma gravação por microfone com o uso de um microfone. Vários exemplos de como o SHC pode ser derivado dos arranjos de microfone são descritos em Poletti, M., “Three-Dimensional Surround Sound Systems Based on Spherical Harmonics”, J. Audio Eng. Soc, Volume 53, n° 11, novembro de 2005, páginas 1.004 a 1.025.[0132] As noted above, SHC can be derived from microphone recording using a microphone. Several examples of how SHC can be derived from microphone arrays are described in Poletti, M., “Three-Dimensional Surround Sound Systems Based on Spherical Harmonics,” J. Audio Eng. Soc, Volume 53, No. 11, Nov. 2005, pages 1004 to 1025.

[0133] Para ilustrar como esses SHCs podem ser derivados de uma descrição com base em objeto, considere a equação a seguir. Os coeficientes

Figure img0003
para o campo sonoro que corresponde a um objeto de áudio individual podem ser expressos como:
Figure img0004
[0133] To illustrate how these SHCs can be derived from an object-based description, consider the following equation. The coefficients
Figure img0003
for the sound field corresponding to an individual audio object can be expressed as:
Figure img0004

[0134] em que i é

Figure img0005
é a função de Hankel esférica (do segundo tipo) da ordem n, e {rs, θs, tps} é o local do objeto. Conhecendo a energia da fonte do objeto g(ío) como uma função da frequência (por exemplo, com o uso das técnicas de análise de tempo e frequência, como realizar uma transformação rápida de Fourier no fluxo de PCM) permite converter cada objeto de PCM e seu local para
Figure img0006
o SHC 1 . Ademais, pode ser mostrado (uma vez que o exposto acima é uma decomposição linear e ortogonal) que os
Figure img0007
coeficientes de para cada objeto são aditivos. Dessa maneira, uma multiplicidade dos objetos de PCM podem ser
Figure img0008
, representados pelos coeficientes de (por exemplo, como uma soma dos vetores de coeficiente para os objetos individuais). Essencialmente, esses coeficientes contêm informações sobre o campo sonoro (a pressão como uma fu não de coordenadas em 3D), e o exposto acima representa a transformação a partir de objetos individuais em uma representação do campo sonoro geral, nas redondezas do ponto de observação {rr, θr, <Pr}- As Figuras restantes são descritas abaixo no contexto da codificação de áudio com base em objeto e com base em SHC.[0134] where i is
Figure img0005
is the spherical Hankel function (of the second type) of order n, and {rs, θs, tps} is the object location. Knowing the source energy of the object g(ío) as a function of frequency (e.g. using time and frequency analysis techniques such as performing a fast Fourier transform on the PCM stream) allows converting each PCM object and your location for
Figure img0006
the SHC 1 . Furthermore, it can be shown (since the above is a linear and orthogonal decomposition) that the
Figure img0007
coefficients for each object are additive. In this way, a multitude of PCM objects can be
Figure img0008
, represented by the coefficients of (for example, as a sum of the coefficient vectors for the individual objects). Essentially, these coefficients contain information about the sound field (pressure as a fu n of 3D coordinates), and the above represents the transformation from individual objects into a representation of the overall sound field, in the vicinity of the observation point { rr, θr, <Pr}- The remaining Figures are described below in the context of object-based and SHC-based audio encoding.

[0135] A Figura 3 é um diagrama que ilustra um sistema 10 que pode realizar vários aspectos das técnicas descritas nesta revelação. Conforme mostrado no exemplo da Figura 3, o sistema 10 inclui um criador de conteúdo 12 e um consumidor de conteúdo 14. Embora descrito no contexto do criador de conteúdo 12 e do consumidor de conteúdo 14, as técnicas podem ser implantadas em qualquer contexto em que os SHCs (que podem ser referidos como coeficientes de HOA) ou qualquer outra representação hierárquica de um campo sonoro são codificadas para formar um fluxo de bits representativo dos dados de áudio. Além do mais, o criador de conteúdo 12 pode representar qualquer forma de dispositivo de computação com capacidade de implantar as técnicas descritas nesta revelação, que inclui um fone (ou telefone celular), um computador do tipo tablet, um telefone inteligente ou um computador do tipo desktop para fornecer alguns exemplos. Igualmente, o consumidor de conteúdo 14 pode representar qualquer forma de dispositivo de computação com capacidade de implantar as técnicas descritas nesta revelação, que inclui um fone (ou telefone celular), um computador do tipo tablet, um telefone inteligente, um decodificador ou um computador do tipo desktop para fornecer alguns exemplos.[0135] Figure 3 is a diagram illustrating a system 10 that can perform various aspects of the techniques described in this disclosure. As shown in the example in Figure 3, the system 10 includes a content creator 12 and a content consumer 14. Although described in the context of the content creator 12 and the content consumer 14, the techniques can be deployed in any context where SHCs (which may be referred to as HOA coefficients) or any other hierarchical representation of a sound field are encoded to form a bit stream representative of the audio data. Furthermore, the content creator 12 may represent any form of computing device capable of implementing the techniques described in this disclosure, which includes a handset (or cell phone), a tablet computer, a smart phone or a computer of the desktop type to provide some examples. Likewise, the content consumer 14 may represent any form of computing device capable of implementing the techniques described in this disclosure, which includes a handset (or cell phone), a tablet computer, a smart phone, a set-top box or a computer. desktop type to provide some examples.

[0136] O criador de conteúdo 12 pode representar um estúdio de filme ou outra entidade que possa gerar conteúdo de áudio de multicanal para o consumo por consumidores de conteúdo, como o consumidor de conteúdo 14. Em alguns exemplos, o criador de conteúdo 12 pode representar um usuário individual que gostaria de comprimir os coeficientes de HOA 11. Frequentemente, esse criador de conteúdo gera conteúdo de áudio em conjunto com o conteúdo de vídeo. O consumidor de conteúdo 14 representa um indivíduo que possui ou tem acesso a um sistema de reprodução de áudio, que pode se referir a qualquer forma de sistema de reprodução de áudio com capacidade de renderizar o SHC para reproduzir como conteúdo de áudio de multicanal. No exemplo da Figura 3, o consumidor de conteúdo 14 inclui um sistema de reprodução de áudio 16.[0136] Content creator 12 may represent a film studio or other entity that can generate multi-channel audio content for consumption by content consumers, such as content consumer 14. In some instances, content creator 12 may represent an individual user who would like to compress HOA coefficients 11. This content creator will often generate audio content in conjunction with video content. Content consumer 14 represents an individual who owns or has access to an audio reproduction system, which may refer to any form of audio reproduction system capable of rendering the SHC to play as multi-channel audio content. In the example of Figure 3, the content consumer 14 includes an audio playback system 16.

[0137] O criador de conteúdo 12 inclui um sistema de edição de áudio 18. O criador de conteúdo 12 obtém gravações ao vivo 7 em vários formatos (inclusive diretamente como coeficientes de HOA) e objetos de áudio 9, que o criador de conteúdo 12 pode editar com o uso de sistema de edição de áudio 18. O criador de conteúdo pode, durante o processo de edição, renderizar coeficientes de HOA 11 a partir de objetos de áudio 9, ouvir às alimentações do alto-falante renderizadas em uma tentativa de identificar vários aspectos do campo sonoro que exigem edição adicional. O criador de conteúdo 12 pode, então, editar os coeficientes de HOA 11 (potencialmente de modo indireto através da manipulação de diferentes objetos dos objetos de áudio 9 a partir dos quais os coeficientes de HOA de fonte podem ser derivados da maneira descrita acima). O criador de conteúdo 12 pode empregar o sistema de edição de áudio 18 para os coeficientes de HOA 11. O sistema de edição de áudio 18 representa qualquer sistema com capacidade de editar dados de áudio e emitir esses dados de áudio como um ou mais coeficientes harmônicos esféricos de fonte.[0137] Content creator 12 includes an audio editing system 18. Content creator 12 obtains live recordings 7 in various formats (including directly as HOA coefficients) and audio objects 9, which content creator 12 can edit using audio editing system 18. The content creator may, during the editing process, render HOA coefficients 11 from audio objects 9, listen to the rendered speaker feeds in an attempt to identify various aspects of the sound field that require further editing. The content creator 12 can then edit the HOA coefficients 11 (potentially indirectly by manipulating different objects from the audio objects 9 from which the source HOA coefficients can be derived in the manner described above). Content creator 12 may employ audio editing system 18 for HOA coefficients 11. Audio editing system 18 represents any system capable of editing audio data and outputting that audio data as one or more harmonic coefficients source spheres.

[0138] Quando o processo de edição estiver completo, o criador de conteúdo 12 pode gerar um fluxo de bits 21 com base nos coeficientes de HOA 11. Ou seja, o criador de conteúdo 12 inclui um dispositivo de codificação de áudio 20 que representa um dispositivo configurado para codificar ou de outro modo comprimir coeficientes de HOA 11 de acordo com vários aspectos das técnicas descritas nesta revelação para gerar o fluxo de bits 21. O dispositivo de codificação de áudio 20 pode gerar o fluxo de bits 21 para a transmissão, como um exemplo, através de um canal de transmissão, que pode ser um canal com fio ou sem fio, um dispositivo de armazenamento de dados, ou semelhantes. O fluxo de bits 21 pode representar uma versão codificada dos coeficientes de HOA 11 e pode incluir um fluxo de bits primário e um outro fluxo de bits auxiliar, que pode ser referido como informações de canal auxiliar.[0138] When the editing process is complete, content creator 12 can generate a bit stream 21 based on HOA coefficients 11. That is, content creator 12 includes an audio encoding device 20 that represents a device configured to encode or otherwise compress HOA coefficients 11 in accordance with various aspects of the techniques described in this disclosure for generating bit stream 21. Audio encoding device 20 may generate bit stream 21 for transmission, such as an example, through a transmission channel, which may be a wired or wireless channel, a data storage device, or the like. Bitstream 21 may represent an encoded version of HOA coefficients 11 and may include a primary bitstream and another auxiliary bitstream, which may be referred to as auxiliary channel information.

[0139] Embora descrito em mais detalhes abaixo, o dispositivo de codificação de áudio 20 pode ser configurado para codificar os coeficientes de HOA 11 com base em uma síntese com base em vetor ou uma síntese com base direcional. Para determinar se deve-se realizar a metodologia de síntese com base em vetor ou uma metodologia de síntese com base direcional, o dispositivo de codificação de áudio 20 pode determinar, com base pelo menos em parte nos coeficientes de HOA 11, independente do fato de os coeficientes de HOA 11 serem gerados por meio de uma gravação natural de um campo sonoro (por exemplo, gravação ao vivo 7) ou artificialmente produzido (isto é, de modo sintético) a partir, como um exemplo, de objetos de áudio 9, como um objeto de PCM. Quando os coeficientes de HOA 11 foram gerados a partir dos objetos de áudio 9, o dispositivo de codificação de áudio 20 pode codificar os coeficientes de HOA 11 com o uso da metodologia de síntese com base direcional. Quando os coeficientes de HOA 11 foram capturados ao vivo com o uso, por exemplo, de um eigenmike, o dispositivo de codificação de áudio 20 pode codificar os coeficientes de HOA 11 com base na metodologia de síntese com base em vetor. A distinção acima representa um exemplo de onde a metodologia de síntese com base em vetor ou com base direcional pode ser instalada. Pode haver outros casos em que qualquer um ou ambos podem ser úteis para gravações naturais, conteúdo artificialmente gerado ou uma mistura dos dois (conteúdo híbrido). Ademais, também é possível usar ambas as metodologias simultaneamente para codificar um único quadro de tempo de coeficientes de HOA.[0139] Although described in more detail below, the audio encoding device 20 can be configured to encode the HOA coefficients 11 based on either a vector based synthesis or a directional based synthesis. To determine whether to perform a vector-based synthesis methodology or a directional-based synthesis methodology, the audio encoding device 20 can determine, based at least in part on the HOA coefficients 11, regardless of whether the HOA coefficients 11 being generated through a natural recording of a sound field (e.g. live recording 7) or artificially produced (i.e. synthetically) from, as an example, audio objects 9, as a PCM object. When the HOA coefficients 11 have been generated from the audio objects 9, the audio encoding device 20 can encode the HOA coefficients 11 using directional based synthesis methodology. When the HOA coefficients 11 have been captured live using, for example, an eigenmike, the audio encoding device 20 can encode the HOA coefficients 11 based on vector-based synthesis methodology. The above distinction represents an example of where vector-based or directional-based synthesis methodology can be installed. There may be other cases where either or both can be useful for natural recordings, artificially generated content, or a mixture of the two (hybrid content). Furthermore, it is also possible to use both methodologies simultaneously to encode a single time frame of HOA coefficients.

[0140] Supondo-se que, para fins de ilustração, o dispositivo de codificação de áudio 20 determina que os coeficientes de HOA 11 foram capturados ao vivo ou de outro modo representam gravações ao vivo, como a gravação ao vivo 7, o dispositivo de codificação de áudio 20 podem ser configurados para codificar os coeficientes de HOA 11 com o uso de uma metodologia de síntese com base em vetor que envolve a aplicação de uma transformada inversível linear (LIT). Um exemplo da transformada inversível linear é referida como uma “decomposição de valor único” (ou “SVD”). Nesse exemplo, o dispositivo de codificação de áudio 20 pode aplicar a SVD aos coeficientes de HOA 11 para determinar uma versão decomposta dos coeficientes de HOA 11. O dispositivo de codificação de áudio 20 pode, então, analisar a versão decomposta dos coeficientes de HOA 11 para identificar vários parâmetros, que podem facilitar a reordenação da versão decomposta dos coeficientes de HOA 11. O dispositivo de codificação de áudio 20 pode, então, reordenar a versão decomposta dos coeficientes de HOA 11 com base nos parâmetros identificados, em que tal reordenação, conforme descrito em mais detalhes abaixo, pode aprimorar a eficiência de codificação dado que a transformação pode reordenar os coeficientes de HOA através dos quadros dos coeficientes de HOA (em que um quadro inclui comumente M amostras dos coeficientes de HOA 11 e M é, em alguns exemplos, definido em 1.024). Após a reordenação da versão decomposta dos coeficientes de HOA 11, o dispositivo de codificação de áudio 20 pode selecionar aqueles da versão decomposta dos coeficientes de HOA 11 representativos de componentes do campo sonoro de primeiro plano (ou, em outras palavras, distintos, predominantes ou salientes). O dispositivo de codificação de áudio 20 pode especificar a versão decomposta dos coeficientes de HOA 11 representativos dos componentes de primeiro plano como um objeto de áudio e informações direcionais associadas.[0140] Assuming that, for purposes of illustration, the audio encoding device 20 determines that the HOA coefficients 11 were captured live or otherwise represent live recordings, such as the live recording 7, the audio encoding 20 can be configured to encode the HOA coefficients 11 using a vector-based synthesis methodology that involves applying a linear invertible transform (LIT). An example of the linear invertible transform is referred to as a “single-value decomposition” (or “SVD”). In this example, the audio coding device 20 can apply the SVD to the HOA coefficients 11 to determine a decomposed version of the HOA coefficients 11. The audio coding device 20 can then analyze the decomposed version of the HOA coefficients 11 to identify various parameters, which can facilitate reordering of the decomposed version of the HOA coefficients 11. The audio encoding device 20 can then reorder the decomposed version of the HOA coefficients 11 based on the identified parameters, wherein such reordering, as described in more detail below, can improve coding efficiency as the transformation can reorder the HOA coefficients across the HOA coefficients frames (where a frame commonly includes M samples of the HOA coefficients 11 and M is, in some examples, defined in 1024). After reordering the decomposed version of the HOA coefficients 11, the audio encoding device 20 can select those of the decomposed version of the HOA coefficients 11 representative of foreground (or, in other words, distinct, predominant, or protruding). Audio encoding device 20 may specify the decomposed version of HOA coefficients 11 representative of foreground components as an audio object and associated directional information.

[0141] O dispositivo de codificação de áudio 20 também pode realizar uma análise de campo sonoro em relação aos coeficientes de HOA 11 a fim de, pelo menos em parte, identificar aqueles dos coeficientes de HOA 11 representativos de um ou mais componentes do campo sonoro de segundo plano (ou, em outras palavras, ambiente). O dispositivo de codificação de áudio 20 pode realizar a compensação de energia em relação aos componentes de segundo plano dado que, em alguns exemplos, os componentes de segundo plano podem incluir apenas um subconjunto de qualquer dada amostra dos coeficientes de HOA 11 (por exemplo, como aqueles que correspondem a zero e funções de base esférica de primeira ordem e não aqueles que correspondem às funções de base esférica de segunda ordem ou de ordem superior). Quando a redução de ordem for realizada, em outras palavras, o dispositivo de codificação de áudio 20 pode aumentar (por exemplo, somar/subtrair energia a/de) os coeficientes de HOA de segundo plano restantes dos coeficientes de HOA 11 para compensar a alteração na energia geral que resulta da realização da redução de ordem.[0141] The audio coding device 20 may also perform a sound field analysis against the HOA 11 coefficients in order to, at least in part, identify those of the HOA 11 coefficients representative of one or more components of the sound field background (or, in other words, environment). The audio encoding device 20 can perform power compensation against the background components as, in some instances, the background components may only include a subset of any given sample of the HOA coefficients 11 (e.g., as those that correspond to zero and first-order spherical-based functions and not those that correspond to second-order or higher-order spherical-based functions). When order reduction is performed, in other words, the audio encoding device 20 can increase (e.g., add/subtract energy to/from) the background HOA coefficients remaining from the HOA coefficients 11 to compensate for the change in the general energy resulting from the realization of order reduction.

[0142] O dispositivo de codificação de áudio 20 pode realizar, em seguida, uma forma de codificação psicoacústica (como formas de surround MPEG, MPEG-AAC, MPEG-USAC ou outras formas conhecidas de codificação psicoacústica) em relação a cada um dos coeficientes de HOA 11 representativos dos componentes de segundo plano e cada um dos objetos de áudio de primeiro plano. O dispositivo de codificação de áudio 20 pode realizar uma forma de interpolação em relação às informações direcionais de primeiro plano e, então, pode realizar uma redução de ordem em relação às informações direcionais de primeiro plano interpoladas para gerar informações direcionais de primeiro plano de ordem reduzida. O dispositivo de codificação de áudio 20 pode realizar adicionalmente, em alguns exemplos, uma quantização em relação às informações direcionais de primeiro plano de ordem reduzida, que emitem informações direcionais de primeiro plano codificadas. Em algumas ocasiões, essa quantização pode compreender uma quantização escalar/por entropia. O dispositivo de codificação de áudio 20 pode, então, formar o fluxo de bits 21 para incluir os componentes de segundo plano codificados, os objetos de áudio de primeiro plano codificados, e as informações direcionais quantizadas. O dispositivo de codificação de áudio 20 pode então transmitir ou de outro modo enviar o fluxo de bits 21 para o consumidor de conteúdo 14.[0142] The audio encoding device 20 may then perform a form of psychoacoustic encoding (such as MPEG surround forms, MPEG-AAC, MPEG-USAC or other known forms of psychoacoustic encoding) with respect to each of the coefficients of HOA 11 representative of the background components and each of the foreground audio objects. The audio encoding device 20 can perform a form of interpolation with respect to the foreground directional information and then can perform an order reduction with respect to the interpolated foreground directional information to generate reduced order foreground directional information. . The audio encoding device 20 may additionally perform, in some examples, a quantization with respect to low-order foreground directional information, which outputs encoded foreground directional information. On some occasions, this quantization may comprise a scalar/entropy quantization. Audio encoding device 20 can then form bit stream 21 to include encoded background components, encoded foreground audio objects, and quantized directional information. Audio encoding device 20 can then transmit or otherwise send bitstream 21 to content consumer 14.

[0143] Embora mostrado na Figura 3 como sendo diretamente transmitido para o consumidor de conteúdo 14, o criador de conteúdo 12 pode emitir o fluxo de bits 21 para um dispositivo intermediário posicionado entre o criador de conteúdo 12 e o consumidor de conteúdo 14. Esse dispositivo intermediário pode armazenar o fluxo de bits 21 para a entrega posterior para o consumidor de conteúdo 14, que pode solicitar esse fluxo de bits. O dispositivo intermediário pode compreender um servidor de arquivo, um servidor de rede, um computador do tipo desktop, um computador do tipo laptop, um computador do tipo tablet, um telefone móvel, um telefone inteligente ou qualquer outro dispositivo com capacidade de armazenar o fluxo de bits 21 para posterior recuperação através de um decodificador de áudio. Esse dispositivo intermediário pode residir em uma rede de entrega de conteúdo com capacidade de transmitir de modo contínuo o fluxo de bits 21 (e possivelmente em conjunto com a transmissão de um fluxo de bits de dados de vídeo correspondente) para assinantes, como o consumidor de conteúdo 14, que solicita o fluxo de bits 21.[0143] Although shown in Figure 3 as being directly transmitted to the content consumer 14, the content creator 12 can output the bit stream 21 to an intermediate device positioned between the content creator 12 and the content consumer 14. This intermediary device can store the bit stream 21 for later delivery to the content consumer 14, which can request that bit stream. The intermediary device may comprise a file server, a network server, a desktop-type computer, a laptop-type computer, a tablet-type computer, a mobile phone, a smart phone, or any other device capable of storing the stream. 21 bits for later retrieval via an audio decoder. This intermediary device may reside on a content delivery network capable of continuously transmitting the 21 bit stream (and possibly in conjunction with the transmission of a corresponding video data bit stream) to subscribers such as the consumer of content 14, which requests bitstream 21.

[0144] Alternativamente, o criador de conteúdo 12 pode armazenar o fluxo de bits 21 em um meio de armazenamento, como um disco compacto, um disco de vídeo digital, um disco de vídeo em alta definição ou outras mídias de armazenamento, cuja maioria tem capacidade de ser lida por um computador e, portanto, pode ser referida como mídias de armazenamento legíveis por computador ou mídias de armazenamento legíveis por computador não transitórias. Nesse contexto, o canal de transmissão pode se referir àqueles canais através dos quais o conteúdo armazenado nesses meios são transmitidos (e podem incluir lojas de varejo e outro mecanismo de entrega baseado em loja). Em qualquer evento, as técnicas desta revelação não devem ser, portanto, limitadas nesse sentido ao exemplo da Figura 3.[0144] Alternatively, the content creator 12 may store the bit stream 21 on a storage medium such as a compact disc, digital video disc, high definition video disc or other storage media, most of which have ability to be read by a computer and therefore may be referred to as computer-readable storage media or non-transient computer-readable storage media. In this context, broadcast channel may refer to those channels through which content stored on these media is transmitted (and may include retail stores and other store-based delivery mechanisms). In any event, the techniques of this disclosure should therefore not be limited in this regard to the example in Figure 3.

[0145] Conforme adicionalmente mostrado no exemplo da Figura 3, o consumidor de conteúdo 14 inclui o sistema de reprodução de áudio 16. O sistema de reprodução de áudio 16 pode representar qualquer sistema de reprodução de áudio com capacidade de reproduzir dados de áudio de multicanal. O sistema de reprodução de áudio 16 pode incluir inúmeros Concorrentes diferentes 22. Os Concorrentes 22 podem, cada um, fornecer uma forma diferente de renderização, em que as formas diferentes de renderização podem incluir um ou mais dentre os vários modos de realizar variação gradual de amplitude com base em vetor (VBAP) e/ou um ou mais dentre os vários modos de realizar a síntese de campo sonoro. Conforme usado no presente documento, “A e/ou B” significa “A ou B” ou tanto “A quanto B”.[0145] As further shown in the example of Figure 3, the content consumer 14 includes the audio reproduction system 16. The audio reproduction system 16 can represent any audio reproduction system capable of playing multi-channel audio data. . The audio reproduction system 16 may include a number of different Competitors 22. The Competitors 22 may each provide a different form of rendering, where the different forms of rendering may include one or more of several modes of performing stepwise variation of vector-based amplitude (VBAP) and/or one or more of several ways to perform sound field synthesis. As used herein, "A and/or B" means "A or B" or both "A and B".

[0146] O sistema de reprodução de áudio 16 pode incluir adicionalmente um dispositivo de decodificação de áudio 24. O dispositivo de decodificação de áudio 24 pode representar um dispositivo configurado para decodificar os coeficientes de HOA 11‘ a partir do fluxo de bits 21, em que os coeficientes de HOA 11‘ podem ser semelhantes aos coeficientes de HOA 11, mas diferem devido às operações de perda (por exemplo, quantização) e/ou transmissão por meio do canal de transmissão. Ou seja, o dispositivo de decodificação de áudio 24 pode desquantizar as informações direcionais de primeiro plano especificadas no fluxo de bits 21, enquanto também realiza a decodificação psicoacústica em relação aos objetos de áudio de primeiro plano especificados no fluxo de bits 21 e nos coeficientes de HOA codificados representativos de componentes de segundo plano. O dispositivo de decodificação de áudio 24 pode realizar adicionalmente a interpolação em relação às informações direcionais de primeiro plano decodificadas e, então, determinar os coeficientes de HOA representativos dos componentes de primeiro plano com base nos objetos de áudio de primeiro plano decodificados e nas informações direcionais de primeiro plano interpoladas. O dispositivo de decodificação de áudio 24 pode então determinar os coeficientes de HOA 11’ com base nos coeficientes de HOA determinados representativos dos componentes de primeiro plano e dos coeficientes de HOA decodificados representativos dos componentes de segundo plano.[0146] Audio reproduction system 16 may additionally include an audio decoding device 24. Audio decoding device 24 may represent a device configured to decode HOA coefficients 11' from bit stream 21 into that HOA 11' coefficients may be similar to HOA 11 coefficients, but differ due to loss operations (eg, quantization) and/or transmission through the transmission channel. That is, the audio decoding device 24 can dequantize the foreground directional information specified in the bitstream 21, while also performing psychoacoustic decoding with respect to the foreground audio objects specified in the bitstream 21 and the frequency coefficients. HOA encoded representative of background components. Audio decoding device 24 may additionally perform interpolation against the decoded foreground directional information and then determine representative HOA coefficients of foreground components based on the decoded foreground audio objects and directional information. interpolated foreground. The audio decoding device 24 can then determine the HOA coefficients 11' based on the determined HOA coefficients representative of the foreground components and the decoded HOA coefficients representative of the background components.

[0147] O sistema de reprodução de áudio 16 pode, após a decodificação do fluxo de bits 21, obter os coeficientes de HOA 11‘ e renderizar os coeficientes de HOA 11‘ para emitir alimentações de alto-falante 25. As alimentações de alto-falante 25 pode acionar um ou mais alto-falantes (que não são mostrados no exemplo da Figura 3 para facilidade de fins de ilustração).[0147] Audio reproduction system 16 may, after decoding bit stream 21, obtain HOA coefficients 11' and render HOA coefficients 11' to output speaker feeds 25. Speaker 25 can drive one or more speakers (which are not shown in the example of Figure 3 for ease of illustration purposes).

[0148] Para selecionar o renderizador adequado ou, em algumas ocasiões, gerar um renderizador adequado, o sistema de reprodução de áudio 16 pode obter informações de alto-falante 13 indicativas de um número de alto-falantes e/ou uma geometria espacial dos alto-falantes. Em algumas ocasiões, o sistema de reprodução de áudio 16 pode obter as informações de alto-falante 13 com o uso de um microfone de referência e que aciona os alto-falantes de tal maneira a determinar dinamicamente as informações de alto-falante 13. Em outras ocasiões ou em conjunto com a determinação dinâmica das informações de alto-falante 13, o sistema de reprodução de áudio 16 pode estimular um usuário a fazer interface com o sistema de reprodução de áudio 16 e introduzir as informações de alto-falante 16.[0148] In order to select the proper renderer or, on some occasions, generate a suitable renderer, the audio playback system 16 may obtain speaker information 13 indicative of a number of speakers and/or a spatial geometry of the loudspeakers. -speakers. On some occasions, the audio reproduction system 16 may obtain information from speaker 13 using a reference microphone and which drives the speakers in such a way as to dynamically determine information from speaker 13. In At other times or in conjunction with dynamically determining speaker information 13, audio reproduction system 16 may prompt a user to interface with audio reproduction system 16 and input speaker information 16.

[0149] O sistema de reprodução de áudio 16 pode, então, selecionar um dos Concorrentes de áudio 22 com base nas informações de alto-falante 13. Em algumas ocasiões, o sistema de reprodução de áudio 16 pode, quando nenhum dos Concorrentes de áudio 22 estiver dentro de alguma medida de similaridade limite (no sentido da geometria do alto-falante) àquela especificada nas informações de alto-falante 13, gerar o um dentre os Concorrentes de áudio 22 com base nas informações de alto- falante 13. O sistema de reprodução de áudio 16 pode, em algumas ocasiões, gerar o um dos Concorrentes de áudio 22 com base nas informações de alto-falante 13 sem tentar primeiro selecionar um Concorrente existente dentre os Concorrentes de áudio 22.[0149] Audio playback system 16 may then select one of Audio Competitors 22 based on speaker information 13. On some occasions, audio playback system 16 may, when none of the Audio Competitors 22 is within some limiting similarity measure (in the sense of speaker geometry) to that specified in speaker information 13, generate the one among audio competitors 22 based on speaker information 13. The system 16 may, on some occasions, generate the one of Audio Competitors 22 based on speaker information 13 without first trying to select an existing Competitor from among the Audio Competitors 22.

[0150] A Figura 4 é um diagrama de blocos que ilustra, em mais detalhes, um exemplo do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 3 que pode realizar vários aspectos das técnicas descritas nesta revelação. O dispositivo de codificação de áudio 20 inclui uma unidade de análise de conteúdo 26, uma unidade de metodologia de síntese com base em vetor 27 e uma unidade de metodologia de síntese com base direcional 28.[0150] Figure 4 is a block diagram illustrating, in more detail, an example of the audio encoding device 20 shown in the example of Figure 3 that can perform various aspects of the techniques described in this disclosure. The audio encoding device 20 includes a content analysis unit 26, a vector-based synthesis methodology unit 27 and a directional-based synthesis methodology unit 28.

[0151] A unidade de análise de conteúdo 26 representa uma unidade configurada para analisar o conteúdo dos coeficientes de HOA 11 para identificar se os coeficientes de HOA 11 representa o conteúdo gerado a partir de uma gravação ao vivo ou um objeto de áudio. A unidade de análise de conteúdo 26 pode determinar se os coeficientes de HOA 11 foram gerados a partir de uma gravação de um campo sonoro real ou de um objeto de áudio artificial. A unidade de análise de conteúdo 26 pode fazer essa determinação de vários modos. Por exemplo, a unidade de análise de conteúdo 26 pode codificar (N+1)2-1 os canais e predizer o último canal restante (que pode ser representado como um vetor). A unidade de análise de conteúdo 26 pode aplicar escalares a pelo menos alguns dos canais (N+1)2-1 e somar os valores resultantes para determinar o último canal restante. Ademais, nesse exemplo, a unidade de análise de conteúdo 26 pode determinar uma precisão do canal predito. Nesse exemplo, se a precisão do canal predito é relativamente alta (por exemplo, a precisão excede um limite específico), os coeficientes de HOA 11 são provavelmente gerados a partir de um objeto de áudio sintético. Em contrapartida, se a precisão do canal predito é relativamente baixa (por exemplo, a precisão está abaixo do limite específico), os coeficientes de HOA 11 são mais prováveis de representar um campo sonoro gravado. Poe exemplo, nesse exemplo, se uma razão entre sinal e ruído (SNR) do canal predito estiver acima de 100 decibéis (dbs), os coeficientes de HOA 11 são mais prováveis de representar um campo sonoro gerado a partir de um objeto de áudio sintético. Em contrapartida, a SNR de um campo sonoro gravado com o uso de um microfone próprio pode ser de 5 a 20 dbs. Assim, pode haver uma demarcação evidente em razões SNR entre o campo sonoro representado pelos coeficientes de HOA 11 gerados a partir de uma gravação direta real e de um objeto de áudio sintético.[0151] Content analysis unit 26 represents a unit configured to analyze the content of HOA coefficients 11 to identify whether HOA coefficients 11 represents content generated from a live recording or an audio object. The content analysis unit 26 can determine whether the HOA coefficients 11 were generated from a recording of an actual sound field or an artificial audio object. The content analysis unit 26 can make this determination in several ways. For example, the content analysis unit 26 can encode (N+1)2-1 the channels and predict the last remaining channel (which can be represented as a vector). The content analysis unit 26 can apply scalars to at least some of the (N+1)2-1 channels and sum the resulting values to determine the last remaining channel. Furthermore, in this example, the content analysis unit 26 can determine an accuracy of the predicted channel. In this example, if the precision of the predicted channel is relatively high (for example, the precision exceeds a specific threshold), the HOA 11 coefficients are likely generated from a synthetic audio object. In contrast, if the predicted channel accuracy is relatively low (eg, the accuracy is below the specific threshold), the HOA 11 coefficients are more likely to represent a recorded sound field. For example, in this example, if a signal-to-noise ratio (SNR) of the predicted channel is above 100 decibels (dbs), the HOA 11 coefficients are more likely to represent a sound field generated from a synthetic audio object. . On the other hand, the SNR of a sound field recorded using its own microphone can be from 5 to 20 dBs. Thus, there may be a clear demarcation in SNR ratios between the sound field represented by the HOA 11 coefficients generated from a real direct recording and a synthetic audio object.

[0152] Mais especificamente, a unidade de análise de conteúdo 26 pode, quando se determinar se os coeficientes de HOA 11 representativos de um campo sonoro forem gerados a partir de um objeto de áudio sintético, obter uns coeficientes com quadro de coeficientes de HOA, que pode ser de tamanho de 25 por 1.024 para uma representação de quarta ordem (isto é, N = 4). Após obter os coeficientes de HOA com quadro (que podem ser denotados no presente documento como uma matriz de SHC com quadro 11 e matrizes de SHC com quadro subsequentes podem ser denotadas como matrizes de SHC com quadro 27B, 27C, etc.). A unidade de análise de conteúdo 26 pode então excluir o primeiro vetor dos coeficientes de HOA com quadro 11 para gerar coeficientes de HOA com quadro reduzidos. Em alguns exemplos, esse primeiro vetor excluído dos coeficientes de HOA com quadro 11 pode corresponder àqueles dos coeficientes de HOA 11 associados à função de base harmônica esférica de ordem zero, de subordem zero.[0152] More specifically, the content analysis unit 26 can, when determining whether the HOA coefficients 11 representative of a sound field are generated from a synthetic audio object, obtain coefficients with a frame of HOA coefficients, which can be 25 by 1024 in size for a fourth-order representation (ie N = 4). After obtaining the framed HOA coefficients (which may be denoted herein as a framed SHC matrix 11 and subsequent framed SHC matrices may be denoted as framed SHC matrices 27B, 27C, etc.). The content analysis unit 26 can then exclude the first vector of framed HOA coefficients 11 to generate reduced frame HOA coefficients. In some examples, this first vector excluded from the HOA coefficients with frame 11 may correspond to those of the HOA coefficients 11 associated with the zero-order, zero-order spherical harmonic basis function.

[0153] A unidade de análise de conteúdo 26 pode, então, predizer o primeiro vetor diferente de zero dos coeficientes de HOA reduzidos com quadro a partir de vetores restantes dos coeficientes de HOA reduzidos com quadro. O primeiro vetor diferente de zero pode se referir a um primeiro vetor que vai da primeira ordem (e que considera cada uma das subordens dependentes de ordem) a quarta ordem (e que considera cada uma das subordens dependentes de ordem) que tem valores além de zero. Em alguns exemplos, o primeiro vetor diferente de zero dos coeficientes de HOA reduzidos com quadro se refere àqueles dos coeficientes de HOA 11 associados à função de base harmônica esférica de primeira ordem, de subordem zero. Embora descrito em relação ao primeiro vetor diferente de zero, as técnicas podem predizer outros vetores dos coeficientes de HOA reduzidos com quadro a partir de vetores restantes dos coeficientes de HOA reduzidos com quadro. Por exemplo, a unidade de análise de conteúdo 26 pode predizer aqueles dentre os coeficientes de HOA reduzidos com quadro associados a uma função de base harmônica esférica de primeira ordem, de primeira subordem ou uma função de base harmônica esférica de primeira ordem, de primeira subordem negativa. Como ainda outros exemplos, a unidade de análise de conteúdo 26 pode predizer aqueles dentre os coeficientes de HOA reduzidos com quadro associados a uma função de base harmônica esférica de segunda ordem, de ordem zero.[0153] The content analysis unit 26 can then predict the first non-zero vector of the framed reduced HOA coefficients from the remaining vectors of the framed reduced HOA coefficients. The first non-zero vector can refer to a first vector that goes from the first order (and that considers each of the order-dependent suborders) to the fourth order (and that considers each of the order-dependent suborders) that has values in addition to zero. In some examples, the first non-zero vector of the frame-reduced HOA coefficients refers to those of the 11 HOA coefficients associated with the zero-order, first-order spherical harmonic basis function. Although described with respect to the first non-zero vector, the techniques can predict other vectors of the frame-reduced HOA coefficients from the remaining vectors of the frame-reduced HOA coefficients. For example, the content analysis unit 26 can predict those of frame-reduced HOA coefficients associated with a first-order, first-order, spherical harmonic basis function or a first-order, first-order, spherical harmonic basis function. negative. As yet other examples, the content analysis unit 26 can predict those of the frame-reduced HOA coefficients associated with a zero-order second-order spherical harmonic basis function.

[0154] Para predizer o primeiro vetor diferente de zero, a unidade de análise de conteúdo 26 pode operar de acordo com a equação a seguir:

Figure img0009
[0154] To predict the first non-zero vector, the content analysis unit 26 can operate according to the following equation:
Figure img0009

[0155] em que z é de 1 a

Figure img0010
, que é 23 para uma representação de quarta ordem, cxi denota alguma constante para o z’-ésimo vetor, e V1 se refere ao z’-ésimo vetor. Após predizer o primeiro vetor diferente de zero, a unidade de análise de conteúdo 26 pode obter um erro com base no primeiro vetor diferente de zero predito e no vetor diferente de zero real. Em alguns exemplos, a unidade de análise de conteúdo 26 subtrai o primeiro vetor diferente de zero predito do primeiro vetor diferente de zero real para derivar o erro. A unidade de análise de conteúdo 26 pode computar o erro como uma soma do valor absoluto das diferenças entre cada entrada no primeiro vetor diferente de zero predito e o primeiro vetor diferente de zero real.[0155] where z is from 1 to
Figure img0010
, which is 23 for a fourth-order representation, cxi denotes some constant for the z'-th vector, and V1 refers to the z'-th vector. After predicting the first nonzero vector, the content analysis unit 26 may obtain an error based on the predicted first nonzero vector and the actual nonzero vector. In some examples, the content analysis unit 26 subtracts the first predicted nonzero vector from the first actual nonzero vector to derive the error. The content analysis unit 26 may compute the error as a sum of the absolute value of the differences between each entry in the first predicted nonzero vector and the first actual nonzero vector.

[0156] Uma vez que o erro é obtido, a unidade de análise de conteúdo 26 pode computar uma razão com base em uma energia do primeiro vetor diferente de zero real e do erro. A unidade de análise de conteúdo 26 pode determinar essa energia calculando-se o quadrado de cada entrada do primeiro vetor diferente de zero adicionando-se as entradas quadradas entre si. A unidade de análise de conteúdo 26 pode, então, comparar essa razão a um limite. Quando a razão não exceder o limite, a unidade de análise de conteúdo 26 pode determinar que os coeficientes de HOA com quadro 11 são gerados a partir de uma gravação e indicam no fluxo de bits que a representação codificada correspondente dos coeficientes de HOA 11 foi gerada a partir de uma gravação. Quando a razão exceder o limite, a unidade de análise de conteúdo 26 pode determinar que os coeficientes de HOA com quadro 11 são gerados a partir de um objeto de áudio sintético e indicam no fluxo de bits que a representação codificada correspondente dos coeficientes de HOA 11 com quadro foi gerada a partir de um objeto de áudio sintético.[0156] Once the error is obtained, the content analysis unit 26 can compute a ratio based on an actual non-zero first vector energy and the error. The content analysis unit 26 can determine this energy by squaring each input of the first non-zero vector by adding the squared inputs together. The content analysis unit 26 can then compare this ratio to a threshold. When the ratio does not exceed the threshold, the content analysis unit 26 can determine that the HOA coefficients with frame 11 are generated from a recording and indicate in the bit stream that the corresponding encoded representation of the HOA coefficients 11 has been generated. from a recording. When the ratio exceeds the threshold, the content analysis unit 26 can determine that the HOA coefficients with frame 11 are generated from a synthetic audio object and indicate in the bit stream that the corresponding encoded representation of the HOA coefficients 11 with frame was generated from a synthetic audio object.

[0157] A indicação de se os coeficientes de HOA com quadro 11 foi gerada a partir de uma gravação ou de um objeto de áudio sintético pode compreender um único bit para cada quadro. O único bit pode indicar que diferentes codificações foram usadas para cada quadro efetivamente comutando entre diferentes modos pelos quais deve-se codificar os quadros correspondentes. Em algumas ocasiões, quando os coeficientes de HOA com quadro 11 foram gerados a partir de uma gravação, a unidade de análise de conteúdo 26 passa os coeficientes de HOA 11 para a unidade de síntese com base em vetor 27. Em algumas ocasiões, quando os coeficientes de HOA com quadro 11 foram gerados a partir de um objeto de áudio sintético, a unidade de análise de conteúdo 26 passa os coeficientes de HOA 11 para a unidade de síntese com base direcional 28. A unidade de síntese com base direcional 28 pode representar uma unidade configurada para realizar uma síntese com base direcional dos coeficientes de HOA 11 para gerar um fluxo de bits com base direcional 21.[0157] The indication of whether the HOA coefficients with frame 11 were generated from a recording or a synthetic audio object may comprise a single bit for each frame. The single bit can indicate that different encodings were used for each frame effectively switching between different ways in which to encode the corresponding frames. On some occasions, when HOA coefficients with frame 11 were generated from a recording, the content analysis unit 26 passes the HOA coefficients 11 to the vector-based synthesis unit 27. On some occasions, when the HOA coefficients with frame 11 were generated from a synthetic audio object, the content analysis unit 26 passes the HOA coefficients 11 to the directional-based synthesis unit 28. The directional-based synthesis unit 28 can represent a unit configured to perform a directional based synthesis of HOA coefficients 11 to generate a directional based 21 bit stream.

[0158] Em outras palavras, as técnicas se baseiam na codificação dos coeficientes de HOA com ou uso de um classificador de front-end. O classificador pode funcionar conforme segue:[0158] In other words, the techniques are based on encoding the HOA coefficients with or using a front-end classifier. The classifier can work as follows:

[0159] Começar com uma matriz de SH com quadro (diga-se 4aordem, tamanho de quadro de 1.024, que também pode ser referida como coeficientes de HOA com quadro ou como coeficientes de HOA) - em que uma matriz de tamanho 25 x 1.024 é obtida.[0159] Start with a framed SH matrix (say 4th order, 1024 frame size, which can also be referred to as framed HOA coefficients or HOA coefficients) - where a 25 x 1024 size matrix is obtained.

[0160] Excluir o 1° vetor (SH de ordem zero) - para que haja uma matriz de tamanho 24 x 1.024.[0160] Delete the 1st vector (zero order SH) - so there is a matrix of size 24 x 1024.

[0161] Predizer o primeiro vetor diferente de zero na matriz (um vetor de tamanho 1 x 1.024) - a partir do resto dos vetores na matriz (23 vetores de tamanho 1 x 1.024).[0161] Predict the first non-zero vector in the matrix (a vector of size 1 x 1024) - from the rest of the vectors in the matrix (23 vectors of size 1 x 1024).

[0162] A predição é conforme segue: vetor predito = soma-sobre-i [alfa-i x vetor-I] (em que a soma sobre I é feita em 23 índices, i=l...23)[0162] The prediction is as follows: predicted vector = sum-over-i [alpha-i x vector-I] (where the sum over I is done in 23 indices, i=l...23)

[0163] Então, verificar o erro: vetor real - vetor predito = erro.[0163] Then check the error: actual vector - predicted vector = error.

[0164] Se a razão da energia do vetor/erro for grande (isto é, O erro for menor), então o campo sonoro subjacente (nesse quadro) é esparso/sintético. Ou, o campo sonoro subjacente é um campo sonoro gravado (com o uso, diga-se, de um arranjo de microfone).[0164] If the vector energy/error ratio is large (ie Error is smaller), then the underlying sound field (in that frame) is sparse/synthetic. Or, the underlying sound field is a recorded sound field (using, say, a microphone array).

[0165] Dependendo da decisão de gravado contra sintético, realizar a codificação/decodificação (que pode se referir à compressão de largura de banda) de modos diferentes. A decisão é uma decisão de 1 bit, que é enviada através do fluxo de bits para cada quadro.[0165] Depending on the recording versus synthetic decision, perform encoding/decoding (which may refer to bandwidth compression) in different ways. The decision is a 1-bit decision, which is sent through the bit stream for each frame.

[0166] Conforme mostrado no exemplo da Figura 4, a unidade de síntese com base em vetor 27 pode incluir uma unidade de transformada inversível linear (LIT) 30, uma unidade de cálculo de parâmetro 32, uma unidade de reordenação 34, uma unidade de seleção de primeiro plano 36, uma unidade de compensação de energia 38, uma unidade psicoacústica codificadora de áudio 40, uma unidade de geração de fluxo de bits 42, uma unidade de análise de campo sonoro 44, uma unidade de redução de coeficiente 46, uma unidade de seleção de segundo plano (BG) 48, uma unidade de interpolação espaço-temporal 50 e uma unidade de quantização 52.[0166] As shown in the example of Figure 4, the vector-based synthesis unit 27 may include a linear invertible transform (LIT) unit 30, a parameter calculation unit 32, a reorder unit 34, a foreground selection 36, a power compensation unit 38, a psychoacoustic audio encoder unit 40, a bit stream generation unit 42, a sound field analysis unit 44, a coefficient reduction unit 46, a background selection unit (BG) 48, a spatiotemporal interpolation unit 50 and a quantization unit 52.

[0167] A unidade de transformada inversível linear (LIT) 30 recebe os coeficientes de HOA 11 na forma de canais HOA, cada canal é representativo de um bloco ou quadro de um coeficiente associado a uma dada ordem, subordem das funções de base esféricas (que podem ser denotadas como HOA[k], em que k pode denotar o quadro ou bloco de amostras atual). A matriz de coeficientes de HOA 11 pode ter dimensões D: Mx (N+1)2.[0167] The linear invertible transform unit (LIT) 30 receives the HOA coefficients 11 in the form of HOA channels, each channel is representative of a block or frame of a coefficient associated with a given order, suborder of spherical base functions ( which can be denoted as HOA[k], where k can denote the current frame or sample block). The HOA coefficient matrix 11 can have dimensions D: Mx (N+1)2.

[0168] Ou seja, a unidade de LIT 30 pode representar uma unidade configurada para realizar uma forma de análise referida como decomposição de valor único. Embora descrito em relação à SVD, as técnicas descritas nesta revelação podem ser realizadas em relação a qualquer transformação ou decomposição semelhante que forneça conjuntos de saída compactada de energia linearmente não corrigida. Também, a referência a “conjuntos” nesta revelação é geralmente destinada a se referir aos conjuntos diferentes de zero a menos que seja especificamente estabelecido o contrário e não seja destinado a se referir à definição matemática clássica de conjuntos que incluem o denominado “conjunto vazio”.[0168] That is, the unit of LIT 30 may represent a unit configured to perform a form of analysis referred to as single-value decomposition. While described with respect to SVD, the techniques described in this disclosure can be performed with respect to any similar transformation or decomposition that provides linearly uncorrected energy compressed output sets. Also, the reference to "sets" in this disclosure is generally intended to refer to non-zero sets unless specifically stated otherwise and is not intended to refer to the classical mathematical definition of sets that include the so-called "empty set". .

[0169] Uma transformação alternativa pode compreender uma análise de componente principal, que é frequentemente referida como “PCA.” PCA se refere a um procedimento matemático que emprega uma transformação ortogonal para converter um conjunto de observações de variáveis possivelmente correlacionadas em um conjunto de variáveis linearmente não corrigidas referidas como componentes principais. As variáveis linearmente não corrigidas representam variáveis que não têm relação estatística (ou dependência) entre si. Esses componentes principais podem ser descritos como tendo um grau pequeno de correção estatística entre si. Em qualquer evento, o número de componentes principais denominados é menor ou igual ao número de variáveis originais. Em alguns exemplos, a transformação é definida de tal modo que o primeiro componente principal tem a maior variância possível (ou, em outras palavras, é responsável por tanto quanto a variabilidade nos dados conforme possível), e cada componente seguinte, por sua vez, tem a mais elevada variância possível sob a restrição de que esse componente sucessivo é ortogonal aos componentes precedentes (que podem ser reiniciados como não corrigidos com os mesmos). A PCA pode realizar uma forma de redução de ordem, que em termos dos coeficientes de HOA 11 pode resultar na compressão dos coeficientes de HOA 11. Dependendo do contexto, a PCA pode ser referida por inúmeros nomes diferentes, como transformada de Karhunen-Loeve discreta, a transformada de Hotellmg, decomposição ortogonal apropriada (POD) e decomposição de valor próprio (EVD) para citar alguns exemplos. As propriedades de tais operações que são propícias ao objetivo subjacente de compressão de dados de áudio são a "compactação de energia" e "descorrelação"dos dados de áudio de multicanal.[0169] An alternative transformation may comprise a principal component analysis, which is often referred to as “PCA.” PCA refers to a mathematical procedure that employs an orthogonal transformation to convert a set of observations of possibly correlated variables into a set of linearly uncorrected variables referred to as principal components. Linearly uncorrected variables represent variables that have no statistical relationship (or dependence) on each other. These main components can be described as having a small degree of statistical correctness with each other. In any event, the number of named principal components is less than or equal to the number of original variables. In some examples, the transformation is defined such that the first principal component has as much variance as possible (or, in other words, accounts for as much variability in the data as possible), and each succeeding component, in turn, has the highest possible variance under the constraint that this successive component is orthogonal to the preceding components (which can be reset as uncorrected with them). PCA can perform a form of order reduction, which in terms of HOA 11 coefficients can result in compression of HOA 11 coefficients. Depending on the context, PCA can be referred to by a number of different names, such as discrete Karhunen-Loeve transform , the Hotellmg transform, appropriate orthogonal decomposition (POD) and eigenvalue decomposition (EVD) to name a few examples. Properties of such operations that are conducive to the underlying purpose of audio data compression are "power compression" and "decorrelation" of multichannel audio data.

[0170] Em qualquer evento, a unidade de LIT 30 realiza uma decomposição de valor único (que, novamente, pode ser referida como “SVD”) para transformar os coeficientes de HOA 11 em dois ou mais conjuntos de coeficientes de HOA transformados. Esses “conjuntos” de coeficientes de HOA transformados podem incluir vetores de coeficientes de HOA transformados. No exemplo da Figura 4, a unidade de LIT 30 pode realizar a SVD em relação aos coeficientes de HOA 11 para gerar uma denominada matriz V, uma matriz S e uma matriz U. SVD, em álgebra linear, pode representar uma fatorização de uma matriz X real ou complexa de y-por-z (em que X pode representar dados de áudio de multicanal, como os coeficientes de HOA 11) na forma a seguir:

Figure img0011
[0170] In any event, the LIT 30 unit performs a single-value decomposition (which, again, may be referred to as “SVD”) to transform the HOA 11 coefficients into two or more sets of transformed HOA coefficients. These “sets” of transformed HOA coefficients may include vectors of transformed HOA coefficients. In the example of Figure 4, the unit of LIT 30 can perform the SVD against the coefficients of HOA 11 to generate a so-called matrix V, a matrix S and a matrix U. SVD, in linear algebra, can represent a factorization of a matrix y-by-z real or complex X (where X can represent multichannel audio data, such as HOA coefficients 11) in the following form:
Figure img0011

[0171] U pode representar uma matriz unitária real ou complexa de y-por-y, em que as colunas y de U são comumente conhecidas como os vetores únicos esquerdos dos dados de áudio de multicanal. S pode representar uma matriz diagonal retangular de y-por-z com números reais não negativos na diagonal, em que os valores diagonais de S são comumente conhecidos como os valores únicos dos dados de áudio de multicanal. V* (que pode denotar uma transposta conjugada de V) pode representar uma matriz unitária real ou complexa de z-por-z, em que as colunas z de V* são comumente conhecidas como os vetores únicos direitos dos dados de áudio de multicanal.[0171] U can represent a real or complex y-by-y unitary matrix, where the y columns of U are commonly known as the unique left vectors of multichannel audio data. S can represent a rectangular diagonal y-by-z matrix with non-negative real numbers on the diagonal, where the diagonal values of S are commonly known as the unique values of multichannel audio data. V* (which can denote a conjugate transpose of V) can represent a real or complex z-by-z unitary matrix, where the z columns of V* are commonly known as the unique right vectors of multichannel audio data.

[0172] Embora descrito nesta revelação como sendo aplicadas aos dados de áudio de multicanal que compreendem coeficientes de HOA 11, as técnicas podem ser aplicadas a qualquer forma de dados de áudio de multicanal. Desse modo, o dispositivo de codificação de áudio 20 pode realizar uma decomposição de valor único em relação aos dados de áudio de multicanal representativos de pelo menos uma porção de campo sonoro para gerar uma matriz U representativa de vetores únicos esquerdos dos dados de áudio de multicanal, uma matriz S representativa de valores únicos dos dados de áudio de multicanal e uma matriz V representativa de vetores únicos direitos dos dados de áudio de multicanal, e que representa os dados de áudio de multicanal como uma função de pelo menos uma porção de um ou mais dentre a matriz U, a matriz S e a matriz V.[0172] Although described in this disclosure as being applied to multichannel audio data comprising HOA coefficients 11, the techniques can be applied to any form of multichannel audio data. Thereby, the audio coding device 20 can perform a single-value decomposition against the multi-channel audio data representative of at least a portion of the sound field to generate a matrix U representative of left-unique vectors of the multi-channel audio data. , a matrix S representative of unique values of the multichannel audio data and a matrix V representative of unique right vectors of the multichannel audio data, and representing the multichannel audio data as a function of at least a portion of one or more among the U matrix, the S matrix and the V matrix.

[0173] Em alguns exemplos, a matriz V* na expressão matemática referida acima é denotada como a transposta conjugada da matriz V para refletir que SVD pode ser aplicada às matrizes que compreendem números complexos. Quando aplicadas às matrizes que compreendem apenas números reais, o conjugado complexo da matriz V (ou, em outras palavras, a matriz V*) pode ser considerado para ser a transposta da matriz V. Abaixo, supõe-se que, para facilidade de fins de ilustração, os coeficientes de HOA 11 compreendem números reais com o resultado de que a matriz V é emitida através de SVD em vez da matriz V*. Além do mais, embora denotado como a matriz V nesta revelação, a referência à matriz V deve ser compreendida para se referir à transposta da matriz V onde adequado. Embora supõe-se que seja a matriz V, as técnicas podem ser aplicadas de uma maneira semelhante aos coeficientes de HOA 11 que têm coeficientes complexos, em que a saída da SVD é a matriz V*. Dessa maneira, as técnicas não devem ser limitadas nesse sentido para fornecer apenas a aplicação de SVD para gerar uma matriz V, mas podem incluir a aplicação de SVD nos coeficientes de HOA 11 que têm componentes complexos para gerar uma matriz V*.[0173] In some examples, the matrix V* in the mathematical expression referred to above is denoted as the conjugate transpose of the matrix V to reflect that SVD can be applied to matrices comprising complex numbers. When applied to matrices that comprise only real numbers, the complex conjugate of the matrix V (or, in other words, the matrix V*) can be considered to be the transpose of the matrix V. Below, it is assumed that, for ease of purposes for illustration, the HOA coefficients 11 comprise real numbers with the result that matrix V is output via SVD instead of matrix V*. Furthermore, although denoted as the matrix V in this disclosure, the reference to the matrix V should be understood to refer to the transpose of the matrix V where appropriate. Although it is assumed to be the V matrix, the techniques can be applied in a similar way to HOA 11 coefficients that have complex coefficients, where the output of the SVD is the V* matrix. In this way, the techniques should not be limited in this sense to just provide the application of SVD to generate a matrix V, but may include the application of SVD on the HOA 11 coefficients that have complex components to generate a matrix V*.

[0174] Em qualquer ocasião a unidade de LIT 30 pode realizar uma forma em blocos de SVD em relação a cada bloco (que pode se referir a um quadro) de dados de áudio ambisonics de ordem superior (HOA) (em que esses dados de áudio ambisonics incluem blocos ou amostras dos coeficientes de HOA 11 ou qualquer outra forma de dados de áudio de múltiplos canais). Conforme notado acima, uma variável M pode ser usada para denotar o comprimento de um quadro de áudio em amostras. Por exemplo, quando um quadro de áudio incluir 1.024 amostras de áudio, M é igual a 1.024. Embora descrito em relação a esse típico valor para M, as técnicas desta revelação não devem ser limitadas a esse típico valor para M. A unidade de LIT 30 pode realizar, portanto, uma SVD em blocos em relação a um bloco dos coeficientes de HOA 11 que têm coeficientes de HOA de M-por-(N+1)2, em que N, novamente, denota a ordem dos dados de áudio de HOA. A unidade de LIT 30 pode gerar, através da realização dessa SVD, uma matriz V, uma matriz S e uma matriz U, em que cada uma das matrizes pode representar as respectivas matrizes V, S e U descritas acima. Desse modo, a unidade de transformada inversível linear 30 pode realizar a SVD em relação aos coeficientes de HOA 11 para emitir vetores XJS[k] 33 (que podem representar uma versão combinada dos vetores S e dos vetores U) que têm dimensões D: M x (N+1)2, e vetores V[k] 35 que têm dimensões D: (N+1)2 x (N+1)2. Os elementos de vetor individual na matriz U.S.[k] também podem ser designados XPS(k) enquanto os vetores individuais da matriz V[k] também podem ser designados v(k).[0174] At any time the LIT unit 30 may perform a SVD block shape with respect to each block (which may refer to a frame) of higher order ambisonics (HOA) audio data (wherein this data ambisonics audio include blocks or samples of HOA 11 coefficients or any other form of multichannel audio data). As noted above, a variable M can be used to denote the length of an audio frame in samples. For example, when an audio frame includes 1024 audio samples, M equals 1024. Although described in relation to this typical value for M, the techniques of this disclosure should not be limited to this typical value for M. The LIT 30 unit can therefore perform a block SVD against a block of HOA 11 coefficients. which have HOA coefficients of M-per-(N+1)2, where N, again, denotes the order of the HOA audio data. The LIT unit 30 can generate, by performing such SVD, a matrix V, a matrix S and a matrix U, wherein each of the matrices can represent the respective matrices V, S and U described above. Thereby, the linear invertible transform unit 30 can perform the SVD against the HOA coefficients 11 to output XJS[k] vectors 33 (which can represent a combined version of the S vectors and the U vectors) that have dimensions D:M x (N+1)2, and vectors V[k] 35 that have dimensions D: (N+1)2 x (N+1)2. Individual vector elements in the matrix U.S.[k] may also be designated XPS(k) while the individual vectors in the matrix V[k] may also be designated v(k).

[0175] Uma análise das matrizes U, S e V podem revelar que essas matrizes carregam ou representam características espaciais e temporais do campo sonoro subjacente representado acima por X. Cada um dos vetores N em U (de comprimento de amostras M) pode representar sinais de áudio separados normalizados como uma função de tempo (para o período de tempo representado por amostras M), que são ortogonais entre si e que foram desacoplados de quaisquer características espaciais (que também podem ser referidas como informações direcionais). As características espaciais, que representam o formato espacial e largura de posição (r, theta, phi) podem ser em vez disso representadas por vetores individuais iésimo, v(i) (k), na matriz V (cada um do comprimento (N+1)2). Ambos os vetores na matriz U e na matriz V são normalizados de tal modo que suas energias com o quadrado da média da raiz são iguais à unidade. A energia dos sinais de áudio em U são, então, representadas pelos elementos diagonais em S. A multiplicação de U e S para formar XPS[k] (com elementos de vetor individuais XPS (k)), representa, então, o sinal de áudio com energias verdadeiras. A habilidade da decomposição SVD para desacoplar os sinais por tempo de áudio (em U), suas energias (em S) e suas características espaciais (em V) pode sustentar vários aspectos das técnicas descritas nesta revelação. Ademais, esse modelo de sintetização dos coeficientes de HOA[k] subjacentes, X, por uma multiplicação de vetor de XJS[k] e V[k] origina o termo “metodologia de síntese com base em vetor”, que é usado por todo este documento.[0175] An analysis of the U, S and V matrices can reveal that these matrices carry or represent spatial and temporal characteristics of the underlying sound field represented above by X. Each of the vectors N in U (of sample length M) can represent signals separate audio streams normalized as a function of time (for the time period represented by M samples), which are orthogonal to each other and which have been decoupled from any spatial features (which may also be referred to as directional information). The spatial features, which represent the spatial shape and position width (r, theta, phi) can instead be represented by individual vectors ith, v(i) (k), in the matrix V (each of the length (N+ 1)2). Both the vectors in the matrix U and in the matrix V are normalized in such a way that their energies with the square of the root mean are equal to unity. The energy of the audio signals in U are then represented by the diagonal elements in S. Multiplying U and S to form XPS[k] (with individual vector elements XPS(k)), then represents the signal of audio with true energies. The ability of the SVD decomposition to decouple signals by audio time (U), their energies (S), and their spatial characteristics (V) can support many aspects of the techniques described in this disclosure. Furthermore, this model of synthesizing the underlying HOA[k] coefficients, X, by a vector multiplication of XJS[k] and V[k] gives rise to the term “vector-based synthesis methodology”, which is used throughout this document.

[0176] Embora descrito como sendo realizada diretamente em relação aos coeficientes de HOA 11, a unidade de LIT 30 pode aplicar a transformada inversível linear aos derivados dos coeficientes de HOA 11. Por exemplo, a unidade de LIT 30 pode aplicar a SVD em relação a uma matriz de densidade espectral de potência derivada dos coeficientes de HOA 11. A matriz de densidade espectral de potência pode ser denotada como PSD e obtida através da multiplicação de matriz da transposta da hoaFrame para a hoaFrame, conforme esboçado no pseudocódigo que segue abaixo. A notação hoaFrame se refere a um quadro dos coeficientes de HOA 11.[0176] Although described as being performed directly with respect to the HOA 11 coefficients, the LIT 30 unit can apply the linear invertible transform to derivatives of the HOA 11 coefficients. For example, the LIT 30 unit can apply the SVD with respect to to a power spectral density matrix derived from the HOA coefficients 11. The power spectral density matrix may be denoted as PSD and obtained by matrix multiplication of the transpose from the hoaFrame to the hoaFrame, as outlined in the pseudocode below. The hoaFrame notation refers to a frame of HOA 11 coefficients.

[0177] A unidade de LIT 30 pode, após aplicar a SVD (svd) à PSD, obter uma matriz S[k]2 (S quadrada) e uma matriz V[k]. A matriz S[k]2 pode denotar uma matriz S[k] quadrada, onde a unidade de LIT 30 pode aplicar uma operação de raiz quadrada à matriz S[k]2 para obter a matriz S[k]. A unidade de LIT 30 pode, em algumas ocasiões, realizar a quantização em relação à matriz V[k] para obter uma matriz V[k] quantizada (que pode ser denotada como matriz V[k]’). A unidade de LIT 30 pode obter a matriz U[k] multiplicando-se primeiro a matriz S[k] pela matriz V[k]’ quantizada para obter uma matriz SV[k]’. A unidade de LIT 30 pode, em seguida, obter a pseudoinversa (pinv) da matriz SV[k]’ e, então, multiplicar os coeficientes de HOA 11 pela pseudoinversa da matriz SV[k]’ para obter a matriz U[k]. O que foi exposto anteriormente pode ser representado pelo pseudocódigo a seguir:

Figure img0012
[0177] The LIT 30 unit can, after applying the SVD (svd) to the PSD, obtain a matrix S[k]2 (S square) and a matrix V[k]. The matrix S[k]2 can denote a square matrix S[k], where the unit of LIT 30 can apply a square root operation to the matrix S[k]2 to obtain the matrix S[k]. The LIT unit 30 can, on some occasions, quantize against the matrix V[k] to obtain a quantized matrix V[k] (which can be denoted as matrix V[k]'). The LIT unit 30 can obtain the matrix U[k] by first multiplying the matrix S[k] by the quantized matrix V[k]' to obtain a matrix SV[k]'. The unit of LIT 30 can then take the pseudoinverse (pinv) of the matrix SV[k]' and then multiply the coefficients of HOA 11 by the pseudoinverse of the matrix SV[k]' to obtain the matrix U[k] . What was exposed earlier can be represented by the following pseudocode:
Figure img0012

[0178] Através da realização de SVD em relação à densidade espectral de potência (PSD) dos coeficientes de HOA em vez dos próprios coeficientes, a unidade de LIT 30 pode reduzir potencialmente a complexidade computacional de realizar a SVD em termos de um ou mais dentre os ciclos de processador e espaço de armazenamento, enquanto alcança a mesma eficiência de codificação de áudio de fonte que se a SVD fosse aplicada diretamente aos coeficientes de HOA. Ou seja, a SVD do tipo PSD descrita acima pode demandar potencialmente menos em termos de computação devido à SVD ser feita em uma matriz F*F (com F sendo o número de coeficientes de HOA). Em comparação com uma matriz M * F com M sendo o comprimento de quadro, isto é, 1.024 ou mais amostras. A complexidade de uma SVD pode agora, através da aplicação à PSD em vez dos coeficientes de HOA 11, ser cerca de O(LA3) em comparação com O (M*LA2) quando aplicado aos coeficientes de HOA 11 (em que O (*) denota a notação denotes a notação big-O de complexidade computacional comum às técnicas de ciência de computador).[0178] By performing SVD against the power spectral density (PSD) of the HOA coefficients rather than the coefficients themselves, the LIT 30 unit can potentially reduce the computational complexity of performing SVD in terms of one or more of processor cycles and storage space, while achieving the same source audio encoding efficiency as if SVD were applied directly to the HOA coefficients. That is, the PSD type SVD described above can potentially be less computationally demanding because the SVD is done in an F*F matrix (with F being the number of HOA coefficients). Compared to an M * F matrix with M being the frame length, i.e. 1024 or more samples. The complexity of an SVD can now, by applying to PSD instead of HOA 11 coefficients, be about O(LA3) compared to O(M*LA2) when applied to HOA 11 coefficients (where O(* ) denotes the notation of big-O computational complexity notation common to computer science techniques).

[0179] A unidade de cálculo de parâmetro 32 representa a unidade configurada para calcular vários parâmetros, como um parâmetro de correlação (R), parâmetros de propriedades direcionais (θ, cp, r) e uma propriedade de energia (e). Cada um desses parâmetros para o quadro atual pode ser denotado como R[k], θ[k], cp [k], e[k] e e[k]. A unidade de cálculo de parâmetro 32 pode realizar uma análise de energia e/ou correlação (ou denominada correlação cruzada) em relação aos vetores U.S.[k] 33 para identificar esses parâmetros. A unidade de cálculo de parâmetro 32 também pode determinar esses parâmetros para o quadro anterior, em que os parâmetros de quadro anterior podem ser denotados R[k-1], θ[k-l], <p[k-l], r[k-l] e e[k- l], com base no quadro anterior do vetor U.S.[k-1] e vetores V[k-1]. A unidade de cálculo de parâmetro 32 pode emitir os parâmetros atuais 37 e os parâmetros anteriores 39 para a unidade de reordenação 34.[0179] Parameter calculation unit 32 represents the unit configured to calculate various parameters such as a correlation parameter (R), directional property parameters (θ, cp, r) and an energy property (e). Each of these parameters for the current frame can be denoted as R[k], θ[k], cp [k], e[k] and e[k]. The parameter calculation unit 32 can perform an energy analysis and/or correlation (or so-called cross-correlation) against the U.S.[k] vectors 33 to identify these parameters. The parameter calculation unit 32 can also determine these parameters for the previous frame, where the previous frame parameters can be denoted R[k-1], θ[kl], <p[kl], r[kl] and ee [k-l], based on the previous table of the US[k-1] vector and V[k-1] vectors. The parameter calculation unit 32 can output the current parameters 37 and the previous parameters 39 to the reordering unit 34.

[0180] Ou seja, a unidade de cálculo de parâmetro 32 pode realizar uma análise de energia em relação a cada um dentre os primeiros vetores U.S.[k] 33 que correspondem a um primeiro tempo e cada um dos segundos vetores U.S.[k] 33 que correspondem a um segundo tempo, que computa uma energia com quadrado da média da raiz para pelo menos uma porção de (mas frequentemente todo) o primeiro quadro de áudio e uma porção de (mas frequentemente todo) o segundo quadro de áudio e, desse modo, pode gerar energias 2L, uma para cada um dentre os primeiros L vetores U.S.[k] 33 do primeiro quadro de áudio e um para cada um dentre os segundos vetores U.S.[k -1] 33 do segundo quadro de áudio.[0180] That is, the parameter calculation unit 32 can perform an energy analysis against each of the first vectors US[k] 33 that correspond to a first time and each of the second vectors US[k] 33 which correspond to a second time, which computes a root-mean squared energy for at least a portion of (but often all) the first audio frame and a portion of (but often all) the second audio frame, and hence mode, it can generate 2L energies, one for each of the first L vectors US[k] 33 of the first audio frame and one for each of the second vectors US[k -1] 33 of the second audio frame.

[0181] Em outros exemplos, a unidade de cálculo de parâmetro 32 pode realizar uma correlação cruzada entre alguma porção do conjunto de amostras (se não todo o mesmo) para cada um dentre os primeiros vetores XJS[k] 33 e cada um dentre os segundos vetores U.S.[k-1] 33. A correlação cruzada pode se referir à correlação cruzada conforme compreendido nas técnicas de processamento de sinal. Em outras palavras, a correlação cruzada pode se referir a uma medida de similaridade entre duas formas de onda (que nesse caso é definida como um conjunto discreto de amostras M) como uma função de um retardamento aplicada a um deles. Em alguns exemplos, para realizar a correlação cruzada, a unidade de cálculo de parâmetro 32 compara a última amostra L de cada um dos primeiros vetores XJS[k] 27, em termos de vez, para as primeiras amostras L de cada um dos restantes dos segundos vetores U.S.[k-1] 33 para determinar um parâmetro de correlação. Conforme usado no presente documento, uma operação “em termos de vez” se refere a um elemento através da operação de elemento feita em relação a um primeiro conjunto de elementos e um segundo conjunto de elementos, em que a operação extrai um elemento de cada um dentre o primeiro e o segundo conjuntos de elementos “por vez” de acordo com uma ordenação dos conjuntos.[0181] In other examples, the parameter calculation unit 32 may perform a cross-correlation between some portion of the sample set (if not all the same) for each of the first vectors XJS[k] 33 and each of the second vectors US[k-1] 33. Cross-correlation can refer to cross-correlation as understood in signal processing techniques. In other words, cross-correlation can refer to a measure of similarity between two waveforms (which in this case is defined as a discrete set of M samples) as a function of a delay applied to one of them. In some examples, to perform cross-correlation, the calculation unit of parameter 32 compares the last sample L of each of the first vectors XJS[k] 27, in terms of time, to the first samples L of each of the remaining of the second US[k-1] 33 vectors to determine a correlation parameter. As used herein, an operation "in terms of turn" refers to an element through element operation performed on a first set of elements and a second set of elements, where the operation extracts one element from each between the first and second sets of elements “at a time” according to an ordering of the sets.

[0182] A unidade de cálculo de parâmetro 32 também pode analisar os vetores V[k] e/ou V[k-1] 35 para determinar parâmetros de propriedade direcional. Esses parâmetros de propriedade direcional podem fornecer uma indicação de movimento e local do objeto de áudio representado pelos vetores XJS[k] e/ou U.S.[k-1] 33 correspondentes. A unidade de cálculo de parâmetro 32 pode fornecer qualquer combinação de parâmetros atuais de primeiro plano 37 (determinados em relação aos vetores XJS[k] 33 e/ou aos vetores V[k] 35) e qualquer combinação dos parâmetros anteriores 39 (determinados em relação aos vetores U.S.[k-1] 33 e/ou aos vetores V[k-1] 35) para a unidade de reordenação 34.[0182] Parameter calculation unit 32 can also analyze vectors V[k] and/or V[k-1] 35 to determine directional property parameters. These directional property parameters can provide an indication of motion and location of the audio object represented by the corresponding XJS[k] and/or U.S.[k-1] 33 vectors. The parameter calculation unit 32 can provide any combination of current foreground parameters 37 (determined with respect to XJS[k] 33 vectors and/or V[k] 35 vectors) and any combination of the above parameters 39 (determined in relative to US[k-1] 33 vectors and/or V[k-1] 35 vectors) for the reordering unit 34.

[0183] A decomposição de SVD não garante que o sinal de áudio/objeto representado pelo p-ésimo vetor em vetores U.S.[k-1] 33, que podem ser denotados como

Figure img0013
o vetor - mesmo sinal de áudio/objeto (avançado no tempo) representado pelo p-ésimo vetor nos vetores XJS[k] 33, que também podem ser denotados como vetores U.S.[k][p] 33 (ou, XΦJffr'j’j alternativamente como
Figure img0014
Os parâmetros calculados pela unidade de cálculo de parâmetro 32 podem ser usados pela unidade de reordenação 34 para reordenar os objetos de áudio para representar sua avaliação natural ou continuidade com o tempo.[0183] SVD decomposition does not guarantee that the audio signal/object represented by the p-th vector into US[k-1] 33 vectors, which can be denoted as
Figure img0013
the vector - same audio signal/object (time-advanced) represented by the pth vector in the vectors XJS[k] 33, which can also be denoted as vectors US[k][p] 33 (or, XΦJffr'j' j alternatively as
Figure img0014
The parameters calculated by the parameter calculation unit 32 can be used by the reordering unit 34 to reorder the audio objects to represent their natural evaluation or continuity with time.

[0184] Ou seja, a unidade de reordenação 34 pode então comparar cada um dos parâmetros 37 a partir dos primeiros vetores U.S.[k] 33 em termos de vez contra cada um dos parâmetros 39 para os segundos vetores U.S.[k-1] 33. A unidade de reordenação 34 pode reordenar (com o uso, como um exemplo, de um algoritmo húngaro) os vários vetores dentro da matriz U.S.[k] 33 e da matriz V[k] 35 com base nos parâmetros atuais 37 e nos parâmetros anteriores 39 para emitir uma matriz reordenada U.S.[k] 33’ (que pode ser denotada matematicamente como U.S.[k]) e uma matriz reordenada V[k] 35’ (que pode ser denotada matematicamente como V[k]) para uma unidade de seleção de som em primeiro plano (ou som predominante - PS) 36 (“unidade de seleção de primeiro plano 36”) e uma unidade de compensação de energia 38.[0184] That is, the reordering unit 34 can then compare each of the parameters 37 from the first vectors US[k] 33 in terms of turn against each of the parameters 39 to the second vectors US[k-1] 33 The reordering unit 34 can reorder (using, as an example, a Hungarian algorithm) the various vectors within the matrix US[k] 33 and the matrix V[k] 35 based on the current parameters 37 and the parameters 39 to output a reordered matrix US[k] 33' (which can be mathematically denoted as US[k]) and a reordered matrix V[k] 35' (which can be mathematically denoted as V[k]) for a unit foreground sound selection (or predominant sound - PS) 36 (“foreground selection unit 36”) and a power compensation unit 38.

[0185] Em outras palavras, a unidade de reordenação 34 pode representar uma unidade configurada para reordenar os vetores dentro da matriz U.S.[k] 33 para gerar a matriz reordenada U.S.[k] 33‘. A unidade de reordenação 34 pode ordenar a matriz XJS[k] 33 por causa da ordem dos vetores

Figure img0015
(em que, novamente, cada vetor dos vetores U.S.[k] 33, que novamente podem ser X r/ri alternativamente denotados como , pode representar um ou mais objetos distintos (ou, em outras palavras, predominantes) de monoáudio presentes no campo sonoro) pode variar a partir de porções dos dados de áudio. Ou seja, dado que o dispositivo de codificação de áudio 12, em alguns exemplos, opera nessas porções dos dados de áudio geralmente referidos como quadros de áudio, a posição de vetores que correspondem a esses objetos de monoáudio distintos conforme representados na matriz U.S.[k] 33 como derivados, pode variar de quadro de áudio para quadro de áudio devido à aplicação de SVD aos quadros e a saliência variante de cada objeto de áudio de quadro para quadro.[0185] In other words, the reordering unit 34 can represent a unit configured to reorder the vectors within the matrix US[k] 33 to generate the reordered matrix US[k] 33'. The reordering unit 34 can sort the matrix XJS[k] 33 because of the order of the vectors
Figure img0015
(where, again, each vector of US[k] 33 vectors, which again can be X r/ri alternatively denoted as , can represent one or more distinct (or, in other words, predominant) monoaudio objects present in the sound field ) may vary from portions of the audio data. That is, given that the audio encoding device 12, in some examples, operates on those portions of the audio data generally referred to as audio frames, the position of vectors that correspond to these distinct monoaudio objects as represented in the matrix US[k ] 33 as derived, may vary from audio frame to audio frame due to the application of SVD to the frames and the varying salience of each audio object from frame to frame.

[0186] Passar os vetores dentro da matriz XJ S[k] 33 diretamente para a unidade psicoacústica codificadora de áudio 40 sem reordenar os vetores dentro da matriz U.S.[k] 33 de quadro de áudio para quadro de áudio pode reduzir a extensão da compressão alcançável por alguns esquemas de compressão, como esquemas de compressão de herança que se desempenham melhor quando os objetos de monoáudio são contínuos (em termos de canal, que é definido nesse exemplo pela ordem de posição dos vetores dentro da matriz U.S.[k] 33 relacionados entre si) através de quadros de áudio. Além do mais, quando não reordenada, a codificação dos vetores dentro da matriz U.S.[k] 33 pode reduzir a qualidade dos dados de áudio quando decodificado. Por exemplo, os codificadores de AAC, que podem ser representados no exemplo da Figura 3 pela unidade psicoacústica codificadora de áudio 40, podem comprimir mais eficientemente um ou mais vetores reordenados dentro da matriz U.S.[k] 33’ de quadro a quadro na comparação à compressão alcançada quando se codifica diretamente os vetores dentro da matriz U.S.[k] 33 de quadro a quadro. Embora descrito acima em relação aos codificadores de AAC, as técnicas podem ser realizadas em relação a qualquer codificador que forneça melhor compressão quando os objetos de monoáudio forem especificados através de quadros em uma ordem ou posição específica (em termos de canal).[0186] Passing the vectors within the XJ matrix S[k] 33 directly to the psychoacoustic audio encoding unit 40 without reordering the vectors within the matrix US[k] 33 from audio frame to audio frame can reduce the extent of compression achievable by some compression schemes, such as inheritance compression schemes that perform best when monoaudio objects are continuous (in terms of channel, which is defined in this example by the position order of vectors within the related US[k] 33 matrix each other) through audio frames. Furthermore, when not reordered, encoding the vectors within the U.S.[k] 33 matrix can reduce the quality of the audio data when decoded. For example, the AAC encoders, which can be represented in the example of Figure 3 by the psychoacoustic audio encoder unit 40, can more efficiently compress one or more reordered vectors within the US[k] matrix 33' from frame to frame compared to compression achieved when directly encoding the vectors into the US[k] 33 matrix frame by frame. While described above in relation to AAC encoders, the techniques can be performed in relation to any encoder that provides better compression when monoaudio objects are specified through frames in a specific order or position (in terms of channel).

[0187] Vários aspectos das técnicas podem, desse modo, possibilitar que o dispositivo de codificação de áudio 12 para reordenar um ou mais vetores (por exemplo, os vetores dentro da matriz U.S.[k] 33 para gerar um ou mais vetores reordenados dentro da matriz U.S.[k] 33’ reordenada e, desse modo, facilitam a compressão dos vetores dentro da matriz U.S.[k] 33 por um codificador de áudio de herança, como a unidade psicoacústica codificadora de áudio 40).[0187] Various aspects of the techniques may thereby enable the audio encoding device 12 to reorder one or more vectors (e.g. the vectors within the US[k] matrix 33 to generate one or more reordered vectors within the reordered matrix US[k] 33' and thereby facilitate compression of the vectors within the matrix US[k] 33 by a legacy audio encoder, such as the psychoacoustic audio encoder unit 40).

[0188] Por exemplo, a unidade de reordenação 34 pode reordenar uma ou mais vetores dentro da matriz U.S.[k] 33 de um primeiro quadro de áudio subsequente em tempo ao segundo quadro ao qual um ou mais segundos vetores dentro da matriz U.S.[k-1] 33 corresponde com base nos parâmetros atuais 37 e parâmetros anteriores 39. Embora descrito no contexto de um de um primeiro quadro de áudio que é subsequente em tempo ao segundo quadro de áudio, o primeiro quadro de áudio pode preceder em tempo o segundo quadro de áudio. Dessa maneira, as técnicas não devem ser limitadas ao exemplo descrito nesta revelação.[0188] For example, the reordering unit 34 may reorder one or more vectors within the matrix US[k] 33 of a first audio frame subsequent in time to the second frame at which one or more second vectors within the matrix US[k] -1] 33 corresponds based on current parameters 37 and previous parameters 39. Although described in the context of a first audio frame that is subsequent in time to the second audio frame, the first audio frame may precede the second in time audio frame. Thus, the techniques should not be limited to the example described in this disclosure.

[0189] Por questão de ilustração, considera-se a Tabela 1 a seguir em que cada um dos vetores p dentro da matriz U.S.[k] 33 é denotado como U.S. [k][p], em que k denota se o vetor correspondente é do -ésimo quadro ou do quadro anterior (k-1) e p denota a fileira do vetor em relação aos vetores do mesmo quadro de áudio (em que a matriz U.S.[k] tem (N+1)2 como vetores). Conforme notado acima, supondo-se que N seja determinado para ser um, p pode denotar vetores um (1) a (4). TABELA 1

Figure img0016
[0189] For the sake of illustration, consider Table 1 below in which each of the vectors p within the matrix US[k] 33 is denoted as US [k][p], where k denotes whether the corresponding vector is from the -th or previous frame (k-1) and p denotes the vector row with respect to the vectors of the same audio frame (where the US[k] matrix has (N+1)2 as vectors). As noted above, assuming that N is determined to be one, p can denote vectors one (1) to (4). TABLE 1
Figure img0016

[0190] Na Tabela 1 acima, a unidade de reordenação 34 compara a energia computada para U.S.[£- 1][1] à energia computada para cada um dentre U.S.[k][1], U.S.[k][2], U.S.[k][3], U.S.[k][4], a energia computada para U.S.[k-1][2] à energia computada para cada um dentre U.S.[k][1], U.S.[k][2], U.S.[k][3], U.S.[k][4], etc. A unidade de reordenação 34 pode então descartar um ou mais dos segundos vetores U.S.[k-1] 33 do segundo quadro de áudio precedente (em termos de tempo). Por questão de ilustração, considera-se a Tabela 2 a seguir que mostra os restantes segundos vetores U.S.[k-1] 33: TABELA 2

Figure img0017
[0190] In Table 1 above, the reordering unit 34 compares the computed energy for US[£-1][1] to the computed energy for each of US[k][1], US[k][2], US[k][3], US[k][4], the energy computed for US[k-1][2] the energy computed for each of US[k][1], US[k][2 ], US[k][3], US[k][4], etc. The reordering unit 34 may then discard one or more of the second vectors US[k-1] 33 of the preceding second audio frame (in terms of time). For the sake of illustration, consider Table 2 below which shows the remaining second vectors US[k-1] 33: TABLE 2
Figure img0017

[0191] Na Tabela 2 acima, a unidade de reordenação 34 pode determinar, com base na comparação de energia que a energia computada para U.S.[k-1][1] é semelhante à energia computada para cada uma dentre U.S.[k][1] e U.S.[k][2], a energia computada para U.S.[k- 1][2] é semelhante à energia computada para cada uma dentre U.S.[k][1] e U.S.[k][2], a energia computada para XJS[k- 1][3] é semelhante à energia computada para cada uma dentre U.S.[k][3] e U.S.[k][4], e a energia computada para U.S.[k- 1][4] é semelhante à energia computada para cada uma dentre U.S.[k][3] e U.S.[k][4]. Em alguns exemplos, a unidade de reordenação 34 pode realizar a análise de energia adicional para identificar uma similaridade entre cada um dos primeiros vetores da matriz U.S.[k] 33 e cada um dos segundos vetores da matriz U.S.[k-1] 33.[0191] In Table 2 above, the reordering unit 34 can determine, based on the energy comparison, that the energy computed for US[k-1][1] is similar to the energy computed for each of US[k][ 1] and US[k][2], the energy computed for US[k-1][2] is similar to the energy computed for each of US[k][1] and US[k][2], the energy computed for XJS[k-1][3] is similar to the energy computed for each of US[k][3] and US[k][4], and the energy computed for US[k-1][4 ] is similar to the computed energy for each of US[k][3] and US[k][4]. In some examples, the reordering unit 34 may perform additional energy analysis to identify a similarity between each of the first vectors of the matrix U.S.[k] 33 and each of the second vectors of the matrix U.S.[k-1] 33.

[0192] Em outros exemplos, a unidade de reordenação 32 pode reordenar os vetores com base nos parâmetros atuais 37 e os parâmetros anteriores 39 que se referem à correlação cruzada. Nesses exemplos, com referência novamente à Tabela 2 acima, a unidade de reordenação 34 pode determinar a correlação exemplificativa a seguir expressa na Tabela 3 com base nesses parâmetros de correlação cruzada: TABELA 3

Figure img0018
[0192] In other examples, the reordering unit 32 can reorder vectors based on current parameters 37 and previous parameters 39 that refer to cross correlation. In these examples, with reference again to Table 2 above, the reordering unit 34 can determine the following exemplary correlation expressed in Table 3 based on these cross-correlation parameters: TABLE 3
Figure img0018

[0193] A partir da Tabela 3 acima, a unidade de reordenação 34 determina, como um exemplo, que o vetor U.S.[k-1][1] se correlaciona ao vetor U.S.[k][2] diferentemente posicionado, o vetor XJS[k-1][2] se correlaciona ao vetor U.S.[k][1] diferentemente posicionado, o vetor U.S.[k-1][3] se correlaciona ao vetor U.S.[k][3] semelhantemente posicionado e o vetor U.S.[k- 1][4] se correlaciona ao vetor U.S.[k][4] semelhantemente posicionado. Em outras palavras, a unidade de reordenação 34 determina o que pode ser referido como informações reordenadas que descrevem como reordenar os primeiros vetores da matriz XJ S[k] 33 de tal modo que o vetor U.S.[k][2] seja reposicionado na primeira fileira dos primeiros vetores da matriz U.S.[k] 33 e o vetor U.S.[k][1] é reposicionado na segunda fileira dos primeiros vetores XJS[k] 33. A unidade de reordenação 34 pode, então, reordenar os primeiros vetores da matriz U.S.[k] 33 com base nessas informações de reordenação para gerar a matriz U.S.[k] 33’ reordenada.[0193] From Table 3 above, the reordering unit 34 determines, as an example, that the US[k-1][1] vector correlates to the differently positioned US[k][2] vector, the XJS vector [k-1][2] correlates to the differently positioned US[k][1] vector, the US[k-1][3] vector correlates to the similarly positioned US[k][3] vector, and the US vector [k-1][4] correlates to the similarly positioned US[k][4] vector. In other words, the reordering unit 34 determines what can be referred to as reordered information that describes how to reorder the first vectors of the matrix XJ S[k] 33 such that the vector US[k][2] is repositioned in the first row of the first vectors of the matrix US[k] 33 and the vector US[k][1] is repositioned in the second row of the first vectors XJS[k] 33. The reordering unit 34 can then reorder the first vectors of the matrix US[k] 33 based on this reorder information to generate the reordered US[k] 33' array.

[0194] Adicionalmente, a unidade de reordenação 34 pode, embora não mostrado no exemplo da Figura 4, fornecer essas informações de reordenação para o dispositivo de geração de fluxo de bits 42, que pode gerar o fluxo de bits 21 para incluir essas informações de reordenação de modo que o dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24 mostrado no exemplo das Figuras 3 e 5, possam determinar como reordenar os vetores reordenados da matriz U.S.[k] 33’ de modo a recuperar os vetores da matriz U.S.[k] 33.[0194] Additionally, the reordering unit 34 may, although not shown in the example of Figure 4, provide this reordering information to the bitstream generating device 42, which can generate the bitstream 21 to include this reordering information. reordering so that the audio decoding device, such as the audio decoding device 24 shown in the example of Figures 3 and 5, can determine how to reorder the reordered vectors of the US[k] matrix 33' in order to recover the vectors of the matrix US[k] 33.

[0195] Embora descrito acima como realizando um processo de duas etapas que envolve uma análise com base, primeiro, em parâmetros específicos à energia e, então, em parâmetros de correlação cruzada, a unidade de reordenação 32 pode apenas realizar essa análise apenas em relação aos parâmetros de energia para determinar as informações de reordenação, realizar essa análise apenas em relação aos parâmetros de correlação cruzada para determinar as informações de reordenação ou realizar a análise em relação a ambos os parâmetros de energia e os parâmetros de correlação cruzada da maneira descrita acima. Adicionalmente, as técnicas podem empregar outros tipos de processos para determinar a correlação que não envolver realizar um ou ambos dentre uma comparação de energia e/ou uma correlação cruzada. Dessa maneira, as técnicas não devem ser limitadas nesse sentido aos exemplos estabelecidos acima. Além do mais, outros parâmetros obtidos a partir da unidade de cálculo de parâmetro 32 (como os parâmetros de posição espacial derivados dos vetores V ou correlação dos vetores na V[k] e V[k-1]) também podem ser usados (ou concorrente/junta ou sequencialmente) com os parâmetros de energia e de correlação cruzada obtidos a partir de U.S.[k] e U.S.[k-l] para determinar a ordenação correta dos vetores em U.S..[0195] Although described above as performing a two-step process that involves an analysis based first on energy-specific parameters and then on cross-correlation parameters, the reordering unit 32 can only perform this analysis only in relation to to the energy parameters to determine the reorder information, perform this analysis only against the cross-correlation parameters to determine the reorder information, or perform the analysis against both the energy parameters and the cross-correlation parameters in the manner described above . Additionally, the techniques may employ other types of processes to determine correlation that do not involve performing one or both of an energy comparison and/or a cross-correlation. Thus, the techniques should not be limited in this sense to the examples set out above. Furthermore, other parameters obtained from the calculation unit of parameter 32 (such as spatial position parameters derived from vectors V or correlation of vectors in V[k] and V[k-1]) can also be used (or concurrently/jointly or sequentially) with the energy and cross-correlation parameters obtained from US[k] and US[kl] to determine the correct ordering of the vectors in US.

[0196] Como um exemplo de usar a correlação dos vetores na matriz V, a unidade de cálculo de parâmetro 34 pode determinar que os vetores da matriz Y[k] 35 sejam correlacionados conforme especificado na Tabela 4 a seguir: TABELA 4

Figure img0019
[0196] As an example of using the correlation of vectors in matrix V, the calculation unit of parameter 34 can determine that vectors of matrix Y[k] 35 are correlated as specified in Table 4 below: TABLE 4
Figure img0019

[0197] A partir da Tabela 4 acima, a unidade de reordenação 34 determina, como um exemplo, que o vetor V[k-1][1] se correlaciona ao vetor V[k][2] diferentemente posicionado, o vetor V[k-1][2] se correlaciona ao vetor V[k][1] diferentemente posicionado, o vetor V[k-1][3] se correlaciona ao vetor V[k][3] semelhantemente posicionado e o vetor V[&-1][4] se correlaciona ao vetor V[&][4] semelhantemente posicionado. A unidade de reordenação 34 pode produzir a versão reordenada dos vetores da matriz Y[k] 35 como uma matriz Y[k] 35’ reordenada.[0197] From Table 4 above, the reordering unit 34 determines, as an example, that the vector V[k-1][1] correlates to the differently positioned vector V[k][2], the vector V [k-1][2] correlates to the differently positioned vector V[k][1], the vector V[k-1][3] correlates to the similarly positioned vector V[k][3] and the vector V [&-1][4] correlates to similarly positioned vector V[&][4]. The reordering unit 34 can output the reordered version of the vectors of the matrix Y[k] 35 as a reordered matrix Y[k] 35'.

[0198] Em alguns exemplos, a mesma reordenação que é aplicada aos vetores na matriz U.S. também é aplicada aos vetores na matriz V. Em outras palavras, qualquer análise usada na reordenação dos vetores V pode ser usada em conjunto com qualquer análise usada para reordenar os vetores U.S.. Para ilustrar um exemplo em que as informações de reordenação não são somente determinadas em relação aos parâmetros de energia e/ou aos parâmetros de correlação cruzada em relação aos vetores U.S.[&] 35, a unidade de reordenação 34 também pode realizar essa análise em relação aos vetores Y[k] 35 com base nos parâmetros de correlação cruzada e nos parâmetros de energia de uma maneira semelhante àquela descrita acima em relação aos vetores Y[k] 35. Além do mais, embora os vetores XJS[k] 33 não tenham quaisquer propriedades direcionais, os vetores Y[k] 35 podem fornecer informações relacionadas à direcionalidade dos vetores XJS[k] 33 correspondente. Nesse sentido, a unidade de reordenação 34 pode identificar correlações entre os vetores V[k] 35 e vetores V[k-1] 35 com base em uma análise de parâmetros de propriedades direcionais correspondentes. Ou seja, em alguns exemplos, o objeto de áudio se move dentro de um campo sonoro de uma maneira contínua quando em movimento ou que fica em um local relativamente estável. Como tal, a unidade de reordenação 34 pode identificar esses vetores da matriz V[k] 35 e da matriz V[k-1] 35 que exibe algum movimento fisicamente realístico conhecido ou que fica estacionário dentro do campo sonoro conforme relacionado, reordenando os vetores XJS[k] 33 e os vetores V[k] 35 com base na correlação de propriedades direcionais. Em qualquer evento, a unidade de reordenação 34 pode emitir os vetores reordenados U.S.[k] 33’ e os vetores reordenados V[k] 35’ para a unidade de seleção de primeiro plano 36.[0198] In some examples, the same reordering that is applied to the vectors in the US matrix is also applied to the vectors in the V matrix. In other words, any analysis used in the reordering of the V vectors can be used in conjunction with any analysis used to reorder the US vectors. To illustrate an example where the reordering information is not only determined with respect to energy parameters and/or cross-correlation parameters with respect to US[&] vectors 35, the reordering unit 34 can also perform this analysis against Y[k] 35 vectors based on cross-correlation parameters and energy parameters in a similar manner as described above with respect to Y[k] 35 vectors. Furthermore, although XJS[k] ] 33 do not have any directional properties, the Y[k] 35 vectors can provide information related to the directionality of the corresponding XJS[k] 33 vectors. In this sense, the reordering unit 34 can identify correlations between vectors V[k] 35 and vectors V[k-1] 35 based on an analysis of corresponding directional property parameters. That is, in some examples, the audio object moves within a sound field in a continuous manner when in motion or when it is in a relatively stable location. As such, the reordering unit 34 can identify those vectors from the matrix V[k] 35 and the matrix V[k-1] 35 that exhibit some known physically realistic motion or that are stationary within the sound field as related by reordering the vectors. XJS[k] 33 and vectors V[k] 35 based on the correlation of directional properties. In any event, the reordering unit 34 may output the reordered vectors U.S.[k] 33' and the reordered vectors V[k] 35' to the foreground selection unit 36.

[0199] Adicionalmente, as técnicas podem empregar outros tipos de processos para determinar a ordem correta que não envolve realizar um ou ambos dentre uma comparação de energia e/ou uma correlação cruzada. Dessa maneira, as técnicas não devem ser limitadas nesse sentido aos exemplos estabelecidos acima.[0199] Additionally, the techniques may employ other types of processes to determine the correct order that does not involve performing one or both of an energy comparison and/or a cross-correlation. Thus, the techniques should not be limited in this sense to the examples set out above.

[0200] Embora descrito acima como a reordenação dos vetores da matriz V para espelhar a reordenação dos vetores da matriz U.S., em determinadas ocasiões, os vetores V podem ser reordenados diferentemente dos vetores U.S., onde os elementos de sintaxe separados podem ser gerados para indicar a reordenação dos vetores U.S. e a reordenação dos vetores V. Em algumas ocasiões, os vetores V podem não ser reordenados e apenas os vetores U.S. podem ser reordenados dado que os vetores V podem não ser codificados de modo psicoacústico.[0200] Although described above as the reordering of matrix V vectors to mirror the reordering of US matrix vectors, on certain occasions V vectors may be reordered differently from US vectors where separate syntax elements can be generated to indicate the reordering of the US vectors and the reordering of the V vectors. On some occasions, the V vectors may not be reordered and only the US vectors may be reordered since the V vectors may not be psychoacoustically encoded.

[0201] Uma modalidade em que a reordenação dos vetores da matriz V e dos vetores da matriz U.S. é diferente quando a intenção for trocar os objetos de áudio no espaço - isto é, mover os mesmos para longe da posição gravada original (quando o campo sonoro subjacente for uma gravação natural) ou a posição artisticamente destinada (quando o campo sonoro subjacente for uma mistura artificial de objetos). Como um exemplo, supõe-se que hajam duas fontes de áudio A e B, A pode ser o som de um gato “miau” que emana da parte “esquerda” do campo sonoro e B pode ser o som de um cachorro “au-au" que emana da parte “direita” do campo sonoro. Quando a reordenação do V e U.S. forem diferentes, a posição das duas fontes de som é trocada. Após a troca, A (o “miau”) emana da parte direita do campo sonoro e B (o "au-au") emana da parte esquerda do campo sonoro.[0201] A modality in which the reordering of the V matrix vectors and the US matrix vectors is different when the intention is to swap the audio objects in space - that is, move them away from the original recorded position (when the field the underlying sound field is a natural recording) or the artistically intended position (when the underlying sound field is an artificial mixture of objects). As an example, suppose there are two audio sources A and B, A might be the sound of a cat “meow” emanating from the “left” part of the sound field, and B might be the sound of a dog “au- au" emanating from the “right” part of the sound field. When the reordering of the V and US are different, the position of the two sound sources is switched. After the switch, A (the “meow”) emanates from the right part of the field sound and B (the "whoop") emanates from the left part of the sound field.

[0202] A unidade de análise de campo sonoro 44 pode representar uma unidade configurada para realizar uma análise de campo sonoro em relação aos coeficientes de HOA 11, de modo a alcançar, potencialmente, uma taxa-alvo de bits 41. A unidade de análise de campo sonoro 44 pode, com base em tal análise e/ou em uma taxa-alvo de bits recebida 41, determinar a quantidade total de formações de instâncias de codificador psicoacústico (que pode ser uma função da quantidade total de canais ambientes ou de segundo plano (BGTOT) e a quantidade de canais de primeiro plano ou, em outras palavras, canais predominantes. A quantidade total de formações de instâncias de codificador psicoacústico pode ser denotada como numHOATransportChannels. A unidade de análise de campo sonoro 44 também pode determinar, novamente para alcançar potencialmente a taxa-alvo de bits 41, a quantidade total de canais de primeiro plano (nFG) 45, a ordem mínima do campo sonoro (NBG ou, alternativamente, MmAmbHoaOrder) de segundo plano (ou, em outras palavras, ambiente), a quantidade correspondente de canais reais representativos da ordem mínima de campo sonoro de segundo plano (NBGa = (MinAmbHoaOrder+1)2) e índices (i) de canais de HOA de BG adicionais para enviar (que podem ser denotados, coletivamente, como informações de canal de segundo plano 43 no exemplo da Figura 4). As informações de canal de segundo plano 42 também podem ser denominadas informações de canal ambiente 43. Cada um dos canais que permanece a partir de numHOATransportChannels - NBGa, pode tanto ser um “canal de segundo plano/ambiente adicional”, um “canal predominante com base em vetor ativo”, um “sinal predominante com base direcional ativa” ou “completamente inativo”. Em uma modalidade, tais tipos de canal podem ser indicados (como um “ChannelType”) elemento de sintaxe através de dois bits (por exemplo, 00:canal de segundo plano adicional; 01:sinal predominando com base em vetor; 10: sinal inativo; 11: sinal com base direcional). A quantidade total de sinais de segundo plano ou ambientes, NBGa, pode ser determinada através de (MmAmbHoaOrder +1)2 + a quantidade de vezes em que o índice 00 (no exemplo acima) aparece como um tipo de canal no fluxo de bits para tal quadro.[0202] Sound field analysis unit 44 may represent a unit configured to perform sound field analysis against HOA coefficients 11 in order to potentially achieve a target bit rate 41. Analysis unit sound field 44 may, based on such analysis and/or a received target bit rate 41, determine the total amount of psychoacoustic encoder instance formations (which may be a function of the total amount of ambient channels or second plane (BGTOT) and the number of foreground channels or, in other words, predominant channels. The total number of formations of psychoacoustic encoder instances can be denoted as numHOATransportChannels. The sound field analysis unit 44 can also determine, again to potentially achieve target bit rate 41, total amount of foreground channels (nFG) 45, minimum sound field order (NBG or alternatively MmAmbHoaOrder) of second of the plane (or, in other words, ambient), the corresponding amount of actual channels representative of the minimum background sound field order (NBGa = (MinAmbHoaOrder+1)2) and indices (i) of additional BG HOA channels to send (which can be collectively denoted as background channel information 43 in the example in Figure 4). Background channel information 42 can also be called ambient channel information 43. Each of the channels that remains from numHOATransportChannels - NBGa, can either be an "additional background/environment channel", a "predominant channel with vector base active”, a “predominant signal with active directional base” or “completely inactive”. In one embodiment, such channel types may be indicated (as a "ChannelType") syntax element via two bits (e.g., 00: additional background channel; 01: predominant signal on a vector basis; 10: signal inactive ; 11: directional based signal). The total amount of background or ambient signals, NBGa, can be determined from (MmAmbHoaOrder +1)2 + the amount of times index 00 (in the example above) appears as a channel type in the bitstream for such a picture.

[0203] De qualquer forma, a unidade de análise de campo sonoro 44 pode selecionar a quantidade de canais de segundo plano (ou, em outras palavras, ambientes) e a quantidade de canais de primeiro plano (ou, em outras palavras, predominantes) com base na taxa-alvo de bits 41, de modo a selecionar mais canais de segundo plano e/ou de primeiro plano quando a taxa-alvo de bits 41 é relativamente superior (por exemplo, quando a taxa-alvo de bits 41 é igual ou maior do que 512 Kbps). Em uma modalidade, os numHOATransportChannels podem ser estabelecidos como 8 enquanto a MmAmbHoaOrder pode ser estabelecida como 1 na seção de cabeçalho do fluxo de bits (que é descrito em maiores detalhes em relação às Figuras 10 a 100(ii)). Nesse cenário, em todos os quadros, quatro canais podem ser dedicados a representar a porção de segundo plano ou ambiente do campo sonoro enquanto os outros 4 canais podem, à base de quadro por quadro, variar no tipo de canal - por exemplo, tanto usado como um canal de segundo plano/ambiente adicional quanto um canal de primeiro plano/predominante. Os sinais de primeiro plano/predominantes podem ser tanto um sinal com base em vetor quanto um sinal com base direcional, conforme descrito acima.[0203] In any case, the sound field analysis unit 44 can select the amount of background (or, in other words, ambient) channels and the amount of foreground (or, in other words, predominant) channels based on target bit rate 41, so as to select more background and/or foreground channels when target bit rate 41 is relatively higher (e.g. when target bit rate 41 is equal or greater than 512 Kbps). In one embodiment, the numHOATransportChannels can be set to 8 while the MmAmbHoaOrder can be set to 1 in the bitstream header section (which is described in more detail with reference to Figures 10 to 100(ii)). In this scenario, in every frame, four channels can be dedicated to representing the background or ambient portion of the sound field while the other 4 channels can, on a frame-by-frame basis, vary in channel type - for example, both used as an additional background/environment channel or as a foreground/predominant channel. Foreground/predominant signals can be either a vector-based signal or a directional-based signal as described above.

[0204] Em algumas ocorrências, a quantidade total de sinais predominantes com base em vetor para um quadro, pode ser determinada através da quantidade de vezes que o índice de ChannelType for 01, no fluxo de bits de tal quadro no exemplo acima. Na modalidade acima, para todos os canais de segundo plano/ambientes adicionais (por exemplo, correspondentes a um ChannelType de 00), informações correspondentes de quais dentre os possíveis coeficientes de HOA (além dos quatro primeiros) pode ser representado no canal. Essas informações, para um conteúdo de HOA de quarta ordem, podem ser um índice para indicar entre 5 a 25 (os quatro primeiros 1 a 4 podem ser enviados todo o tempo quando minAmbHoaOrder é estabelecida como 1, por isso, precisa indicar apenas um dentre 5 a 25). Tais informações podem, portanto, ser enviadas com o uso de um elemento de sintaxe de 5 bits (para conteúdo de 4aordem), que pode ser denotado como “CodedAmbCoeffldx”.[0204] In some instances, the total amount of vector-based predominant signals for a frame can be determined by the number of times the ChannelType index is 01 in the bitstream of such a frame in the example above. In the above modality, for all additional background/environment channels (eg corresponding to a ChannelType of 00), corresponding information on which of the possible HOA coefficients (in addition to the first four) can be represented on the channel. This information, for a fourth order HOA content, can be an index to indicate between 5 to 25 (the first four 1 to 4 can be sent all the time when minAmbHoaOrder is set to 1, so it needs to indicate only one of 5 to 25). Such information can therefore be sent using a 5-bit syntax element (for 4th order content), which can be denoted as “CodedAmbCoeffldx”.

[0205] Em uma segunda modalidade, todos os sinais de primeiro plano/predominantes são sinais com base em vetor. Em tal segunda modalidade, a quantidade total de sinais de primeiro plano/predominantes pode ser determinada através de nFG = numHOATransportChannels - [(MinAmbHoaOrder +1)2 + a quantidade de vezes que o índice 00].[0205] In a second embodiment, all foreground/mainstream signals are vector-based signals. In such a second embodiment, the total amount of foreground/predominant signals can be determined through nFG = numHOATransportChannels - [(MinAmbHoaOrder +1)2 + the amount of times the index 00].

[0206] A unidade de análise de campo sonoro 44 emite as informações de canal de segundo plano 43 e os coeficientes de HOA 11 para a unidade de seleção de segundo plano (BG) 46, as informações de canal de segundo plano 43 para a unidade de redução de coeficiente 46 e a unidade de geração de fluxo de bits 42 e a nFG 45 para uma unidade de seleção de primeiro plano 36.[0206] Sound field analysis unit 44 outputs background channel information 43 and HOA coefficients 11 to background selection unit (BG) 46, background channel information 43 to unit reduction coefficient 46 and the bit stream generation unit 42 and the nFG 45 to a foreground selection unit 36.

[0207] Em alguns exemplos, a unidade de análise de campo sonoro 44 pode selecionar, com base em uma análise dos vetores da matriz 33 U.S.[k] e na taxa-alvo de bits 41, uma quantidade de variável de tais componentes que tenha o maior valor. Em outras palavras, a unidade de análise de campo sonoro 44 pode determinar um valor para uma variável A (que pode ser similar ou substancialmente similar a NBG), que separa dois subespaços, através da análise do declive da curva criada através dos valores diagonais descendentes dos vetores da matriz 33 S[k], em que os grandes valores singulares representam sons de primeiro plano ou distintos e os baixos valores singulares representam componentes de segundo plano do campo sonoro. Ou seja, a variável A pode segmentar o campo sonoro geral para formar um subespaço de primeiro plano e um subespaço de segundo plano.[0207] In some examples, the sound field analysis unit 44 may select, based on an analysis of the matrix vectors 33 US[k] and the target bit rate 41, a variable amount of such components that has the highest value. In other words, the sound field analysis unit 44 can determine a value for a variable A (which may be similar or substantially similar to NBG), which separates two subspaces, by analyzing the slope of the curve created through the descending diagonal values. of the vectors of the matrix 33 S[k], where the large singular values represent foreground or distinct sounds and the low singular values represent background components of the sound field. That is, variable A can segment the overall sound field to form a foreground subspace and a background subspace.

[0208] Em alguns exemplos, a unidade de análise de campo sonoro 44 pode usar um primeiro e um segundo derivativo da curva de valor singular. A unidade de análise de campo sonoro 44 também pode limitar o valor para que a variável A seja entre um e cinco. Como outro exemplo, a unidade de análise de campo sonoro 44 pode limitar o valor da variável A para que seja entre um e (N+1)2. Alternativamente, a unidade de análise de campo sonoro 44 pode predefinir o valor para a variável A, tal como para um valor de quatro. De qualquer forma, com base no valor de A, a unidade de análise de campo sonoro 44 determina a quantidade total de canais de primeiro plano (nFG) 45, a ordem do campo sonoro de segundo plano (NBG) e a quantidade (NBGa) e os índices (i) de canais de HOA de BG adicionais a serem enviados.[0208] In some examples, the sound field analysis unit 44 may use a first and a second derivative of the singular value curve. The sound field analysis unit 44 may also limit the value so that variable A is between one and five. As another example, the sound field analysis unit 44 may limit the value of variable A to be between one and (N+1)2. Alternatively, the sound field analysis unit 44 may preset the value for variable A, such as to a value of four. Anyway, based on the value of A, the sound field analysis unit 44 determines the total amount of foreground channels (nFG) 45, the order of the background sound field (NBG) and the amount (NBGa) and the indices (i) of additional BG HOA channels to be sent.

[0209] Ademais, a unidade de análise de campo sonoro 44 pode determinar a energia dos vetores na matriz 35 V[k] a uma base por vetor. A unidade de análise de campo sonoro 44 pode determinar a energia para cada um dos vetores na matriz 35 V[k] e identificar os que têm uma alta energia como componentes de primeiro plano.[0209] Furthermore, the sound field analysis unit 44 can determine the energy of the vectors in the matrix 35 V[k] on a per vector basis. The sound field analysis unit 44 can determine the energy for each of the vectors in the matrix 35 V[k] and identify those having a high energy as foreground components.

[0210] Ademais, a unidade de análise de campo sonoro 44 pode realizar várias outras análises em relação aos coeficientes de HOA 11, inclusive uma análise de energia espacial, uma análise de mascaramento espacial, uma análise de difusão ou outras formas de análises auditivas. A unidade de análise de campo sonoro 44 pode realizar a análise de energia espacial através da transformação dos coeficientes de HOA 11 em áreas de identificação e domínio espacial de alta energia representativas de componentes direcionais do campo sonoro que devem ser preservadas. A unidade de análise de campo sonoro 44 pode realizar a análise de mascaramento espacial perceptiva de uma maneira similar à da análise de energia espacial, com a exceção de que a unidade de análise de campo sonoro 44 pode identificar áreas espaciais que são mascaradas através de sons de energia superior espacialmente próximos. A unidade de análise de campo sonoro 44 pode, em seguida, com base nas áreas perceptivamente mascaradas, identificar menos componentes de primeiro plano em alguns casos. A unidade de análise de campo sonoro 44 pode realizar adicionalmente uma análise de difusão em relação aos coeficientes de HOA 11 para identificar áreas de energia difusa que podem representar componentes de segundo plano do campo sonoro.[0210] In addition, the sound field analysis unit 44 can perform various other analyzes in relation to the HOA coefficients 11, including a spatial energy analysis, a spatial masking analysis, a diffusion analysis or other forms of auditory analysis. The sound field analysis unit 44 can perform spatial energy analysis by transforming the HOA coefficients 11 into high energy spatial identification and domain areas representative of directional components of the sound field that must be preserved. Sound field analysis unit 44 can perform perceptual spatial masking analysis in a similar manner to spatial energy analysis, with the exception that sound field analysis unit 44 can identify spatial areas that are masked by sounds. of spatially close superior energy. The sound field analysis unit 44 may then, based on the perceptually masked areas, identify fewer foreground components in some cases. The sound field analysis unit 44 may additionally perform a scatter analysis against the HOA coefficients 11 to identify areas of diffuse energy that may represent background components of the sound field.

[0211] A unidade de análise de campo sonoro 44 também pode representar uma unidade configurada para determinar saliência, distinção ou predominância de dados de áudio que representam um campo sonoro, com o uso de informações com base em direcionalidade associadas aos dados de áudio. Embora as determinações com base em energia possam aprimorar a rederização de um campo sonoro decomposto através de SVD para identificar componentes de áudio distintos do campo sonoro, as determinações com base em energia também podem fazer com que um dispositivo identifique erroneamente componentes de áudio de segundo plano como componentes de áudio distintos, em casos em que Os componentes de áudio de segundo plano exibem um alto nível de energia. Ou seja, uma separação somente com base em energia de componentes de áudio distintos e de segundo plano pode não ser robusta, enquanto os componentes de áudio de segundo plano energéticos (por exemplo, mais altos) podem ser incorretamente identificados como componentes de áudio distintos. Distinguir de modo mais robusto entre componentes de áudio distintos e de segundo plano do campo sonoro, vários aspectos das técnicas descritas na presente revelação possibilitam que a unidade de análise de campo sonoro 44 realize uma análise com base em direcionalidade dos coeficientes de HOA 11 para separar os componentes de primeiro plano e ambientes a partir das versões decompostas dos coeficientes de HOA 11.[0211] Sound field analysis unit 44 may also represent a unit configured to determine salience, distinctiveness, or dominance of audio data representing a sound field, using directionality-based information associated with the audio data. While energy-based determinations can enhance the rendering of a sound field decomposed through SVD to identify audio components distinct from the sound field, energy-based determinations can also cause a device to misidentify background audio components. as distinct audio components, in cases where Background audio components exhibit a high level of power. That is, a power-only separation of distinct and background audio components may not be robust, while energetic (eg, louder) background audio components may be incorrectly identified as distinct audio components. To more robustly distinguish between distinct and background audio components of the sound field, various aspects of the techniques described in the present disclosure enable the sound field analysis unit 44 to perform a directionality-based analysis of the HOA coefficients 11 to separate the foreground and ambient components from the decomposed versions of the HOA 11 coefficients.

[0212] Nesse aspecto, a unidade de análise de campo sonoro 44 podem representar uma unidade configurada ou, de outro modo, operável para identificar elementos distintos (ou de primeiro plano) de elementos de segundo plano incluído em um ou mais dos vetores na matriz 33 U.S.[k] e os vetores na matriz 35 V[k]. De acordo com algumas técnicas com base em SVD, os componentes mais energéticos (por exemplo, os poucos primeiros vetores de uma ou mais dentre a matriz 33 U.S.[k] e a matriz 35 V[k] ou vetores derivados das mesmas) podem ser tratados como componentes distintos. Entretanto, os componentes mais energéticos (que são representados por vetores) de um ou mais dos vetores na matriz 33 U.S.[k] e os vetores na matriz 35 V[k] podem, em todos os cenários, não representar os componentes/sinais que são os mais direcionais.[0212] In this regard, the sound field analysis unit 44 may represent a unit configured or otherwise operable to identify distinct (or foreground) elements from background elements included in one or more of the vectors in the matrix 33 US[k] and the vectors in the matrix 35 V[k]. According to some SVD-based techniques, the most energetic components (e.g. the first few vectors of one or more of the 33 US[k] matrix and the 35 V[k] matrix or vectors derived from them) can be treated as separate components. However, the most energetic components (which are represented by vectors) of one or more of the vectors in the 33 US[k] matrix and the vectors in the 35 V[k] matrix may, in all scenarios, not represent the components/signals that are the most directional.

[0213] A unidade de análise de campo sonoro 44 pode implantar um ou mais aspectos das técnicas descritas no presente documento para identificar elementos de primeiro plano/direto/predominante com base na direcionalidade dos vetores de um ou mais dos vetores na matriz 33 U.S.[k] e os vetores na matriz 35 V[k] ou vetores derivados das mesmas. Em alguns exemplos, a unidade de análise de campo sonoro 44 pode identificar ou selecionar como componentes de áudio distintos (em que os componentes também podem ser denominados como “objetos”), um ou mais vetores tanto com base na energia quanto na direcionalidade dos vetores. Por exemplo, a unidade de análise de campo sonoro 44 pode identificar os vetores de um ou mais dos vetores na matriz 33 U.S.[k] e os vetores na matriz 35 V[k] (ou vetores derivados das mesmas) que exibem tanto alta energia quanto alta direcionalidade (por exemplo, representado como um quociente de direcionalidade) como componentes de áudio distintos. Como um resultado, se a unidade de análise de campo sonoro 44 determina que um vetor particular é relativamente menos direcional quando comparado com outros vetores de um ou mais dos vetores na matriz 33 U.S.[k] e os vetores na matriz 35 V[k] (ou vetores derivados a partir das mesmas), então, independentemente do nível de energia associado ao vetor particular, a unidade de análise de campo sonoro 44 pode determinar que o vetor particular representa componentes de áudio de segundo plano (ou ambiente) do campo sonoro representado através dos coeficientes de HOA 11.[0213] The sound field analysis unit 44 may implement one or more aspects of the techniques described herein to identify foreground/direct/predominant elements based on the directionality of the vectors of one or more of the vectors in the matrix 33 US[ k] and the vectors in the matrix 35 V[k] or vectors derived therefrom. In some examples, the sound field analysis unit 44 may identify or select as distinct audio components (where the components may also be referred to as "objects"), one or more vectors based on both the energy and directionality of the vectors. . For example, the sound field analysis unit 44 can identify the vectors of one or more of the vectors in the 33 US[k] matrix and the vectors in the 35 V[k] matrix (or vectors derived therefrom) that exhibit both high energy and high directionality (eg represented as a directionality quotient) as distinct audio components. As a result, if the sound field analysis unit 44 determines that a particular vector is relatively less directional when compared to other vectors of one or more of the vectors in the matrix 33 US[k] and the vectors in the matrix 35 V[k] (or vectors derived therefrom), then, regardless of the energy level associated with the particular vector, the sound field analysis unit 44 can determine that the particular vector represents background (or ambient) audio components of the sound field. represented through the coefficients of HOA 11.

[0214] Em alguns exemplos, a unidade de análise de campo sonoro 44 pode identificar objetos de áudio distintos (que, conforme observado acima, também podem ser denominados como “componentes”) com base na direcionalidade, realizando-se as seguintes operações. A unidade de análise de campo sonoro 44 pode multiplicar (por exemplo, com o uso de um ou mais processos de multiplicação de matriz) vetores na matriz S[k] (que podem ser derivados dos vetores 33 U.S.[k] ou, embora não seja mostrado no exemplo da Figura 4, separadamente emitidos pela unidade de LIT 30) através dos vetores na matriz 35 V[k]. Multiplicando-se a matriz 35 V[k] e os vetores S[k], a unidade de análise de campo sonoro 44 pode obter matriz VS[K]. Adicionalmente, a unidade de análise de campo sonoro 44 pode elevar ao quadrado (isso é, exponenciar a uma potência de dois) pelo menos uma parte das entradas de cada um dos vetores na matriz VS[K]. Em algumas ocorrências, a unidade de análise de campo sonoro 44 pode somar as entradas elevadas ao quadrado de cada vetor que são associadas a uma ordem maior do que 1.[0214] In some examples, the sound field analysis unit 44 can identify distinct audio objects (which, as noted above, can also be referred to as “components”) based on directionality by performing the following operations. The sound field analysis unit 44 can multiply (for example, using one or more matrix multiplication processes) vectors in the matrix S[k] (which can be derived from the vectors 33 US[k] or, although not is shown in the example of Figure 4, separately emitted by the LIT unit 30) through the vectors in the matrix 35 V[k]. By multiplying the matrix 35 V[k] and the vectors S[k], the sound field analysis unit 44 can obtain matrix VS[K]. Additionally, the sound field analysis unit 44 can square (i.e., exponentiate to a power of two) at least a portion of the entries of each of the vectors in the matrix VS[K]. In some instances, the sound field analysis unit 44 may sum the squared inputs of each vector that are associated with an order greater than 1.

[0215] Como um exemplo, se cada vetor da matriz VS[K], que inclui 25 entradas, a unidade de análise de campo sonoro 44 pode, em relação a cada vetor, elevar ao quadrado as entradas de cada vetor, a começar na quinta entrada e terminando na décima quinta entrada, de modo a somar as entradas elevadas ao quadrado para determinar um quociente de direcionalidade (ou um indicador de direcionalidade). Cada operação de soma pode resultar em um quociente de direcionalidade para um vetor correspondente. Nesse exemplo, a unidade de análise de campo sonoro 44 pode determinar que as entradas de cada fileira que estão associadas a uma ordem menor ou igual a 1, designadamente, da primeira até a quarta entradas, são mais genericamente direcionadas à quantidade de energia e menos à direcionalidade de tais entradas. Ou seja, a menor ordem ambissônica associada a uma ordem de zero ou um corresponde às funções de base esférica que, conforme ilustrado na Figura 1 e na Figura 2, não fornece muitos termos da direção da onda de pressão, mas em vez disso, fornece volume (que é representativo de energia).[0215] As an example, if each vector of the matrix VS[K], which includes 25 entries, the sound field analysis unit 44 can, with respect to each vector, square the entries of each vector, starting at fifth entry and ending with the fifteenth entry, so as to sum the squared entries to determine a directionality quotient (or an indicator of directionality). Each summation operation can result in a directionality quotient for a corresponding vector. In this example, the sound field analysis unit 44 can determine that the inputs of each row that are associated with an order less than or equal to 1, namely, the first through the fourth inputs, are more generally directed to the amount of energy and less to the directionality of such inputs. That is, the lowest ambisonic order associated with an order of zero or one corresponds to the spherical basis functions which, as illustrated in Figure 1 and Figure 2, do not give many terms of the pressure wave direction, but instead give volume (which is representative of energy).

[0216] As operações descritas no exemplo acima também podem ser expressadas de acordo com o seguinte pseudocódigo. O pseudocódigo abaixo inclui anotações, sob a forma de instruções de comentário que estão incluídas nos casos consecutivos das cadeias de caracteres “/*” e “*/” (sem aspas).

Figure img0020
[0216] The operations described in the example above can also be expressed according to the following pseudocode. The pseudocode below includes annotations, in the form of comment statements that are enclosed in consecutive cases of the strings “/*” and “*/” (without quotes).
Figure img0020

[0217] /* A próxima linha é direcionada à análise de cada fileira independentemente e a soma dos valores na primeira fileira (como um exemplo) a partir da quinta entrada até a décima quinta entrada para determinar um quociente de direcionalidade ou métrica de direcionalidade para um vetor correspondente. Elevar ao quadrado as entradas antes da soma. As entradas em cada fileira que está associada a uma ordem maior do que 1 são associadas a uma ordem ambissônica mais alta e têm, portanto, uma maior probabilidade de serem direcionais.

Figure img0021
[0217] /* The next line is directed to the analysis of each row independently and the sum of the values in the first row (as an example) from the fifth input to the fifteenth input to determine a directionality quotient or directionality metric for a corresponding vector. Square the entries before the sum. Entries in each row that are associated with an order greater than 1 are associated with a higher ambisonic order and are therefore more likely to be directional.
Figure img0021

[0218] /* A próxima linha é direcionada ao sortimento da soma de quadrados para a matriz VS gerada e a seleção de um conjunto dos maiores valores (por exemplo, três ou quatro dos maiores valores)

Figure img0022
[0218] /* The next line is directed to sorting the sum of squares for the generated VS matrix and selecting a set of the highest values (e.g. three or four of the highest values)
Figure img0022

[0219] Em outras palavras, de acordo com o pseudocódigo acima, a unidade de análise de campo sonoro 44 pode selecionar entradas de cada vetor da matriz VS[K] decompostas a partir dos coeficientes de HOA 11 que correspondem a uma função de base esférica que tem uma ordem maior do que um. A unidade de análise de campo sonoro 44 pode, em seguida, elevar ao quadrado essas entradas para cada vetor da \matriz S[k], de modo a somar as entradas elevadas ao quadrado para identificar, computar ou, de outro modo, determinar uma métrica de direcionalidade ou quociente para cada vetor da matriz VS[K]. Em seguida, a unidade de análise de campo sonoro 44 pode sortir os vetores da matriz VS[K] com base nas respectivas métricas de direcionalidade de cada um dos vetores. A unidade de análise de campo sonoro 44 pode sortir tais vetores em uma ordem descendente de métricas de direcionalidade, de modo que os vetores com a mais alta direcionalidade correspondente sejam os primeiros e os vetores com a mais baixa direcionalidade correspondente sejam os últimos. A unidade de análise de campo sonoro 44 pode, em seguida, selecionar o subconjunto diferente de zero dos vetores que têm a maior métrica de direcionalidade relativa.[0219] In other words, according to the above pseudocode, the sound field analysis unit 44 can select entries from each vector of the matrix VS[K] decomposed from the HOA coefficients 11 that correspond to a spherical basis function which has an order greater than one. The sound field analysis unit 44 can then square these inputs for each vector of the S[k] matrix, so as to sum the squared inputs to identify, compute, or otherwise determine a directionality metric or quotient for each vector of the matrix VS[K]. Then, the sound field analysis unit 44 can sort the vectors from the matrix VS[K] based on the respective directionality metrics of each of the vectors. The sound field analysis unit 44 can sort such vectors in a descending order of directionality metrics so that the vectors with the highest corresponding directionality are first and the vectors with the lowest corresponding directionality are last. The sound field analysis unit 44 can then select the non-zero subset of the vectors that have the greatest relative directionality metric.

[0220] A unidade de análise de campo sonoro 44 pode realizar qualquer combinação das análises de primeiro plano para determinar a quantidade total de formações de instâncias de codificador psicoacústico (que podem ser uma função da quantidade total de canais ambientes ou de segundo plano (BGTOT) e a quantidade de canais de primeiro plano. A unidade de análise de campo sonoro 44 pode, com base em qualquer combinação das análises de primeiro plano, determinar a quantidade total de canais de primeiro plano (nFG) 45, a ordem do campo sonoro de segundo plano (NBG) e a quantidade (NBGa) e índices (i) de canais de HOA de BG adicionais para enviar (que podem, coletivamente, ser denotados como informações de canal de segundo plano 43 no exemplo da Figura 4).[0220] The sound field analysis unit 44 can perform any combination of the foreground analyzes to determine the total amount of psychoacoustic encoder instance formations (which may be a function of the total amount of ambient or background channels (BGTOT) ) and the number of foreground channels. The sound field analysis unit 44 can, based on any combination of the foreground analyses, determine the total number of foreground channels (nFG) 45, the order of the sound field (NBG) and the amount (NBGa) and indices (i) of additional BG HOA channels to send (which may collectively be denoted as background channel information 43 in the example of Figure 4).

[0221] Em alguns exemplos, a unidade de análise de campo sonoro 44 pode realizar tal análise a cada M-amostras, que podem ser reprocessadas como em uma base de quadro por quadro. Nesse aspecto, o valor para A pode variar de quadro para quadro. Um caso de um fluxo de bits em que a decisão é realizada a cada M-amostras é mostrado nas Figuras 10 a 100(ii). Em outros exemplos, a unidade de análise de campo sonoro 44 pode realizar essa análise mais do que uma vez por quadro, de modo a analisar duas ou mais porções do quadro. Consequentemente, as técnicas não devem ser limitadas, nesse sentido, aos exemplos descritos na presente revelação.[0221] In some examples, the sound field analysis unit 44 may perform such analysis every M-samples, which may be reprocessed as on a frame-by-frame basis. In this respect, the value for A may vary from frame to frame. A case of a bit stream where the decision is made every M-samples is shown in Figures 10 to 100(ii). In other examples, the sound field analysis unit 44 may perform such analysis more than once per frame so as to analyze two or more portions of the frame. Accordingly, the techniques should not be limited in this regard to the examples described in the present disclosure.

[0222] A unidade de seleção de segundo plano 48 pode representar uma unidade configurada para determinar coeficientes de HOA de segundo plano ou ambientes 47 com base nas informações de canal de segundo plano (por exemplo, o campo sonoro de segundo plano (NBG) e a quantidade (NBGa) e os índices (i) de canais de HOA de BG adicionais a serem enviados). Por exemplo, quando NBG é igual a um, a unidade de seleção de segundo plano 48 pode selecionar os coeficientes de HOA 11 para cada amostra do quadro de áudio que tem uma ordem igual ou menor do que um. A unidade de seleção de segundo plano 48 pode, nesse exemplo, então, selecionar os coeficientes de HOA 11 que têm um índice identificado através de um dos índices (i) como coeficientes de HOA de BG adicionais, e que a NBGa é fornecida à unidade de geração de fluxo de bits 42 para ser especificada no fluxo de bits 21 de modo a habilitar o dispositivo de decodificação de áudio, tal como o dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 3, para analisar os coeficientes de HOA de BG 47 a partir do fluxo de bits 21. A unidade de seleção de segundo plano 48 pode, em seguida, emitir os coeficientes de HOA ambientes 47 para a unidade de compensação de energia 38. Os coeficientes de HOA ambientes 47 podem ter dimensões D: Mx [(NBG+1)2 + NBGa].[0222] Background selection unit 48 may represent a unit configured to determine HOA coefficients of background or environments 47 based on background channel information (e.g., background sound field (NBG) and the quantity (NBGa) and indices (i) of additional BG HOA channels to be sent). For example, when NBG is equal to one, the background selection unit 48 can select HOA coefficients 11 for each sample of the audio frame that has an order equal to or less than one. The background selection unit 48 can, in this example, then select the HOA coefficients 11 that have an index identified through one of the indices (i) as additional BG HOA coefficients, and that NBGa is provided to the unit generation of bitstream 42 to be specified in bitstream 21 so as to enable the audio decoding device, such as the audio decoding device 24 shown in the example of Figure 3, to analyze the HOA coefficients of BG 47 from bitstream 21. Background select unit 48 may then output ambient HOA coefficients 47 to power offset unit 38. Ambient HOA coefficients 47 may have dimensions D:Mx [(NBG+1)2 + NBGa].

[0223] A unidade de seleção de primeiro plano 36 pode representar uma unidade configurada para selecionar aquelas dentre a matriz 33 U.S.[k]’ reordenada e a matriz 35 V[k]’ reordenada que representa os componentes de primeiro plano ou distintos do campo sonoro com base em nFG 45 (que pode representar um ou mais índices que identificam tais vetores de primeiro plano). A unidade de seleção de primeiro plano 36 pode emitir sinais de nFG 49 (que podem ser denotados como uma U.S.[k]1 reorganizada, NFG 49, FG1, ) nfG[k] 49, ou

Figure img0023
49) para a unidade de codificador de áudio psicoacústico 40, em que os sinais de nFG 49 podem ter as dimensões D: M x nFG e cada um representa objetos de monoáudio. A unidade de seleção de primeiro plano 36 também pode emitir a matriz 35 V[k]’ reordenada (ou v''-""'') (k) 35’) que corresponde aos componentes de primeiro plano do campo sonoro para a unidade de interpolação espaço-temporal 50, em que aquelas das matrizes 35 V[k]’ reordenadas correspondentes aos componentes de primeiro plano podem ser denotadas como matriz 511 V[k] de primeiro plano (que podem ser matematicamente denotadas como
Figure img0024
) que têm dimensões D:
Figure img0025
tadas como matriz 5"" V[k] de primeiro plano (que podem ser matematicamente denotadas como ) que têm dimensões D: (N+")2 x nF. A unidade de compensação de energia 38 pode representar uma unidade configurada para realizar compensação de energia em relação aos coeficientes de HOA ambientes 47 para compensar pela perda de energia devido à remoção de vários dentre os canais de HOA através da unidade de seleção de segundo plano 48. A unidade de compensação de energia 38 pode realizar uma análise de energia em relação a uma ou mais dentre a matriz 33 U.S.[k] ‘ reordenada, a matriz 35 V[k]’ reordenada, os sinais de nFG 49, os vetores 5"k V[k] reordenados e os coeficientes de HOA ambientes 47 e, em seguida, realizar a compensação de energia com base em tal análise de energia para gerar os coeficientes de HOA ambientes 47’ de energia compensada. A unidade de compensação de energia 38 pode emitir os coeficientes de HOA ambientes 47’ de energia compensada para a unidade de codificador de áudio psicoacústico 40.[0223] The foreground selection unit 36 may represent a unit configured to select those among the reordered matrix 33 US[k]' and the reordered matrix 35 V[k]' representing the foreground or distinct components of the field sound based on nFG 45 (which may represent one or more indices that identify such foreground vectors). The foreground selection unit 36 may output signals from nFG 49 (which may be denoted as a rearranged US[k]1, NFG 49, FG1, ) nfG[k] 49, or
Figure img0023
49) to the psychoacoustic audio encoder unit 40, wherein the nFG signals 49 may have dimensions D: M x nFG and each represents monoaudio objects. The foreground selection unit 36 can also output the reordered matrix 35 V[k]' (or v''-""'') (k) 35') which corresponds to the foreground components of the sound field for the unit of spatiotemporal interpolation 50, wherein those of the reordered 35 V[k]' matrices corresponding to the foreground components can be denoted as the foreground 511 V[k] matrix (which can be mathematically denoted as
Figure img0024
) that have dimensions D:
Figure img0025
The foreground 5"" V[k] matrix (which can be mathematically denoted as ) having dimensions D: (N+")2 x nF. Power compensation unit 38 may represent a unit configured to perform power compensation. power against ambient HOA coefficients 47 to compensate for power loss due to the removal of several of the HOA channels through the background selection unit 48. The power compensation unit 38 can perform power analysis against to one or more of the reordered 33 US[k]' matrix, the reordered 35 V[k]' matrix, the nFG signs 49, the reordered 5"k vectors V[k] and the ambient HOA coefficients 47 and, then perform power compensation based on such power analysis to generate the 47' ambient HOA coefficients of compensated power. Power compensation unit 38 can output power compensated ambient HOA coefficients 47' to psychoacoustic audio encoder unit 40.

[0224] Efetivamente, a unidade de compensação de energia 38 pode ser usada para compensar por possíveis reduções na energia geral dos componentes de som de segundo plano do campo sonoro geradas pela redução da ordem dos ambiente componentes do campo sonoro descritos através de coeficientes de HOA "" para gerar os coeficientes de HOA ambientes 47 de ordem reduzida (que, em alguns exemplos, têm uma ordem menor do que N em termos de apenas coeficientes incluídos correspondentes às funções de base esférica que têm as seguintes ordens/subordens: [(NBG+1)2 + NBGa]). Em alguns exemplos, a unidade de compensação de energia 38 compensa por essa perda de energia determinando- se um ganho de compensação sob a forma de valores de amplificação para aplicar a cada uma das colunas [(NBG+1)2 + NBGa] dos coeficientes de HOA ambientes 47 a fim de aumentar a energia de quadrado de média de raiz (RMS) dos coeficientes de HOA ambientes 47 para que seja igual ou pelo menos mais aproximada à RMS dos coeficientes de HOA 11 (conforme determinado através da análise de energia agregada de uma ou mais dentre a matriz 33 U.S.[k]’ reordenada, a matriz 35 V[k]’ reordenada, os sinais de nFG 49, os vetores 511 V[k] de primeiro plano e os coeficientes de HOA ambientes 47 de ordem reduzida), antes de emitir os coeficientes de HOA ambientes 47 para a unidade de codificador de áudio psicoacústico 40.[0224] Effectively, the power compensation unit 38 can be used to compensate for possible reductions in the overall power of the background sound components of the sound field generated by reducing the order of the ambient sound field components described through HOA coefficients. "" to generate the reduced-order ambient HOA 47 coefficients (which, in some examples, have an order less than N in terms of just included coefficients corresponding to spherical basis functions that have the following orders/suborders: [(NBG +1)2 + NBGa]). In some examples, the power compensation unit 38 compensates for this power loss by determining a compensation gain in the form of amplification values to apply to each of the columns [(NBG+1)2 + NBGa] of the coefficients 47 ambient HOA coefficients in order to increase the root mean square (RMS) energy of the ambient 47 HOA coefficients to be equal to or at least closer to the RMS of the HOA 11 coefficients (as determined through aggregate energy analysis of one or more of the reordered 33 US[k]' matrix, the reordered 35 V[k]' matrix, the 49 nFG signals, the foreground 511 V[k] vectors, and the order 47 ambient HOA coefficients reduced), before outputting ambient HOA coefficients 47 to the psychoacoustic audio encoder unit 40.

[0225] Em algumas ocorrências, a unidade de compensação de energia 38 pode identificar a RMS para cada fileira e/ou coluna de uma ou mais dentre a matriz 33 U.S.[k]’ reordenada e a matriz 35 V[k]’ reordenada. A unidade de compensação de energia 38 também pode identificar a RMS para cada fileira e/ou coluna de um ou mais dentre os canais de primeiro plano selecionados, que podem incluir os sinais de nFG 49 e os vetores 511 V[k] de primeiro plano e os coeficientes de HOA ambientes 47 de ordem reduzida. A RMS para cada fileira e/ou coluna da uma ou mais dentre a matriz 33 U.S.[k]’ reordenada e a matriz 35 V[k]’ reordenada pode ser armazenada para um vetor denotado RMSFULL, enquanto a RMS para cada fileira e/ou coluna de um ou mais dentre os sinais de nFG 49, o vetores 511 V[k] de primeiro plano e os coeficientes de HOA ambientes 47 de ordem reduzida podem ser armazenadas para um vetor denotado RMSREDUCED- A unidade de compensação de energia 38 pode, em seguida, computar um vetor de valor de amplificação Z, de acordo com a equação a seguir: Z = RMSFULL/RMSREDUCED. A unidade de compensação de energia 38 pode, em seguida, aplicar esse vetor de valor de amplificação Z ou várias porções do mesmo a um ou mais dos sinais de nFG 49, os vetores 511 V[k] de primeiro plano e os coeficientes de HOA ambientes 47 de ordem reduzida. Em algumas ocorrências, o vetor de valor de amplificação Z é aplicado apenas aos coeficientes de HOA ambientes 47 de ordem reduzida pela equação a seguir HOABG-RED = HOABG_REDZT, em que HOABG-RED denota os coeficientes de HOA ambientes 47 de ordem reduzida, HOABG-RED‘ denota a energia compensada, os coeficientes de HOA ambientes 47’ reduzidos e ZT denota a transposta do vetor Z.[0225] In some instances, the power compensation unit 38 may identify the RMS for each row and/or column of one or more of the reordered 33 U.S.[k]' matrix and the reordered 35 V[k]' matrix. The power compensation unit 38 can also identify the RMS for each row and/or column of one or more of the selected foreground channels, which may include the nFG signals 49 and the foreground vectors 511 V[k] and reduced-order ambient HOA coefficients 47. The RMS for each row and/or column of one or more of the reordered 33 US[k]' matrix and the reordered 35 V[k]' matrix can be stored to a vector denoted RMSFULL, while the RMS for each row and/or or column of one or more of the nFG signals 49, the foreground vector 511 V[k] and the reduced-order ambient HOA coefficients 47 may be stored to a vector denoted RMSREDUCED- The power compensation unit 38 may , then compute a vector of amplification value Z, according to the following equation: Z = RMSFULL/RMSREDUCED. The power compensation unit 38 may then apply that amplification value vector Z or various portions thereof to one or more of the nFG signals 49, the foreground 511 V[k] vectors, and the HOA coefficients. reduced-order environments. In some instances, the amplification value vector Z is applied only to reduced-order ambient 47 HOA coefficients by the following equation HOABG-RED = HOABG_REDZT, where HOABG-RED denotes reduced-order ambient 47 HOA coefficients, HOABG -RED' denotes the offset energy, the reduced ambient HOA coefficients 47', and ZT denotes the transpose of the Z vector.

[0226] [0214]. Em alguns exemplos, para determinar cada RMS de respectivas fileiras e/ou colunas de uma ou mais dentre a matriz 33 U.S.[k]’ reordenada, a matriz 35 V[k]’ reordenada, os sinais de nFG 49, os vetores 51k V[k] de primeiro plano e os coeficientes de HOA ambientes 47 de ordem reduzida, a unidade de compensação de energia 38 podem, primeiramente, aplicar um renderizador de coeficientes harmônicos esféricos de referência (SHC) às colunas. A aplicação do renderizador de SHC de referência através da unidade de compensação de energia 38 permite a determinação de RMS no domínio de SHC para determinar a energia do campo sonoro geral descrita através de cada fileira e/ou coluna do quadro representado através de fileiras e/ou colunas de uma ou mais dentre a matriz 33’ XJS[k] reordenada, a matriz 35 V[k]’ reordenada, os sinais de nFG 49, os vetores 511 V[k] de primeiro plano e os coeficientes de HOA ambientes 47 de ordem reduzida, conforme descrito em maiores detalhes abaixo.[0226] [0214]. In some examples, to determine each RMS of respective rows and/or columns of one or more of the reordered matrix 33 US[k]', the reordered matrix 35 V[k]', the signs of nFG 49, the vectors 51k V [k] and reduced-order ambient HOA coefficients 47, the power compensation unit 38 can first apply a reference spherical harmonic coefficients (SHC) renderer to the columns. The application of the reference SHC renderer through the energy compensation unit 38 allows the determination of RMS in the SHC domain to determine the overall sound field energy described through each row and/or column of the frame represented through rows and/or or columns of one or more of the reordered 33' XJS[k] matrix, the reordered 35 V[k]' matrix, the nFG signals 49, the foreground 511 V[k] vectors, and the ambient HOA coefficients 47 of reduced order, as described in more detail below.

[0227] A unidade de interpolação espaço- temporal 50 pode representar uma unidade configurada para receber os vetores 5 V[k] de primeiro plano para o k’-ésimo quadro e os vetores 51k V[k-1] de primeiro plano para o quadro anterior (por isso a notação k-1) e realizar uma interpolação espaço-temporal para gerar vetores V[k] de primeiro plano interpolados. A unidade de interpolação espaço-temporal 50 pode recombinar os sinais de nFG 49 com os vetores 51k V[k] de primeiro plano para recuperar os coeficientes de HOA de primeiro plano reordenados. A unidade de interpolação espaço-temporal 50 pode, em seguida, dividir os coeficientes de HOA de primeiro plano reordenados através dos vetores V[k] interpolados para gerar sinais de nFG 49’ interpolados. A unidade de interpolação espaço-temporal 50 também pode emitir aqueles dentre os vetores 511 V[k] de primeiro plano que foram usados para gerar os vetores V[k] de primeiro plano interpolados, de modo que um dispositivo de decodificação de áudio, tal como o dispositivo de decodificação de áudio 24, possa gerar os vetores V[k] de primeiro plano interpolados e, assim, recuperar os vetores 51k V[k] de primeiro plano. Aqueles dos vetores 51k V[k] de primeiro plano usados para gerar os vetores V[k] de primeiro plano interpolados são denotados como o restante dos vetores 53 V[k] de primeiro plano. A fim de assegurar que os mesmos V[k] e V[k-1] sejam usados no codificador e decodificador, (para criar os vetores V[k] interpolados) versões quantizadas/desquantizadas dos mesmos podem ser usadas no codificador e decodificador.[0227] The spatiotemporal interpolation unit 50 may represent a unit configured to receive the foreground 5 V[k] vectors for the k'-th frame and the foreground 51k V[k-1] vectors for the previous frame (hence the k-1 notation) and perform a spatiotemporal interpolation to generate interpolated foreground vectors V[k]. The spatiotemporal interpolation unit 50 can recombine the nFG signals 49 with the foreground 51k V[k] vectors to recover the reordered foreground HOA coefficients. The spatiotemporal interpolation unit 50 can then divide the reordered foreground HOA coefficients across the interpolated vectors V[k] to generate interpolated nFG signals 49'. The spatiotemporal interpolation unit 50 can also output those of the 511 foreground V[k] vectors that were used to generate the interpolated foreground V[k] vectors, so that an audio decoding device such as as the audio decoding device 24, can generate the interpolated foreground vectors V[k] and thus recover the 51k foreground vectors V[k]. Those of the foreground 51k V[k] vectors used to generate the interpolated foreground V[k] vectors are denoted as the remainder of the foreground 53 V[k] vectors. In order to ensure that the same V[k] and V[k-1] are used in the encoder and decoder, (to create the interpolated V[k] vectors) quantized/dequantized versions of them can be used in the encoder and decoder.

[0228] Nesse aspecto, a unidade de interpolação espaço-temporal 50 pode representar uma unidade que interpola uma primeira porção de um primeiro quadro de áudio a partir de algumas outras porções do primeiro quadro de áudio e um segundo quadro de áudio temporalmente subsequente ou anterior. Em alguns exemplos, as porções podem ser denotadas como subquadros, em que a interpolação conforme realizada em relação aos subquadros é descrita em maiores detalhes abaixo em relação às Figuras 45 a 46E. Em outros exemplos, a unidade de interpolação espaço-temporal 50 pode operar em relação a uma certa última quantidade de amostras do quadro anterior e uma certa primeira quantidade de amostras do quadro subsequente, conforme descrito em maiores detalhes em relação às Figuras 37 a 39. A unidade de interpolação espaço-temporal 50 pode, durante a realização de tal interpolação, reduzir a quantidade de amostras dos vetores 5 V[k] de primeiro plano que precisam ser especificadas no fluxo de bits 21, devido ao fato de que apenas aqueles dentre os vetores 51k V[k] de primeiro plano que são usados para gerar os vetores V[k] interpolados representam um subconjunto dos vetores 51k V[k] de primeiro plano. Ou seja, a fim de tornar a compressão dos coeficientes de HOA 11 potencialmente mais eficaz (reduzindo-se a quantidade dos vetores 51k V[k] de primeiro plano que são especificados no fluxo de bits 21), vários aspectos das técnicas descritas na presente revelação podem fornecer a interpolação de uma ou mais porções do primeiro quadro de áudio, em que cada uma das porções pode representar versões decompostas dos coeficientes de HOA 11.[0228] In that regard, the spatiotemporal interpolation unit 50 may represent a unit that interpolates a first portion of a first audio frame from some other portion of the first audio frame and a temporally subsequent or previous second audio frame . In some examples, the portions may be denoted as subframes, where interpolation as performed with respect to the subframes is described in greater detail below with reference to Figures 45 to 46E. In other examples, the spatiotemporal interpolation unit 50 may operate against a certain last number of samples from the previous frame and a certain first number of samples from the subsequent frame, as described in more detail with reference to Figures 37 to 39. The spatiotemporal interpolation unit 50 can, while performing such interpolation, reduce the amount of samples of the foreground 5 V[k] vectors that need to be specified in the bit stream 21, due to the fact that only those among the foreground 51k V[k] vectors that are used to generate the interpolated V[k] vectors represent a subset of the foreground 51k V[k] vectors. That is, in order to make the compression of HOA coefficients 11 potentially more efficient (by reducing the amount of foreground 51k V[k] vectors that are specified in bitstream 21), various aspects of the techniques described in the present disclosure may provide interpolation of one or more portions of the first audio frame, each portion may represent decomposed versions of the HOA 11 coefficients.

[0229] A interpolação espaço-temporal pode resultar em diversos benefícios. Primeiro, os sinais de nFG 49 podem não ser contínuos de quadro para quadro devido à natureza de bloco em que a SVD ou outra LIT é realizada. Em outras palavras, visto que a unidade de LIT 30 aplica a SVD a uma base de quadro por quadro, determinadas descontinuidades podem existir nos coeficientes de HOA transformados resultantes como evidência, por exemplo, pela natureza não ordenada da matriz 33 U.S.[k] e da matriz 35 V[k]. Realizando-se essa interpolação, a descontinuidade pode ser reduzida, visto que a interpolação pode ter um efeito de suavização que reduz, potencialmente, quaisquer artefatos introduzidos devido aos limites de quadro (ou, em outras palavras, segmentação dos coeficientes de HOA 11 de modo a formar quadros). Usar os vetores 51k V[k] de primeiro plano para realizar essa interpolação e, em seguida, gerar os sinais de nFG 49’ interpolados com base nos vetores V[k] 51k de primeiro plano interpolados a partir dos coeficientes de HOA reordenados recuperados pode suavizar pelo menos alguns dos efeitos devido à operação de quadro por quadro, assim como devido à reordenação dos sinais de nFG 49.[0229] Spatio-temporal interpolation can result in several benefits. First, the nFG 49 signals may not be continuous from frame to frame due to the block nature in which the SVD or other LIT is performed. In other words, since the LIT unit 30 applies the SVD on a frame-by-frame basis, certain discontinuities may exist in the resulting transformed HOA coefficients as evidence, for example, by the unordered nature of the matrix 33 US[k] and of the matrix 35 V[k]. By performing this interpolation, discontinuity can be reduced, as the interpolation can have a smoothing effect that potentially reduces any artifacts introduced due to frame boundaries (or, in other words, segmentation of the HOA 11 coefficients so to form frames). Using the foreground 51k V[k] vectors to perform this interpolation and then generating the interpolated nFG 49' signals based on the foreground V[k] 51k vectors interpolated from the retrieved reordered HOA coefficients can smooth at least some of the effects due to frame-by-frame operation, as well as due to the reordering of nFG 49 signals.

[0230] Durante a operação, a unidade de interpolação espaço-temporal 50 pode interpolar um ou mais subquadros de um primeiro quadro de áudio a partir de uma primeira decomposição, por exemplo, os vetores 5 V[k] de primeiro plano, de uma porção de uma primeira pluralidade dos coeficientes de HOA 11 incluídos no primeiro quadro e uma segunda decomposição, por exemplo, vetores 51k-1 V[k] de primeiro plano, de uma porção de uma segunda pluralidade dos coeficientes de HOA 11 incluídos em um segundo quadro para gerar os coeficientes harmônicos esféricos interpolados decompostos para o um ou mais subquadros.[0230] During operation, the spatiotemporal interpolation unit 50 may interpolate one or more subframes of a first audio frame from a first decomposition, e.g. the foreground 5 V[k] vectors, from a portion of a first plurality of HOA coefficients 11 included in the first frame and a second decomposition, e.g., foreground vectors 51k-1 V[k], of a portion of a second plurality of HOA coefficients 11 included in a second frame to generate the decomposed interpolated spherical harmonic coefficients for the one or more subframes.

[0231] Em alguns exemplos, a primeira decomposição compreende os primeiros vetores 51k V[k] de primeiro plano representativos de vetores singulares à direita da porção dos coeficientes de HOA 11. De modo semelhante, a segunda decomposição compreende os segundos vetores 51k V[k] de primeiro plano representativos de vetores singulares à direita da porção dos coeficientes de HOA 11.[0231] In some examples, the first decomposition comprises the first 51k V[k] foreground vectors representative of singular vectors to the right of the HOA coefficients portion 11. Similarly, the second decomposition comprises the second 51k V[ vectors k] of foreground representative of singular vectors to the right of the portion of the coefficients of  HOA 11.

[0232] Em outras palavras, o áudio em 3D com base harmônica esférica pode ser uma representação paramétrica do campo de pressão em 3D em termos de funções de base ortogonal em uma esfera. Quanto maior for a ordem N da representação, potencialmente maior será a resolução espacial e, frequentemente, maior será a quantidade de coeficientes harmônicos esféricos (SH) (para um total de (N+1)2 coeficientes). Para muitas aplicações, uma compressão de largura de banda dos coeficientes pode ser necessária para que se possa transmitir e armazenar os coeficientes de modo eficaz. Essas técnicas direcionadas na presente revelação podem fornecer um processo de redução de dimensionalidade com base com quadro com o uso de Decomposição de Valor Singular (SVD). A análise de SVD pode decompor cada quadro de coeficientes em três matrizes U, S e V. Em alguns exemplos, as técnicas podem manipular alguns dos vetores na matriz U.S.[k], como os componentes de primeiro plano do campo sonoro subjacente. Entretanto, quando manipulados de tal maneira, esses vetores (na matriz S[k] U) são descontínuos de quadro para quadro - embora os mesmos representem o mesmo componente de áudio distinto. Tais descontinuidades podem levar a artefatos significativos quando os componentes são alimentados através de codificadores de áudio de transformada.[0232] In other words, spherical harmonic based 3D audio can be a parametric representation of the 3D pressure field in terms of orthogonal basis functions on a sphere. The higher the N order of the representation, the potentially higher the spatial resolution and often the greater the amount of spherical harmonic (SH) coefficients (for a total of (N+1)2 coefficients). For many applications, bandwidth compression of the coefficients may be required in order to efficiently transmit and store the coefficients. These techniques addressed in the present disclosure can provide a frame-based dimensionality reduction process using Singular Value Decomposition (SVD). SVD analysis can decompose each frame of coefficients into three matrices U, S, and V. In some examples, the techniques can manipulate some of the vectors in the U.S.[k] matrix, as the foreground components of the underlying sound field. However, when manipulated in such a way, these vectors (in the matrix S[k] U) are discontinuous from frame to frame - even though they represent the same distinct audio component. Such discontinuities can lead to significant artifacts when components are fed through transform audio encoders.

[0233] As técnicas descritas na presente revelação podem solucionar essa descontinuidade. Ou seja, as técnicas podem ter por base a observação de que a matriz V pode ser interpretada como eixos espaciais ortogonais no domínio Harmônico Espacial. A matriz U[k] pode representar uma projeção dos dados Harmônicos Esféricos (HOA) nos termos de tais funções de base, em que a descontinuidade pode ser atribuída a eixos geométricos espaciais ortogonais (V[k]) que são alterados em todos os quadros - e são, portanto, descontínuos em si. Isso é diferente de uma decomposição similar, tal como a Transformada de Fourier, em que as funções de base são, em alguns exemplos, constantes de quadro para quadro. Nesses termos, a SVD pode ser considerada como um algoritmo de busca de compatibilidade. As técnicas descritas na presente revelação possibilitam que a unidade de interpolação espaço-temporal 50 mantenha a continuidade entre as funções de base (V[k]) de quadro para quadro - através da interpolação entre os mesmos.[0233] The techniques described in the present disclosure can address this discontinuity. That is, the techniques can be based on the observation that the matrix V can be interpreted as orthogonal spatial axes in the Harmonic Spatial domain. The matrix U[k] can represent a projection of the Spherical Harmonics (HOA) data in terms of such basis functions, where the discontinuity can be attributed to orthogonal spatial geometric axes (V[k]) that are changed in every frame - and are therefore discontinuous in themselves. This is different from a similar decomposition, such as the Fourier Transform, where the basis functions are, in some instances, constants from frame to frame. In these terms, SVD can be considered as a compatibility search algorithm. The techniques described in the present disclosure enable the spatiotemporal interpolation unit 50 to maintain continuity between the base functions (V[k]) from frame to frame - by interpolation therebetween.

[0234] Conforme observado acima, a interpolação pode ser realizada em relação às amostras. Esse caso é generalizado na descrição acima quando os subquadros compreendem um único conjunto de amostras. Tanto no caso de interpolação sobre as amostras quanto sobre os subquadros, a operação de interpolação pode assumir a forma da equação a seguir:

Figure img0026
[0234] As noted above, interpolation can be performed against samples. This case is generalized in the description above when the subframes comprise a single set of samples. Both in the case of interpolation over the samples and over the subframes, the interpolation operation can take the form of the following equation:
Figure img0026

[0235] Nessa equação acima, a interpolação pode ser realizada em relação ao único V-vetor v (k) a partir do único V-vetor v(k— 1) que, em uma modalidade, poderia representar V-vetores dos quadros adjacentes k e k- 1. Na equação acima, /, representa a resolução através da qual a interpolação é executada, em que / pode indicar uma amostra de número inteiro e / = 1, T (em que T é o comprimento de amostras através das quais a interpolação é executada e através das quais os vetores interpolados emitidos,

Figure img0027
são necessários e também indica que a saída de tal processo produz / de tais vetores). Alternativamente, / pode indicar subquadros que consistem em múltiplas amostras. Quando, por exemplo, um quadro é dividido em quatro subquadros, / pode compreender valores de 1, 2, 3 e 4, para cada um dos subquadros. O valor de / pode ser sinalizado como um campo denominado “CodedSpatiallnterpolationTime” através de um fluxo de bits - de modo que a operação de interpolação possa ser replicada no decodificador. A w(Z) pode compreender valores das ponderações de interpolação. Quando a interpolação é linear, w(7) pode variar linearmente e monotonicamente entre 0 e 1, como uma função de /. Em outros casos, w(Z) pode variar entre 0 e 1 de uma maneira não linear, porém, monotônica (tal como um quarto de ciclo de um cosseno elevado) como uma função de /. A função, w(Z), pode ser indexada entre algumas diferentes possibilidades de funções e sinalizada no fluxo de bits como um campo denominado “SpatiallnterpolationMethod” de modo que a operação de interpolação idêntica possa ser replicada pelo decodificador. Quando w(Z) é um valor próximo de 0, a saída,
Figure img0028
) pode ser altamente ponderada ou influenciada por v(k— 1). Enquanto quando w(Z) é um valor próximo de 1, isso assegura que a saída,
Figure img0029
, seja altamente ponderada ou influenciada por v(k— 1).[0235] In this equation above, the interpolation can be performed with respect to the single V-vector v(k) from the single V-vector v(k— 1) which, in one embodiment, could represent V-vectors of adjacent frames ke k- 1. In the above equation, /, represents the resolution through which the interpolation is performed, where / can indicate an integer sample, and / = 1, T (where T is the length of samples through which the interpolation is performed and through which the emitted interpolated vectors,
Figure img0027
are needed and also indicates that the output of such a process produces / of such vectors). Alternatively, / can indicate subframes consisting of multiple samples. When, for example, a frame is divided into four subframes, / may comprise values of 1, 2, 3 and 4 for each of the subframes. The value of / can be signaled as a field named “CodedSpatiallnterpolationTime” via a bitstream - so that the interpolation operation can be replicated at the decoder. The w(Z) can comprise values of the interpolation weights. When the interpolation is linear, w(7) can vary linearly and monotonically between 0 and 1, as a function of /. In other cases, w(Z) can vary between 0 and 1 in a nonlinear but monotonic manner (such as a quarter cycle of a high cosine) as a function of /. The function, w(Z), can be indexed among a few different possible functions and flagged in the bitstream as a field called “SpatiallnterpolationMethod” so that the identical interpolation operation can be replicated by the decoder. When w(Z) is close to 0, the output,
Figure img0028
) can be highly weighted or influenced by v(k— 1). While when w(Z) is a value close to 1, this ensures that the output,
Figure img0029
, either highly weighted or influenced by v(k— 1).

[0236] A unidade de redução de coeficiente 46 pode representar uma unidade configurada para realizar redução de coeficiente em relação aos vetores 53 V[k] de primeiro plano restantes com base nas informações de canal de segundo plano 43 para emitir vetores 55 V[k] de primeiro plano reduzidos para a unidade de quantização 52. Os vetores 55 V[k] de primeiro plano reduzidos podem ter dimensões D:

Figure img0030
[0236] Coefficient reduction unit 46 may represent a unit configured to perform coefficient reduction against the remaining foreground 53 V[k] vectors based on background channel information 43 to output 55 V[k] vectors ] reduced foreground to the quantization unit 52. The reduced foreground 55 V[k] vectors can have dimensions D:
Figure img0030

[0237] A unidade de redução de coeficiente 46 pode, nesse aspecto, representar uma unidade configurada para reduzir a quantidade de coeficientes dos vetores 53 V[k] de primeiro plano restantes. Em outras palavras, a unidade de redução de coeficiente 46 pode representar uma unidade configurada para eliminar os coeficientes dos vetores V[k] de primeiro plano(que formam os vetores 53 V[k] de primeiro plano restantes) que têm pouca ou nenhuma informação direcional. Conforme descrito acima, em alguns exemplos, os coeficientes dos vetores V[k] distintos ou, em outras palavras, vetores V[k] de primeiro plano correspondentes a funções de base de primeira ordem e ordem zero (que podem ser denotadas como NBG) fornecem poucas informações direcionais e, portanto, podem ser removidos dos vetores V de primeiro plano (através de um processo que pode ser chamado de “redução de coeficiente”). Nesse exemplo, uma maior flexibilidade pode ser fornecida, não apenas para identificar tais coeficientes que correspondem a NBG, mas para identificar canais de HOA adicionais (que podem ser chamados de TotalOfAddAmbHOAChan variável) a partir do conjunto de

Figure img0031
. A unidade de análise de campo sonoro 44 pode analisar os coeficientes de HOA 11 para determinar BGTOT, o que pode identificar, não apenas a (NBG+1)2, mas o TotalOfAddAmbHOAChan, que pode ser chamado, coletivamente, de as informações de canal de segundo plano 43. A unidade de redução de coeficiente 46 pode, em seguida, remover os coeficientes correspondentes a (NBG+1)2 e o TotalOfAddAmbHOAChan dos vetores 53 V[k] de primeiro plano restantes para gerar uma matriz 55 dimensional V[k] menor de tamanho
Figure img0032
, que também pode ser denominada como os vetores 55 V[k] de primeiro plano.[0237] The coefficient reduction unit 46 may, in this regard, represent a unit configured to reduce the amount of coefficients from the remaining 53 V[k] foreground vectors. In other words, the coefficient reduction unit 46 can represent a unit configured to eliminate the coefficients of the foreground V[k] vectors (which form the remaining foreground 53 V[k] vectors) that have little or no information. directional. As described above, in some examples, the coefficients of distinct vectors V[k] or, in other words, foreground vectors V[k] corresponding to first-order and zero-order basis functions (which can be denoted as NBG) provide little directional information and therefore can be removed from the foreground V vectors (through a process that might be called “coefficient reduction”). In this example, greater flexibility can be provided, not only to identify such coefficients that correspond to NBG, but to identify additional HOA channels (which can be called the variable TotalOfAddAmbHOAChan) from the set of
Figure img0031
. The sound field analysis unit 44 can analyze the HOA coefficients 11 to determine BGTOT, which can identify not only the (NBG+1)2, but the TotalOfAddAmbHOAChan, which may collectively be called the channel information. 43. The coefficient reduction unit 46 can then remove the coefficients corresponding to (NBG+1)2 and the TotalOfAddAmbHOAChan from the remaining 53 V[k] foreground vectors to generate a 55 dimensional matrix V[ k] smaller in size
Figure img0032
, which can also be referred to as the foreground 55 V[k] vectors.

[0238] A unidade de quantização 52 pode representar uma unidade configurada para realizar qualquer forma de quantização para comprimir os vetores 55 V[k] de primeiro plano reduzidos para gerar vetores 57 V[k] de primeiro plano codificados, de modo a emitir tais vetores 57 V[k] de primeiro plano codificados para a unidade de geração de fluxo de bits 42. Durante a operação, a unidade de quantização 52 pode representar uma unidade configurada para comprimir um componente espacial do campo sonoro, isso é, um ou mais dos vetores 55 V[k] de primeiro plano reduzidos no presente exemplo. Com propósitos de exemplo, presume-se que os vetores 55 V[k] de primeiro plano reduzidos incluem duas fileiras de vetores que têm, como um resultado da redução de coeficiente, menos do que 25 elementos, cada, (o que implica uma representação de HOA de quarta ordem do campo sonoro). Embora esteja descrito em relação a vetores de duas fileiras, qualquer quantidade de vetores pode ser incluída nos vetores 55 V[k] de primeiro plano reduzidos até (N+1)2, em que n denota a ordem da representação de HOA do campo sonoro. Ademais, embora esteja descrito abaixo de modo a realizar uma quantização de escala e/ou de entropia, a unidade de quantização 52 pode realizar qualquer forma de quantização que resulte na compressão dos vetores 55 V[k] de primeiro plano reduzidos.[0238] The quantization unit 52 may represent a unit configured to perform any form of quantization to compress the reduced foreground 55 V[k] vectors to generate coded foreground 57 V[k] vectors so as to output such encoded foreground vectors 57 V[k] to the bitstream generating unit 42. During operation, the quantizing unit 52 may represent a unit configured to compress a spatial component of the sound field, i.e., one or more of the reduced foreground 55 V[k] vectors in the present example. For example purposes, the reduced foreground 55 V[k] vectors are assumed to include two rows of vectors that have, as a result of the coefficient reduction, less than 25 elements each (which implies a representation fourth-order HOA of the sound field). Although described in relation to two-row vectors, any number of vectors can be included in the foreground 55 V[k] vectors reduced to (N+1)2, where n denotes the order of the HOA representation of the sound field . Furthermore, although it is described below to perform a scale and/or entropy quantization, the quantization unit 52 can perform any form of quantization that results in compression of the reduced foreground vectors 55 V[k].

[0239] A unidade de quantização 52 pode receber os vetores 55 V[k] de primeiro plano reduzidos e realizar um esquema de compressão para gerar vetores 57 V[k] de primeiro plano codificados. Esse esquema de compressão pode envolver qualquer esquema de compressão concebível para comprimir elementos de um vetor ou dados genericamente e não deve ser limitado ao exemplo descrito abaixo em maiores detalhes. A unidade de quantização 52 pode realizar, como um exemplo, um esquema de compressão que inclui um ou mais dentre: transformar representações de ponto flutuante de cada elemento dos vetores 55 V[k] de primeiro plano reduzidos em representações de número inteiro de cada elemento dos vetores 55 V[k] de primeiro plano reduzidos, quantização uniforme das representações de número inteiro dos vetores 55 V[k] de primeiro plano reduzidos e categorização e codificação das representações de número inteiro quantizadas dos vetores 55 V[k] de primeiro plano restantes.[0239] The quantization unit 52 can receive the reduced foreground 55 V[k] vectors and perform a compression scheme to generate coded foreground 57 V[k] vectors. This compression scheme can involve any conceivable compression scheme for compressing elements of an array or data generically and should not be limited to the example described below in greater detail. The quantization unit 52 may perform, as an example, a compression scheme that includes one or more of: transforming floating point representations of each element of the reduced foreground vectors 55 V[k] into integer representations of each element of reduced foreground 55 V[k] vectors, uniformly quantize the integer representations of the reduced foreground 55 V[k] vectors, and categorizing and encoding the quantized integer representations of the foreground 55 V[k] vectors remaining.

[0240] Em alguns exemplos, vários dentre o um ou mais processos do presente esquema de compressão podem ser dinamicamente controlados através de parâmetros para alcançar ou aproximadamente alcançar, como um exemplo, uma taxa-alvo de bits para o fluxo de bits 21 resultante. Visto que cada um dos vetores 55 V[k] de primeiro plano reduzidos é ortonormal em relação aos outros, cada um dentre os vetores 55 V[k] de primeiro plano reduzidos pode ser codificado independentemente. Em alguns exemplos, conforme descrito em maiores detalhes abaixo, cada elemento de cada um dos vetores 55 V[k] de primeiro plano reduzidos pode ser codificado com o uso do mesmo modo de codificação (definido através de vários submodos).[0240] In some examples, several of the one or more processes of the present compression scheme may be dynamically controlled via parameters to achieve or approximately achieve, as an example, a target bit rate for the resulting bit stream 21. Since each of the reduced foreground 55 V[k] vectors is orthonormal to the others, each of the reduced foreground 55 V[k] vectors can be coded independently. In some examples, as described in more detail below, each element of each of the reduced foreground 55 V[k] vectors can be encoded using the same encoding mode (defined via various sub-modes).

[0241] De qualquer forma, conforme observado acima, esse esquema de codificação pode, primeiramente, envolver a transformação das representações de ponto flutuante de cada elemento (que é, em alguns exemplos, um número de ponto flutuante de 32 bits) de cada um dos vetores 55 V[k] de primeiro plano reduzidos para uma representação de número inteiro de 16 bits. A unidade de quantização 52 pode realizar essa transformação de ponto flutuante para número inteiro multiplicando-se cada elemento de um específico dentre os vetores 55 V[k] de primeiro plano reduzidos por 215, que é, em alguns exemplos, realizado através de um deslocamento à direita por 15.[0241] Anyway, as noted above, this coding scheme may first involve transforming the floating point representations of each element (which is, in some examples, a 32-bit floating point number) of each of the foreground 55 V[k] vectors reduced to a 16-bit integer representation. The quantization unit 52 can perform this floating-point-to-integer transformation by multiplying each element of a specific one of the reduced foreground 55 V[k] vectors by 215, which is, in some examples, performed by shifting right by 15.

[0242] A unidade de quantização 52 pode, em seguida, realizar a quantização uniforme em relação a todos os elementos do específico dentre os vetores 55 V[k] de primeiro plano reduzidos. A unidade de quantização 52 pode identificar um tamanho de etapa de quantização com base em um valor, que pode ser denotado com um parâmetro de nbits. A unidade de quantização 52 pode determinar dinamicamente esse parâmetro de nbits com base na taxa-alvo de bits 41. A unidade de quantização 52 pode determinar o tamanho de etapa de quantização como uma função de tal parâmetro de nbits. Como um exemplo, a unidade de quantização 52 pode determinar o tamanho de etapa de quantização (denotado como “delta” ou “ ” na presente revelação) como igual a 2l6-nbits. Nesse exemplo, se nbits for igual a seis, delta é igual a 210 e há 26 níveis de quantização. Nesse aspecto, para um elemento de vetor v, o elemento de vetor quantizado q é igual a

Figure img0033
[0242] The quantization unit 52 can then perform uniform quantization with respect to all elements of the specific among the reduced foreground 55 V[k] vectors. The quantization unit 52 can identify a quantization step size based on a value, which can be denoted with a parameter of nbits. The quantization unit 52 can dynamically determine that nbit parameter based on the target bit rate 41. The quantization unit 52 can determine the quantization step size as a function of such nbit parameter. As an example, the quantization unit 52 can determine the quantization step size (denoted as "delta" or "" in the present disclosure) to be equal to 216-nbits. In this example, if nbits equals six, delta equals 210 and there are 26 levels of quantization. In this respect, for a vector element v, the quantized vector element q is equal to
Figure img0033

[0243] A unidade de quantização 52 pode, em seguida, realizar a categorização e codificação residual dos elementos de vetor quantizados. Como um exemplo, a unidade de quantização 52 pode, para um determinado elemento de vetor quantizado q, identificar uma categoria (determinando-se um cid identificador de categoria) à qual esse elemento corresponde com o uso da equação a seguir:

Figure img0034
[0243] The quantization unit 52 can then perform the categorization and residual encoding of the quantized vector elements. As an example, the quantization unit 52 can, for a given quantized vector element q, identify a category (by determining a cid category identifier) to which that element corresponds using the following equation:
Figure img0034

[0244] A unidade de quantização 52 pode, então, usar o código de Huffman nesse cid de índice de categoria, enquanto também identifica um bit de sinal que indica se q é um valor positivo ou um valor negativo. A unidade de quantização 52 pode, em seguida, identificar um resíduo nessa categoria. Como um exemplo, a unidade de quantização 52 pode determinar esse resíduo de acordo com a equação a seguir:

Figure img0035
[0244] The quantization unit 52 can then use the Huffman code in this category index cid, while also identifying a sign bit that indicates whether q is a positive value or a negative value. The quantization unit 52 can then identify a residue in that category. As an example, the quantization unit 52 can determine this residue according to the following equation:
Figure img0035

0245] A unidade de quantização 52 pode, então, codificar em bloco esse resíduo com cid-l bits.0245] The quantization unit 52 can then block encode this residue with cid-1 bits.

[0246] O exemplo a seguir ilustra um exemplo simplificado desse processo de categorização e codificação residual. Primeiramente, presume-se que nbits seja igual a seis, de modo que q [-31,31]. Em seguida, presume-se o seguinte:

Figure img0036
[0246] The following example illustrates a simplified example of this categorization and residual encoding process. First, nbits is assumed to be six, so q [-31,31]. Then the following is assumed:
Figure img0036

[0247] Além disso, presume-se o seguinte:

Figure img0037
Figure img0038
[0247] In addition, the following is assumed:
Figure img0037
Figure img0038

[0248] Assim, para um q = [6, -17, 0, 0, 3], o seguinte pode ser determinado:[0248] Thus, for a q = [6, -17, 0, 0, 3], the following can be determined:

[0249] » cid = 3,5,0,0,2[0249] » cid = 3,5,0,0,2

[0250] » sinal = 1,0,x,x,l[0250] » sign = 1,0,x,x,l

[0251] » resíduo = 2,1,x,x, 1[0251] » residual = 2,1,x,x, 1

[0252] » Bits para 6 = ‘0010’ + 1 ‘ + ‘ 10’[0252] » Bits for 6 = '0010' + 1 ' + ' 10'

[0253] » Bits para -17 = ‘00111 ‘ + ‘ ’ + ‘0001‘[0253] » Bits for -17 = '00111 ' + ' ' + '0001'

[0254] » Bits para 0 = ‘0’[0254] » Bits for 0 = '0'

[0255] » Bits para 0 = ‘0’[0255] » Bits for 0 = '0'

[0256] » Bits para 3 = ‘000’ + ‘ l ‘ + ‘ l ‘[0256] » Bits for 3 = '000' + 'l' + 'l'

[0257] » Bits totais = 7 + 10+ 1 + 1 +5 = 24[0257] » Total bits = 7 + 10+ 1 + 1 +5 = 24

[0258] » Bits médios = 24/5 = 4,8 Embora não mostrado no exemplo simplificado supracitado, a unidade de quantização 52 pode selecionar diferentes livros de códigos de Huffman para diferentes valores de nbits durante a codificação do cid. Em alguns exemplos, a unidade de quantização 52 pode fornecer uma tabela de codificação de Huffman diferente para valores de nbits 6,..., 15. Além disso, a unidade de quantização 52 pode incluir cinco livros de códigos de Huffman diferentes para cada um dos diferentes valores de nbits na faixa de 6,...15 para um total de 50 livros de códigos de Huffman. Nesse aspecto, a unidade de quantização 52 pode incluir uma pluralidade de diferentes livros de códigos de Huffman para acomodar a codificação do cid em diversos contextos estatísticos diferentes.[0258] » Average bits = 24/5 = 4.8 Although not shown in the above simplified example, the quantization unit 52 can select different Huffman codebooks for different nbit values during cid encoding. In some examples, the quantization unit 52 may provide a different Huffman codebook for nbit values 6,..., 15. In addition, the quantization unit 52 may include five different Huffman codebooks for each of the different values of nbits in the range of 6,...15 for a total of 50 Huffman codebooks. In this regard, the quantization unit 52 may include a plurality of different Huffman codebooks to accommodate cid encoding in a number of different statistical contexts.

[0259] Para ilustrar, a unidade de quantização 52 pode, para cada um dos valores de nbits, incluir um primeiro livro de códigos de Huffman para codificar os elementos de vetor de um a quatro, um segundo livro de códigos de Huffman para codificar os elementos de vetor de cinco a nove, um terceiro livro de códigos de Huffman para codificar os elementos de vetor de nove em diante. Esses primeiros três livros de códigos de Huffman podem ser usados quando um dentre os vetores 55 V[k] de primeiro plano reduzidos a serem comprimidos não for previsto a partir de um dos vetores 55 V[k] de primeiro plano reduzidos correspondentes temporalmente subsequentes e não for representativo de informações espaciais de um objeto de áudio sintético (um definido, por exemplo, originalmente por um objeto de áudio modulado por código de pulso (PCM)). A unidade de quantização 52 pode incluir adicionalmente, para cada um dos valores de nbits, um quarto livro de códigos de Huffman para codificar um dentre os vetores 55 V[k] de primeiro plano reduzidos quando o mesmo dentre os vetores 55 V[k] de primeiro plano reduzidos for previsto a partir de um dos vetores 55 V[k] de primeiro plano reduzidos correspondente temporalmente subsequente. A unidade de quantização 52 também pode incluir, para cada um dos valores de nbits, um quinto livro de códigos de Huffman para codificar o um dentre os vetores 55 V[k] de primeiro plano reduzidos quando o mesmo dentre os vetores 55 V[k] de primeiro plano reduzidos for representativo de um objeto de áudio sintético. Os vários livros de códigos de Huffman podem ser desenvolvidos para cada um desses diferentes contextos estatísticos, isso é, o contexto não previsto e não sintético, o contexto previsto e o contexto sintético nesse exemplo.[0259] To illustrate, the quantization unit 52 may, for each of the nbit values, include a first Huffman codebook for encoding vector elements one through four, a second Huffman codebook for encoding the vector elements five through nine, a third Huffman codebook to encode vector elements nine onwards. These first three Huffman codebooks can be used when one of the 55 V[k] reduced foreground vectors to be compressed is not predicted from one of the corresponding temporally subsequent 55 V[k] reduced foreground vectors and is not representative of spatial information from a synthetic audio object (one defined, for example, originally by a pulse code modulated (PCM) audio object). The quantization unit 52 may additionally include, for each of the nbit values, a fourth Huffman codebook to encode one of the reduced foreground 55 V[k] vectors when the same among the 55 V[k] vectors reduced foreground vectors is predicted from one of the corresponding temporally subsequent reduced foreground vectors 55 V[k]. The quantization unit 52 may also include, for each of the nbit values, a fifth Huffman codebook to encode the one of the 55 V[k] reduced foreground vectors when the same among the 55 V[k] vectors ] reduced foreground is representative of a synthetic audio object. Huffman's various codebooks can be developed for each of these different statistical contexts, that is, the non-predicted and non-synthetic context, the predicted context, and the synthetic context in this example.

[0260] A tabela a seguir ilustra a seleção de tabela de Huffman e os bits a serem especificados no fluxo de bits para permitir que a unidade de descompressão selecione a tabela de Huffman apropriada:

Figure img0039
[0260] The following table illustrates the Huffman table selection and the bits to be specified in the bitstream to allow the decompression unit to select the appropriate Huffman table:
Figure img0039

[0261] Na tabela supracitada, o modo de previsão (“Modo de prev”) indica se a previsão foi realizada para o vetor atual, enquanto a Tabela de Huffman (“info de HT”) indica as informações de livro de códigos (ou tabela) de Huffman adicionais usadas para selecionar uma dentre as tabelas de Huffman de um a cinco.[0261] In the above table, the prediction mode (“Prev Mode”) indicates whether the prediction was performed for the current vector, while the Huffman Table (“HT info”) indicates the codebook information (or Additional Huffman tables) used to select one of Huffman tables one through five.

[0262] A tabela a seguir ilustra adicionalmente esse processo de seleção de tabela de Huffman considerando-se vários contextos ou cenários estatísticos.

Figure img0040
[0262] The following table further illustrates this Huffman table selection process considering various statistical contexts or scenarios.
Figure img0040

[0263] Na tabela supracitada, a coluna “Registro” indica o contexto de codificação quando o vetor é representativo de um objeto de áudio que foi registrado enquanto a coluna “Sintético” indica um contexto de codificação para quando o vetor é representativo de um objeto de áudio sintético. A fileira “Sem Previsão” indica o contexto de codificação quando a previsão não é realizada em relação aos elementos de vetor, enquanto a fileira “Com previsão” indica o contexto de codificação quando a previsão é realizada em relação aos elementos de vetor. Conforme mostrado nessa tabela, a unidade de quantização 52 seleciona HT{1, 2, 3} quando o vetor é representativo de um objeto de áudio registrado e a previsão não é realizada em relação aos elementos de vetor. A unidade de quantização 52 seleciona HT5 quando o objeto de áudio é representativo de um objeto de áudio sintético e a previsão não é realizada em relação aos elementos de vetor. A unidade de quantização 52 seleciona HT4 quando o vetor é representante de um objeto de áudio registrado e a previsão é realizada em relação aos elementos de vetor. A unidade de quantização 52 seleciona HT5 quando o objeto de áudio é representativo de um objeto de áudio sintético e a previsão é realizada em relação aos elementos de vetor.[0263] In the above table, the column “Record” indicates the encoding context when the vector is representative of an audio object that has been recorded while the column “Synthetic” indicates an encoding context for when the vector is representative of an object of synthetic audio. The row “Without Prediction” indicates encoding context when prediction is not performed against vector elements, while row “With prediction” indicates encoding context when prediction is performed against vector elements. As shown in this table, the quantization unit 52 selects HT{1, 2, 3} when the vector is representative of a recorded audio object and prediction is not performed with respect to vector elements. The quantization unit 52 selects HT5 when the audio object is representative of a synthetic audio object and prediction is not performed with respect to vector elements. The quantization unit 52 selects HT4 when the vector is representative of a recorded audio object and prediction is performed with respect to vector elements. The quantization unit 52 selects HT5 when the audio object is representative of a synthetic audio object and prediction is performed with respect to vector elements.

[0264] Nesse aspecto, a unidade de quantização 52 pode realizar a quantização de escala e/ou codificação de Huffman observadas acima para comprimir os vetores 55 V[k] de primeiro plano reduzidos, de modo a emitir os vetores 57 V[k] de primeiro plano codificados, que podem ser chamados de informações de canal auxiliar 57. Essas informações de canal auxiliar 57 podem incluir elementos de sintaxe usados para codificar os vetores 55 V[k] de primeiro plano restantes. A unidade de quantização 52 pode emitir as informações de canal auxiliar 57 de uma maneira similar à mostrada no exemplo de uma das Figuras 10B e 10c.[0264] In this regard, the quantization unit 52 can perform the scale quantization and/or Huffman coding noted above to compress the reduced foreground 55 V[k] vectors so as to output the 57 V[k] vectors encoded foreground information, which may be called auxiliary channel information 57. This auxiliary channel information 57 may include syntax elements used to encode the remaining foreground vectors 55 V[k]. The quantizing unit 52 can output the auxiliary channel information 57 in a similar manner as shown in the example of one of Figures 10B and 10c.

[0265] Conforme observado acima, a unidade de quantização 52 pode gerar elementos de sintaxe para as informações de canal auxiliar 57. Por exemplo, a unidade de quantização 52 pode especificar um elemento de sintaxe em um cabeçalho de uma unidade de acesso (que pode incluir um ou mais quadros) que denota qual dentre a pluralidade de modos de configuração foi selecionado. Embora seja descrito como especificado a uma base por unidade de acesso, a unidade de quantização 52 pode especificar esse elemento de sintaxe a uma base por quadro ou qualquer outra base periódica ou base não periódica (tal como uma vez para todo o fluxo de bits). De qualquer forma, esse elemento de sintaxe pode compreender dois bits que indicam qual dos modos de configuração de quadro foram selecionados para especificar o conjunto de coeficientes diferente de zero dos vetores 55 V[k] de primeiro plano reduzidos para representar os aspectos direcionais desse componente distinto. O elemento de sintaxe pode ser denotado como “codedVVecLength”. Dessa maneira, a unidade de quantização 52 pode sinalizar ou, de outro modo, especificar no fluxo de bits quais dos modos de configuração de quadro foram usados para especificar os vetores 57 V[k] de primeiro plano codificados no fluxo de bits. Embora seja descrito em relação aos modos de configuração de quadro, as técnicas não devem ser limitadas a modos de configuração de quadro, mas a qualquer outra quantidade de modos de configuração, inclusive um único modo de configuração ou uma pluralidade de modos de configuração. A unidade de quantização de escala/de entropia 53 também pode especificar a sinalização 63 como outro elemento de sintaxe nas informações de canal auxiliar 57.[0265] As noted above, quantization unit 52 may generate syntax elements for auxiliary channel information 57. For example, quantization unit 52 may specify a syntax element in a header of an access unit (which may include one or more frames) that denotes which of the plurality of configuration modes has been selected. Although described as specified on a per-unit basis, the quantization unit 52 may specify that syntax element on a per-frame basis or any other periodic basis or non-periodic basis (such as once for the entire bit stream) . In any case, this syntax element may comprise two bits that indicate which of the frame configuration modes have been selected to specify the set of non-zero coefficients of the reduced foreground 55 V[k] vectors to represent the directional aspects of this component. distinct. The syntax element can be denoted as “codedVVecLength”. In this way, the quantization unit 52 can signal or otherwise specify in the bitstream which of the frame configuration modes were used to specify the foreground vectors 57 V[k] encoded in the bitstream. Although it is described in relation to frame configuration modes, the techniques should not be limited to frame configuration modes, but any other number of configuration modes, including a single configuration mode or a plurality of configuration modes. The scale/entropy quantization unit 53 may also specify the flag 63 as another syntax element in the auxiliary channel information 57.

[0266] A unidade de codificador de áudio psicoacústico 40 incluída no dispositivo de codificação de áudio 20 pode representar múltiplos casos de um codificador de áudio psicoacústico, cada um dos quais é usado para codificar um objeto de áudio ou canal de HOA diferente de cada um dos coeficientes de HOA 47’ ambientes de energia compensada e os sinais de nFG 49’ interpolados para gerar coeficientes de HOA ambientes 59 codificados e sinais de nFG 61 codificados. A unidade de codificador de áudio psicoacústico 40 pode emitir os coeficientes de HOA ambientes 59 codificados e os sinais de nFG 61 codificados para a unidade de geração de fluxo de bits 42.[0266] The psychoacoustic audio encoder unit 40 included in the audio encoding device 20 can represent multiple instances of a psychoacoustic audio encoder, each of which is used to encode an audio object or HOA channel different from each other of the compensated ambient HOA 47' coefficients and the interpolated nFG 49' signals to generate encoded ambient HOA 59 coefficients and encoded nFG 61 signals. The psychoacoustic audio encoder unit 40 can output the encoded ambient HOA coefficients 59 and the encoded nFG signals 61 to the bit stream generation unit 42.

[0267] Em algumas ocorrências, essa unidade de codificador de áudio psicoacústico 40 pode representar um ou mais casos de uma unidade de criptografia de codificação de áudio (AAC) avançada. A unidade de codificador de áudio psicoacústico 40 pode codificar cada coluna ou fileira dos coeficientes de HOA ambientes 47’ de energia compensada e os sinais de nFG 49’ interpolados. Frequentemente, a unidade de codificador de áudio psicoacústico 40 pode invocar uma instância de uma unidade de criptografia de AAC para cada uma dentre as combinações de ordem/subordem restantes nos coeficientes de HOA ambientes 47’ de energia compensada e os sinais de nFG 49’ interpolados. Mais informações a respeito de como os coeficientes harmônicos esféricos de segundo plano 31 podem ser codificados com o uso de uma unidade de criptografia de AAC podem ser encontradas em um trabalho de convenção por Eric Hellerud, et al, intitulado “Encoding Higher Order Ambisonics with AAC”, apresentado na 124-ésima Convenção, em maio de 2008 17 a 20 e disponível em: http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025&conte xt=engpapers. Em algumas ocorrências, a unidade de criptografia de áudio 14 pode codificar o áudio dos coeficientes de HOA ambientes 47’ de energia compensada com o uso de uma taxa-alvo de bits inferior à usada para codificar os sinais de nFG 49’ interpolados, potencialmente comprimindo mais assim, os coeficientes de HOA ambientes 47’ de energia compensada em comparação com os sinais de nFG 49’ interpolados. [0240] A unidade de geração de fluxo de bits 42 incluída no dispositivo de codificação de áudio 20 representa uma unidade que formata dados para estar em conformidade com um formato conhecido (que pode se referir a um formato conhecido por um dispositivo de decodificação), de modo a gerar, assim, o fluxo de bits 21 com base em vetor. A unidade de geração de fluxo de bits 42 pode representar um multiplexador em alguns exemplos, que pode receber os vetores 57 V[k] de primeiro plano codificados, os coeficientes de HOA ambientes 59 codificados, os sinais de nFG 61 codificados e as informações de canal de segundo plano 43. A unidade de geração de fluxo de bits 42 pode, em seguida, gerar um fluxo de bits 21 com base nos vetores 57 V[k] de primeiro plano codificados, nos coeficientes de HOA ambientes 59 codificados, nos sinais de nFG 61 codificados e nas informações de canal de segundo plano 43. O fluxo de bits 21 pode incluir um fluxo de bits primário ou principal e um ou mais fluxos de bits de canal auxiliar.[0267] In some instances, this psychoacoustic audio encoder unit 40 may represent one or more cases of an advanced audio coding encryption (AAC) unit. The psychoacoustic audio encoder unit 40 can encode each column or row of the energy compensated ambient HOA coefficients 47' and the interpolated nFG signals 49'. Often, the psychoacoustic audio encoder unit 40 may invoke an instance of an AAC encryption unit for each of the order/suborder combinations remaining in the energy compensated ambient HOA coefficients 47' and the interpolated nFG signals 49' . More information regarding how spherical background 31 harmonic coefficients can be encoded using an AAC encryption unit can be found in a convention work by Eric Hellerud, et al, entitled “Encoding Higher Order Ambisonics with AAC ”, presented at the 124th Convention, May 17-20, 2008 and available at: http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025&conte xt=engpapers. In some instances, the audio encryption unit 14 may encode the audio of the energy compensated ambient 47' HOA coefficients using a lower target bit rate than that used to encode the interpolated nFG 49' signals, potentially compressing more so, the ambient HOA coefficients 47' of compensated energy compared to the interpolated nFG signals 49'. [0240] The bitstream generation unit 42 included in the audio encoding device 20 represents a unit that formats data to conform to a known format (which may refer to a format known by a decoding device), so as to thus generate the vector-based bit stream 21. The bit stream generation unit 42 can represent a multiplexer in some examples, which can receive the coded foreground vectors 57 V[k], the coded ambient HOA coefficients 59, the coded nFG signals 61 and the background channel 43. The bit stream generation unit 42 may then generate a bit stream 21 based on the coded foreground vectors 57 V[k], the coded ambient HOA coefficients 59, the signals of encoded nFG 61 and in the background channel information 43. The bit stream 21 may include a primary or main bit stream and one or more auxiliary channel bit streams.

[0268] Embora não seja mostrado no exemplo da Figura 4, o dispositivo de codificação de áudio 20 também pode incluir uma unidade de saída de fluxo de bits que comuta a saída de fluxo de bits do dispositivo de codificação de áudio 20 (por exemplo, entre o fluxo de bits com base direcional 21 e o fluxo de bits 21 com base em vetor) com base na possibilidade de um quadro atual precisar ser codificado com o uso de síntese com base direcional ou de síntese com base em vetor. Essa unidade de saída de fluxo de bits pode realizar essa comutação com base na saída de elemento de sintaxe através da unidade de análise de conteúdo 26 que indica se uma síntese com base direcional foi realizada (como um resultado da detecção de que os coeficientes de HOA 11 foram gerados a partir de um objeto de áudio sintético) ou uma síntese com base em vetor foi realizada (como um resultado da detecção de que os coeficientes de HOA foram registrados). A unidade de saída de fluxo de bits pode especificar a sintaxe de cabeçalho correta para indicar essa comutação ou codificação atual usada para o quadro atual juntamente com o respectivo dentre os fluxos de bits 21.[0268] Although not shown in the example of Figure 4, the audio encoding device 20 may also include a bitstream output unit that switches the bitstream output of the audio encoding device 20 (e.g., between directional-based bitstream 21 and vector-based bitstream 21) based on whether a current frame needs to be encoded using directional-based synthesis or vector-based synthesis. This bitstream output unit can perform such switching based on the syntax element output via the content analysis unit 26 which indicates whether a directional based synthesis has been performed (as a result of detecting that the HOA coefficients 11 were generated from a synthetic audio object) or a vector-based synthesis was performed (as a result of detecting that HOA coefficients were recorded). The bitstream output unit can specify the correct header syntax to indicate that current switching or encoding used for the current frame along with the respective one of the 21 bitstreams.

[0269] Em algumas ocorrências, vários aspectos das técnicas também possibilitam que o dispositivo de codificação de áudio 20 determine se os coeficientes de HOA 11 são gerados a partir de um objeto de áudio sintético. Tais aspectos das técnicas possibilitam que o dispositivo de codificação de áudio 20 seja configurado para obter uma indicação da possibilidade de os coeficientes harmônicos esféricos representativos de um campo sonoro serem gerados a partir de um objeto de áudio sintético.[0269] In some instances, various aspects of the techniques also enable the audio encoding device 20 to determine whether HOA coefficients 11 are generated from a synthetic audio object. Such aspects of the techniques enable the audio encoding device 20 to be configured to obtain an indication of whether representative spherical harmonic coefficients of a sound field are generated from a synthetic audio object.

[0270] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para determinar se os coeficientes harmônicos esféricos são gerados a partir do objeto de áudio sintético.[0270] In these and other cases, the audio encoding device 20 is further configured to determine whether spherical harmonic coefficients are generated from the synthetic audio object.

[0271] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para excluir um primeiro vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos representativos do campo sonoro para obter uma matriz de coeficiente harmônico esférico com quadro reduzida.[0271] In these and other cases, the audio encoding device 20 is configured to exclude a first vector from a framed spherical harmonic coefficient matrix that stores at least a portion of the spherical harmonic coefficients representative of the sound field to obtain a matrix of spherical harmonic coefficient with reduced frame.

[0272] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para excluir um primeiro vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos representativos do campo sonoro para obter uma matriz de coeficiente harmônico esférico com quadro reduzida e prever um vetor da matriz de coeficiente harmônico esférico com quadro reduzida com base nos vetores restantes da matriz de coeficiente harmônico esférico com quadro reduzida.[0272] In these and other cases, the audio encoding device 20 is configured to exclude a first vector from a framed spherical harmonic coefficient matrix that stores at least a portion of the spherical harmonic coefficients representative of the sound field to obtain a matrix spherical harmonic coefficient matrix with reduced frame and predict a vector of the spherical harmonic coefficient matrix with reduced frame based on the remaining vectors of the spherical harmonic coefficient matrix with reduced frame.

[0273] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para excluir um primeiro vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos representativos do campo sonoro para obter uma matriz de coeficiente harmônico esférico com quadro reduzida e prever um vetor da matriz de coeficiente harmônico esférico com quadro reduzida com base, pelo menos em parte, em uma soma dos vetores restantes da matriz de coeficiente harmônico esférico com quadro reduzida.[0273] In these and other cases, the audio encoding device 20 is configured to exclude a first vector from a framed spherical harmonic coefficient matrix that stores at least a portion of the spherical harmonic coefficients representative of the sound field to obtain a matrix reduced-frame spherical harmonic coefficient matrix and predicting a reduced-frame spherical harmonic coefficient matrix vector based, at least in part, on a sum of the remaining vectors of the reduced-frame spherical harmonic coefficient matrix.

[0274] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para prever um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos em parte, em uma soma dos vetores restantes da matriz de coeficiente harmônico esférico com quadro.[0274] In these and other cases, the audio encoding device 20 is configured to predict a vector of a framed spherical harmonic coefficient matrix that stores at least a portion of the spherical harmonic coefficients based, at least in part, on a sum of the remaining vectors of the framed spherical harmonic coefficient matrix.

[0275] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para prever um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos em parte, em uma soma dos vetores restantes da matriz de coeficiente harmônico esférico com quadro e computar um erro com base no vetor previsto.[0275] In these and other cases, the audio encoding device 20 is further configured to predict a vector of a framed spherical harmonic coefficient matrix that stores at least a portion of the spherical harmonic coefficients based, at least in part, on into a sum of the remaining vectors of the framed spherical harmonic coefficient matrix and compute an error based on the predicted vector.

[0276] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para prever um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos em parte, em uma soma dos vetores restantes da matriz de coeficiente harmônico esférico com quadro e computar um erro com base no vetor previsto e o vetor correspondente da matriz de coeficiente harmônico esférico com quadro.[0276] In these and other cases, the audio encoding device 20 is configured to predict a vector of a framed spherical harmonic coefficient matrix that stores at least a portion of the spherical harmonic coefficients based, at least in part, on a sum of the remaining vectors of the framed spherical harmonic coefficient matrix and compute an error based on the predicted vector and the corresponding vector of the framed spherical harmonic coefficient matrix.

[0277] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para prever um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos em parte, em uma soma dos vetores restantes da matriz de coeficiente harmônico esférico com quadro e computar um erro como um soma do valor absoluto da diferença do vetor previsto e o vetor correspondente da matriz de coeficiente harmônico esférico com quadro.[0277] In these and other cases, the audio encoding device 20 is configured to predict a vector of a framed spherical harmonic coefficient matrix that stores at least a portion of the spherical harmonic coefficients based, at least in part, on a sum of the remaining vectors of the framed spherical harmonic coefficient matrix and compute an error as a sum of the absolute value of the predicted vector difference and the corresponding vector of the framed spherical harmonic coefficient matrix.

[0278] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para prever um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos em parte, em uma soma dos vetores restantes da matriz de coeficiente harmônico esférico com quadro, computar um erro com base no vetor previsto e no vetor correspondente da matriz de coeficiente harmônico esférico com quadro, computar uma razão com base em uma energia do vetor correspondente da matriz de coeficiente harmônico esférico com quadro e o erro e comparar a razão com um limiar para determinar se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético.[0278] In these and other cases, the audio encoding device 20 is configured to predict a vector of a framed spherical harmonic coefficient matrix that stores at least a portion of the spherical harmonic coefficients based, at least in part, on a sum of the remaining vectors of the framed spherical harmonic coefficient matrix, compute an error based on the predicted vector and the corresponding vector of the framed spherical harmonic coefficient matrix, compute a ratio based on an energy of the corresponding vector of the coefficient matrix spherical harmonic with frame and error and comparing the ratio to a threshold to determine if spherical harmonic coefficients representative of the sound field are generated from the synthetic audio object.

[0279] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para especificar a indicação em um fluxo de bits 21 que armazena uma versão comprimida dos coeficientes harmônicos esféricos.[0279] In these and other cases, the audio encoding device 20 is configured to specify the indication in a bit stream 21 that stores a compressed version of the spherical harmonic coefficients.

[0280] Em algumas ocorrências, as várias técnicas possibilitam que o dispositivo de codificação de áudio 20 realize uma transformação em relação aos coeficientes de HOA 11. Nesses e em outros casos, o dispositivo de codificação de áudio 20 pode ser configurado para obter um ou mais primeiros vetores que descrevem componentes distintos do campo sonoro e um ou mais segundos vetores que descrevem os componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos desempenhando-se uma transformação em relação à pluralidade de coeficientes harmônicos esféricos 11.[0280] In some instances, the various techniques allow the audio encoding device 20 to perform a transformation with respect to the HOA coefficients 11. In these and other cases, the audio encoding device 20 can be configured to obtain one or more plus first vectors describing distinct components of the sound field and one or more second vectors describing background components of the sound field, either the one or more first vectors or the one or more second vectors generated by at least performing a transformation into in relation to the plurality of spherical harmonic coefficients 11.

[0281] Nesses e em outros casos, o dispositivo de codificação de áudio 20, em que a transformação compreende uma decomposição de valor singular que gera uma matriz U representativa dos vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos 11.[0281] In these and other cases, the audio encoding device 20, wherein the transformation comprises a singular value decomposition that generates a matrix U representative of the left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients 11.

[0282] Nesses e em outros casos, o dispositivo de codificação de áudio 20, em que o um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST codificados por áudio que, antes da codificação de áudio, foram gerados multiplicando-se um ou mais vetores SDIST codificado por áudio de uma matriz U através de um ou mais vetores SDIST de uma matriz S e em que a matriz U e a matriz S são geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos.[0282] In these and other cases, audio encoding device 20, wherein the first one or more vectors comprise one or more audio-encoded UDIST * SDIST vectors which, prior to audio encoding, were generated by multiplying one or more audio-encoded SDIST vectors of a matrix U through one or more SDIST vectors of a matrix S and wherein the matrix U and matrix S are generated by at least performing singular value decomposition with respect to the plurality of coefficients spherical harmonics.

[0283] Nesses e em outros casos, o dispositivo de codificação de áudio 20, em que o um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST codificado por áudio que, antes da codificação de áudio, foram gerados multiplicando-se um ou mais vetores UDIST codificado por áudio de uma matriz U através de um ou mais vetores SDIST codificado por áudio de uma matriz S e um ou mais vetores VTDIST de uma transformada de uma matriz V e em que a matriz U e a matriz S e a matriz V são geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos 11.[0283] In these and other cases, audio encoding device 20, wherein the first one or more vectors comprise one or more audio-encoded UDIST * SDIST vectors which, prior to audio encoding, were generated by multiplying one or more audio-encoded UDIST vectors of a matrix U through one or more audio-encoded SDIST vectors of a matrix S and one or more VTDIST vectors of a transform of a matrix V and where the matrix U and the matrix S and the matrix V are generated at least by performing the singular value decomposition with respect to the plurality of spherical harmonic coefficients 11.

[0284] Nesses e em outros casos, o dispositivo de codificação de áudio 20, em que o um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST que, antes da codificação de áudio, foram gerados multiplicando- se um ou mais vetores UDIST codificado por áudio de uma matriz U através de um ou mais vetores SDIST de uma matriz S e um ou mais vetores VTDIST de uma transformada de uma matriz V, em que a matriz U, a matriz S e a matriz V foram geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos e em que o dispositivo de codificação de áudio 20 é adicionalmente configurado para obter um valor D que indica a quantidade de vetores a serem extraídos de um fluxo de bits para formar o um ou mais vetores UDIST * SDIST e o um ou mais vetores DIST.[0284] In these and other cases, audio encoding device 20, wherein the first one or more vectors comprise one or more UDIST * SDIST vectors which, prior to audio encoding, were generated by multiplying one or more vectors Audio encoded UDIST of a matrix U through one or more SDIST vectors of a matrix S and one or more vectors VTDIST of a transform of a matrix V, where the matrix U, matrix S and matrix V have been generated at least performing singular value decomposition with respect to the plurality of spherical harmonic coefficients and wherein the audio coding device 20 is further configured to obtain a D-value indicating the amount of vectors to be extracted from a bit stream to form o one or more UDIST * SDIST vectors and o one or more DIST vectors.

[0285] Nesses e em outros casos, o dispositivo de codificação de áudio 20, em que o um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST que, antes da codificação de áudio, foram gerados multiplicando- se um ou mais vetores UDIST codificado por áudio de uma matriz U através de um ou mais vetores SDIST de uma matriz S e um ou mais vetores VTDIST de uma transformada de uma matriz V, em que a matriz U, a matriz S e a matriz V foram geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos e em que o dispositivo de codificação de áudio 20 é adicionalmente configurado para obter um valor D que indica, a uma base de quadro de áudio por quadro de áudio, a quantidade de vetores a serem extraídos de um fluxo de bits para formar o um ou mais vetores UDIST * SDIST e o um ou mais vetores VtDIST.[0285] In these and other cases, audio encoding device 20, wherein the first one or more vectors comprise one or more UDIST * SDIST vectors which, prior to audio encoding, were generated by multiplying one or more vectors Audio encoded UDIST of a matrix U through one or more SDIST vectors of a matrix S and one or more vectors VTDIST of a transform of a matrix V, where the matrix U, matrix S and matrix V have been generated at least performing singular value decomposition with respect to the plurality of spherical harmonic coefficients and wherein the audio encoding device 20 is further configured to obtain a D value that indicates, on an audio frame per audio frame basis, the number of vectors to extract from a bit stream to form one or more UDIST * SDIST vectors and one or more VtDIST vectors.

[0286] Nesses e em outros casos, o dispositivo de codificação de áudio 20, em que a transformação compreende uma análise de componente principal para identificar os componentes distintos do campo sonoro e os componentes de segundo plano do campo sonoro.[0286] In these and other cases, the audio encoding device 20, wherein the transformation comprises a principal component analysis to identify the distinct components of the sound field and the background components of the sound field.

[0287] Vários aspectos das técnicas descritas na presente revelação podem fornecer o dispositivo de codificação de áudio 20 configurado para compensar pelo erro de quantização.[0287] Various aspects of the techniques described in the present disclosure may provide the audio encoding device 20 configured to compensate for quantization error.

[0288] Em algumas ocorrências, o dispositivo de codificação de áudio 20 pode ser configurado para quantizar um ou mais primeiros vetores representativos de um ou mais componentes de um campo sonoro e compensar o erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que também são representativos dos mesmos um ou mais componentes do campo sonoro.[0288] In some instances, the audio encoding device 20 may be configured to quantize one or more first vectors representative of one or more components of a sound field and compensate for the error introduced due to quantizing the one or more first vectors into a or more second vectors which are also representative of the same one or more sound field components.

[0289] Nesses e em outros casos, o dispositivo de codificação de áudio é configurado para quantizar um ou mais vetores a partir de uma transformada de uma matriz V gerada, pelo menos em parte, realizando-se uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.[0289] In these and other cases, the audio coding device is configured to quantize one or more vectors from a transform of a generated V matrix, at least in part, by performing a singular value decomposition with respect to a plurality of spherical harmonic coefficients that describe the sound field.

[0290] Nesses e em outros casos, o dispositivo de codificação de áudio é adicionalmente configurado para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e configurado para quantizar um ou mais vetores a partir de uma transformada da matriz V.[0290] In these and other cases, the audio encoding device is further configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of a sound field to generate a matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients and configured to quantize one or more vectors from a transform of the matrix v.

[0291] Nesses e em outros casos, o dispositivo de codificação de áudio é adicionalmente configurado para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, configurado para quantizar um ou mais vetores a partir da transformada da matriz V e configurado para compensar pelo erro introduzido devido à quantização em um ou mais vetores U * S computados multiplicando-se um ou mais vetores U da matriz U por um ou mais vetores S da matriz S.[0291] In these and other cases, the audio encoding device is further configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of a sound field to generate a matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients, configured to quantize one or more vectors from the matrix transform V is set to compensate for the error introduced due to quantization on one or more U*S vectors computed by multiplying one or more U vectors from the U matrix by one or more S vectors from the S matrix.

[0292] Nesses e em outros casos, o dispositivo de codificação de áudio é adicionalmente configurado para realizar uma decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UDIST da matriz U, em que cada um dos mesmos corresponde a um componente distinto do campo sonoro, determinar um ou mais vetores SDIST da matriz S, em que cada um dos mesmos corresponde ao mesmo componente distinto do campo sonoro e determinar um ou mais vetores VTDIST de uma transformada da matriz V, em que cada um dos mesmos corresponde ao mesmo componente distinto do campo sonoro, configurado para quantizar o um ou mais vetores VTDIST para gerar um ou mais vetores VTQ_DIST e configurado para compensar pelo erro introduzido devido à quantização em um ou mais vetores UDIST * SDIST computados multiplicando- se o um ou mais vetores UDIST da matriz U através de ou mais vetores SDIST da matriz S de modo a gerar um ou mais vetores UDIST * SDIST de erro compensado.[0292] In these and other cases, the audio encoding device is further configured to perform a singular value decomposition with respect to the plurality of spherical harmonic coefficients representative of a sound field to generate a matrix U representative of left singular vectors of the sound field. plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients, determine one or more UDIST vectors of the matrix U, each of which of them corresponds to a distinct component of the sound field, determine one or more SDIST vectors of the matrix S, each of which corresponds to the same distinct component of the sound field and determine one or more VTDIST vectors of a transform of the matrix V, in that each of them corresponds to the same distinct component of the sound field oro, set to quantize the one or more VTDIST vectors to generate one or more VTQ_DIST vectors and set to compensate for the error introduced due to quantization in one or more UDIST * SDIST vectors computed by multiplying the one or more UDIST vectors from the matrix U through of one or more SDIST vectors of the matrix S so as to generate one or more error compensated UDIST * SDIST vectors.

[0293] Nesses e em outros casos, o dispositivo de codificação de áudio é configurado para determinar coeficientes harmônicos esféricos distintos com base no um ou mais vetores UDIST, em que o um ou mais vetores SDIST e o um ou mais vetores VTDIST e realizar pseudoinversão em relação aos vetores VTQ_DIST para dividir os coeficientes harmônicos esféricos distintos pelo um ou mais vetores VTQ_DIST e, assim, gerar um ou mais vetores UC_DIST * SC_DIST de erro compensado que compensam, pelo menos em parte, pelo erro introduzido através da quantização dos vetores VTDIST.[0293] In these and other cases, the audio encoding device is configured to determine distinct spherical harmonic coefficients based on the one or more UDIST vectors, where the one or more SDIST vectors and the one or more VTDIST vectors and perform pseudoinversion against the VTQ_DIST vectors to divide the distinct spherical harmonic coefficients by the one or more VTQ_DIST vectors and thus generate one or more error compensated UC_DIST * SC_DIST vectors that compensate, at least in part, for the error introduced through the quantization of the VTDIST vectors .

[0294] Nesses e em outros casos, o dispositivo de codificação de áudio é adicionalmente configurado para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UBG da matriz U que descrevem um ou mais componentes de segundo plano do campo sonoro e um ou mais vetores UDIST da matriz U que descrevem um ou mais componentes distintos do campo sonoro, determinar um ou mais SBG vetores da matriz S que descrevem o um ou mais componentes de segundo plano do campo sonoro e um ou mais vetores SDIST da matriz S que descrevem o um ou mais componentes distintos do campo sonoro e determinar um ou mais vetores VTDIST e um ou mais vetores VTBG de uma transformada da matriz V, em que os vetores VTDIST descrevem o um ou mais componentes distintos do campo sonoro e os VTBG descrevem o um ou mais componentes de segundo plano do campo sonoro, configurado para quantizar o um ou mais vetores VTDIST para gerar um ou mais vetores VTQ_DIST e configurado para compensar pelo erro introduzido devido à quantização em coeficientes harmônicos esféricos de segundo plano formados multiplicando-se o um ou mais vetores UBG pelo um ou mais vetores SBG e, em seguida, pelo um ou mais vetores VTBG, de modo a gerar coeficientes harmônicos esféricos de segundo plano de erro compensado.[0294] In these and other cases, the audio encoding device is further configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of a sound field to generate a matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients, determine one or more vectors UBG of the matrix U that describe one or more background components of the sound field and one or more UDIST vectors of the matrix U that describe one or more distinct components of the sound field, determine one or more SBG vectors of the matrix S that describe the one or more background components of the sound field and one or more SDIST vectors of the matrix S that describe the one or more components distinct elements of the sound field and determine one or more VTDIST vectors and one or more VTBG vectors from a transform of the matrix V, where the VTDIST vectors describe the one or more distinct components of the sound field and the VTBGs describe the one or more components of background of the sound field, set to quantize the one or more VTDIST vectors to generate one or more VTQ_DIST vectors and set to compensate for the error introduced due to quantization into spherical background harmonic coefficients formed by multiplying the one or more UBG vectors by the one or more SBG vectors and then by the one or more VTBG vectors so as to generate error-compensated background spherical harmonic coefficients.

[0295] Nesses e em outros casos, o dispositivo de codificação de áudio é configurado para determinar o erro com base nos vetores VTDIST e um ou mais vetores UDIST * SDIST formados multiplicando-se os vetores UDIST pelos vetores SDIST e adicionar o erro determinado aos coeficientes harmônicos esféricos de segundo plano para gerar os coeficientes harmônicos esféricos de segundo plano de erro compensado.[0295] In these and other cases, the audio encoding device is configured to determine the error based on the VTDIST vectors and one or more UDIST*SDIST vectors formed by multiplying the UDIST vectors by the SDIST vectors and adding the determined error to the spherical background harmonic coefficients to generate the error compensated spherical background harmonic coefficients.

[0296] Nesses e em outros casos, o dispositivo de codificação de áudio é configurado para compensar pelo erro introduzido devido à quantização do um ou mais primeiros vetores em um ou mais segundos vetores que também são representativos do mesmo um ou mais componentes do campo sonoro para gerar um ou mais segundos vetores de erro compensado e adicionalmente configurado para gerar um fluxo de bits para incluir o um ou mais segundos vetores de erro compensado e o um ou mais primeiros vetores quantizados.[0296] In these and other cases, the audio encoding device is configured to compensate for the error introduced due to the quantization of one or more first vectors into one or more second vectors that are also representative of the same one or more sound field components. to generate one or more second compensated error vectors and further configured to generate a bit stream to include the one or more second compensated error vectors and the one or more first quantized vectors.

[0297] Nesses e em outros casos, o dispositivo de codificação de áudio é configurado para compensar pelo erro introduzido devido à quantização do um ou mais primeiros vetores em um ou mais segundos vetores que também são representativos do mesmo um ou mais componentes do campo sonoro para gerar um ou mais segundos vetores de erro compensado e adicionalmente configurado para codificar por áudio o um ou mais segundos vetores de erro compensado e gerar um fluxo de bits para incluir o um ou mais segundos vetores de erro compensado codificados por áudio e o um ou mais primeiros vetores quantizados.[0297] In these and other cases, the audio encoding device is configured to compensate for the error introduced due to the quantization of one or more first vectors into one or more second vectors that are also representative of the same one or more sound field components. to generate one or more second compensated error vectors and additionally configured to audio encode the one or more second compensated error vectors and generate a bit stream to include the one or more second audio encoded compensated error vectors and the one or plus first quantized vectors.

[0298] Os vários aspectos das técnicas podem possibilitar adicionalmente que o dispositivo de codificação de áudio 20 gere coeficientes harmônicos esféricos reduzidos ou decomposições dos mesmos. Em algumas ocorrências, o dispositivo de codificação de áudio 20 pode ser configurado para realizar, com base em uma taxa de bit alvo, a redução de ordem em relação a uma pluralidade de coeficientes harmônicos esféricos ou decomposições dos mesmos para gerar coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos, em que a pluralidade de coeficientes harmônicos esféricos representa um campo sonoro.[0298] The various aspects of the techniques may additionally enable the audio encoding device 20 to generate reduced spherical harmonic coefficients or decompositions thereof. In some instances, the audio coding device 20 may be configured to perform, based on a target bit rate, order reduction with respect to a plurality of spherical harmonic coefficients or decompositions thereof to generate reduced or reduced spherical harmonic coefficients. the reduced decompositions thereof, wherein the plurality of spherical harmonic coefficients represents a sound field.

[0299] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para, antes da realização da redução de ordem, realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos para identificar um ou mais primeiros vetores que descrevem componentes distintos do campo sonoro e um ou mais segundos vetores que identificam componentes de segundo plano do campo sonoro e configurado para realizar a redução de ordem em relação ao um ou mais primeiros vetores, o um ou mais segundos vetores ou o um ou mais primeiros vetores e o um ou mais segundos vetores.[0299] In these and other cases, the audio encoding device 20 is further configured to, prior to performing order reduction, perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients to identify one or more first vectors that describe distinct components of the sound field and one or more second vectors that identify background components of the sound field and configured to perform order reduction with respect to the one or more first vectors, the one or more second vectors or the one or more more first vectors and the one or more second vectors.

[0300] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para realizar uma análise de conteúdo em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos e configurado para realizar, com base na taxa-alvo de bits e na análise de conteúdo, a redução de ordem em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos para gerar os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.[0300] In these and other cases, the audio encoding device 20 is additionally configured to perform a content analysis with respect to the plurality of spherical harmonic coefficients or decompositions thereof and configured to perform, based on the target rate of bits and in content analysis, order reduction with respect to the plurality of spherical harmonic coefficients or decompositions thereof to generate reduced spherical harmonic coefficients or reduced decompositions thereof.

[0301] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para realizar uma análise espacial em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos.[0301] In these and other cases, the audio encoding device 20 is configured to perform a spatial analysis with respect to the plurality of spherical harmonic coefficients or decompositions thereof.

[0302] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para realizar uma análise de difusão em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos.[0302] In these and other cases, the audio encoding device 20 is configured to perform a scatter analysis with respect to the plurality of spherical harmonic coefficients or decompositions thereof.

[0303] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é o um ou mais processadores que são configurados para realizar uma análise espacial e uma análise de difusão em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos.[0303] In these and other cases, the audio encoding device 20 is the one or more processors that are configured to perform a spatial analysis and a scatter analysis with respect to the plurality of spherical harmonic coefficients or decompositions thereof.

[0304] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para especificar uma ou mais ordens e/ou uma ou mais subordens de funções de base esférica às quais aqueles dentre os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos correspondem em um fluxo de bits que inclui os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.[0304] In these and other cases, the audio encoding device 20 is further configured to specify one or more orders and/or one or more suborders of spherical basis functions to which those of the reduced spherical harmonic coefficients or the reduced decompositions of the same correspond in a stream of bits that includes the reduced spherical harmonic coefficients or the reduced decompositions thereof.

[0305] Nesses e em outros casos, os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos têm menos valores do que a pluralidade de coeficientes harmônicos esféricos ou as decomposições dos mesmos.[0305] In these and other cases, the reduced spherical harmonic coefficients or the reduced decompositions thereof have less values than the plurality of spherical harmonic coefficients or the decompositions thereof.

[0306] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para remover aqueles dentre a pluralidade de coeficientes harmônicos esféricos ou vetores das decomposições dos mesmos que têm uma ordem e/ou subordem especificada para gerar os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.[0306] In these and other cases, the audio encoding device 20 is configured to remove those from among the plurality of spherical harmonic coefficients or vectors of the decompositions thereof that have a specified order and/or suborder to generate the reduced spherical harmonic coefficients or their reduced decompositions.

[0307] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para zerar aqueles dentre a pluralidade de coeficientes harmônicos esféricos ou aqueles vetores da decomposição dos mesmos que têm uma ordem e/ou subordem especificada para gerar os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.[0307] In these and other cases, the audio encoding device 20 is configured to zero out those among the plurality of spherical harmonic coefficients or those vectors of the decomposition thereof that have a specified order and/or suborder to generate the spherical harmonic coefficients reduced or reduced decomposition thereof.

[0308] Vários aspectos das técnicas também podem permitir que o dispositivo de codificação de áudio 20 seja configurado para representar componentes distintos do campo sonoro. Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para obter um primeiro conjunto de coeficientes diferente de zero de um vetor a ser usado para representar um componente distinto de um campo sonoro, em que o vetor é decomposto a partir de uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.[0308] Various aspects of the techniques may also allow the audio encoding device 20 to be configured to represent distinct components of the sound field. In these and other cases, the audio encoding device 20 is configured to obtain a first set of non-zero coefficients of a vector to be used to represent a distinct component of a sound field, where the vector is decomposed from a plurality of spherical harmonic coefficients that describe the sound field.

[0309] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar o primeiro conjunto diferente de zero dos coeficientes do vetor para incluir todos os coeficientes.[0309] In these and other cases, the audio encoding device 20 is configured to determine the first non-zero set of vector coefficients to include all coefficients.

[0310] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar o primeiro conjunto de coeficientes diferente de zero como aqueles dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base, à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.[0310] In these and other cases, the audio encoding device 20 is configured to determine the first non-zero set of coefficients as those among the coefficients that correspond to an order greater than an order of a base function, at the which one or more of the plurality of spherical harmonic coefficients corresponds.

[0311] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar o primeiro conjunto de coeficientes diferente de zero para incluir aqueles dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde e excluir pelo menos um dentre os coeficientes que correspondem a uma ordem maior do que a ordem da função de base à qual o um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.[0311] In these and other cases, the audio encoding device 20 is configured to determine the first non-zero set of coefficients to include those among the coefficients that correspond to an order greater than an order of a base function to the which one or more of the plurality of spherical harmonic coefficients corresponds and exclude at least one of the coefficients which correspond to an order greater than the order of the basis function to which the one or more of the plurality of spherical harmonic coefficients corresponds.

[0312] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar o primeiro conjunto de coeficientes diferente de zero para incluir todos os coeficientes com a exceção de pelo menos um dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base, à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.[0312] In these and other cases, the audio encoding device 20 is configured to determine the first non-zero set of coefficients to include all coefficients with the exception of at least one of the coefficients that correspond to an order greater than the that an order of a basis function to which one or more of the plurality of spherical harmonic coefficients corresponds.

[0313] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para especificar o primeiro conjunto diferente de zero dos coeficientes do vetor em informações de canal auxiliar.[0313] In these and other cases, the audio encoding device 20 is further configured to specify the first non-zero set of vector coefficients in auxiliary channel information.

[0314] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para especificar o primeiro conjunto diferente de zero dos coeficientes do vetor em informações de canal auxiliar sem codificação de áudio do primeiro conjunto diferente de zero dos coeficientes do vetor.[0314] In these and other cases, the audio encoding device 20 is further configured to specify the first non-zero set of vector coefficients in non-audio-encoded auxiliary channel information of the first non-zero set of vector coefficients .

[0315] Nesses e em outros casos, o vetor compreende um vetor decomposto a partir da pluralidade de coeficientes harmônicos esféricos com o uso de síntese com base em vetor.[0315] In these and other cases, the vector comprises a vector decomposed from the plurality of spherical harmonic coefficients using vector-based synthesis.

[0316] Nesses e em outros casos, a síntese à base de vetor compreende uma decomposição de valor singular.[0316] In these and other cases, vector-based synthesis comprises a singular value decomposition.

[0317] Nesses e em outros casos, o vetor compreende um vetor V decomposto a partir da pluralidade de coeficientes harmônicos esféricos com o uso da decomposição de valor singular.[0317] In these and other cases, the vector comprises a vector V decomposed from the plurality of spherical harmonic coefficients using singular value decomposition.

[0318] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para selecionar um dentre uma pluralidade de modos de configuração através do qual especificar o conjunto de coeficientes diferente de zero do vetor e especificar o conjunto diferente de zero dos coeficientes do vetor com base no selecionado dentre a pluralidade de modos de configuração.[0318] In these and other cases, the audio encoding device 20 is further configured to select one of a plurality of configuration modes through which to specify the non-zero set of vector coefficients and to specify the non-zero set of the vectors. vector coefficients based on selected from the plurality of configuration modes.

[0319] Nesses e em outros casos, o um dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui todos os coeficientes.[0319] In these and other cases, the one of the plurality of configuration modes indicates that the non-zero set of coefficients includes all coefficients.

[0320] Nesses e em outros casos, o um dentre a pluralidade de modos de configuração indica que o conjunto de coeficientes diferente de zero inclui aqueles dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.[0320] In these and other cases, the one among the plurality of configuration modes indicates that the non-zero set of coefficients includes those among the coefficients that correspond to an order greater than an order of a basis function to which a or more of the plurality of spherical harmonic coefficients corresponds.

[0321] Nesses e em outros casos, o um dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui aqueles dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde e excluir pelo menos um dentre os coeficientes que correspondem a uma ordem maior do que a ordem da função de base à qual o um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.[0321] In these and other cases, the one of the plurality of configuration modes indicates that the non-zero set of coefficients includes those among the coefficients that correspond to an order greater than an order of a basis function to which a or more of the plurality of spherical harmonic coefficients corresponds to and excludes at least one of the coefficients that correspond to an order greater than the order of the basis function to which the one or more of the plurality of spherical harmonic coefficients corresponds.

[0322] Nesses e em outros casos, o um dentre a pluralidade de modos de configuração indica que o conjunto de coeficientes diferente de zero inclui todos os coeficientes com a exceção de pelo menos um dos coeficientes.[0322] In these and other cases, the one of the plurality of configuration modes indicates that the non-zero set of coefficients includes all coefficients with the exception of at least one of the coefficients.

[0323] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para especificar o selecionado dentre a pluralidade de modos de configuração em um fluxo de bits.[0323] In these and other cases, the audio encoding device 20 is further configured to specify selected from among a plurality of configuration modes in a bit stream.

[0324] Vários aspectos das técnicas descritas na presente revelação também permitem que o dispositivo de codificação de áudio 20 seja configurado para representar tal componente distinto do campo sonoro de várias maneiras. Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para obter um primeiro conjunto de coeficientes diferente de zero de um vetor que representa um componente distinto de um campo sonoro, em que o vetor foi decomposto a partir de uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.[0324] Various aspects of the techniques described in the present disclosure also allow the audio encoding device 20 to be configured to represent such a distinct component of the sound field in various ways. In these and other cases, the audio encoding device 20 is configured to obtain a first set of non-zero coefficients of a vector representing a distinct component of a sound field, wherein the vector has been decomposed from a plurality of spherical harmonic coefficients that describe the sound field.

[0325] Nesses e em outros casos, o primeiro conjunto diferente de zero dos coeficientes inclui todos os coeficientes do vetor.[0325] In these and other cases, the first non-zero set of coefficients includes all coefficients in the vector.

[0326] Nesses e em outros casos, o primeiro conjunto de coeficientes diferente de zero inclui aqueles dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base, à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.[0326] In these and other cases, the first non-zero set of coefficients includes those among the coefficients that correspond to an order greater than an order of a basis function, to which one or more of the plurality of spherical harmonic coefficients matches.

[0327] Nesses e em outros casos, o primeiro conjunto diferente de zero dos coeficientes inclui aqueles dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde e excluir pelo menos um dentre os coeficientes que correspondem a uma ordem maior do que a ordem da função de base à qual o um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.[0327] In these and other cases, the first non-zero set of coefficients includes those among the coefficients that correspond to an order greater than an order of a basis function to which one or more of the plurality of spherical harmonic coefficients corresponds and excluding at least one of the coefficients that correspond to an order greater than the order of the basis function to which the one or more of the plurality of spherical harmonic coefficients correspond.

[0328] Nesses e em outros casos, o primeiro conjunto de coeficientes diferente de zero inclui todos os coeficientes com a exceção de pelo menos um dos coeficientes identificados por não ter informações direcionais suficientes.[0328] In these and other cases, the first non-zero set of coefficients includes all coefficients with the exception of at least one of the coefficients identified for not having sufficient directional information.

[0329] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para extrair o primeiro conjunto diferente de zero dos coeficientes como uma primeira porção do vetor.[0329] In these and other cases, the audio encoding device 20 is further configured to extract the first non-zero set of coefficients as a first portion of the vector.

[0330] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para extrair o primeiro conjunto do vetor diferente de zero a partir de informações de canal auxiliar e obter uma versão recomposta da pluralidade de coeficientes harmônicos esféricos com base no primeiro conjunto diferente de zero dos coeficientes do vetor.[0330] In these and other cases, the audio encoding device 20 is further configured to extract the first set of the non-zero vector from the auxiliary channel information and obtain a recomposed version of the plurality of spherical harmonic coefficients based on the first nonzero set of vector coefficients.

[0331] Nesses e em outros casos, o vetor compreende um vetor decomposto a partir da pluralidade de coeficientes harmônicos esféricos com o uso de síntese com base em vetor.[0331] In these and other cases, the vector comprises a vector decomposed from the plurality of spherical harmonic coefficients using vector-based synthesis.

[0332] Nesses e em outros casos, a síntese à base de vetor compreende uma decomposição de valor singular.[0332] In these and other cases, vector-based synthesis comprises a singular value decomposition.

[0333] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para determinar um dentre uma pluralidade de modos de configuração através do qual extrair o conjunto de coeficientes diferente de zero do vetor de acordo com aquele dentre a pluralidade de modos de configuração e extrair o conjunto diferente de zero dos coeficientes do vetor com base no obtido dentre a pluralidade de modos de configuração.[0333] In these and other cases, the audio encoding device 20 is further configured to determine one of a plurality of configuration modes through which to extract the non-zero set of vector coefficients according to that of the plurality of configuration modes and extract the non-zero set of vector coefficients based on that obtained from among the plurality of configuration modes.

[0334] Nesses e em outros casos, o um dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui todos os coeficientes.[0334] In these and other cases, the one of the plurality of configuration modes indicates that the non-zero set of coefficients includes all coefficients.

[0335] Nesses e em outros casos, o um dentre a pluralidade de modos de configuração indica que o conjunto de coeficientes diferente de zero inclui aqueles dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.[0335] In these and other cases, the one among the plurality of configuration modes indicates that the non-zero set of coefficients includes those among the coefficients that correspond to an order greater than an order of a basis function to which a or more of the plurality of spherical harmonic coefficients corresponds.

[0336] Nesses e em outros casos, o um dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui aqueles dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde e excluir pelo menos um dentre os coeficientes que correspondem a uma ordem maior do que a ordem da função de base à qual o um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.[0336] In these and other cases, the one of the plurality of configuration modes indicates that the non-zero set of coefficients includes those among the coefficients that correspond to an order greater than an order of a basis function to which a or more of the plurality of spherical harmonic coefficients corresponds to and excludes at least one of the coefficients that correspond to an order greater than the order of the basis function to which the one or more of the plurality of spherical harmonic coefficients corresponds.

[0337] Nesses e em outros casos, o um dentre a pluralidade de modos de configuração indica que o conjunto de coeficientes diferente de zero inclui todos os coeficientes com a exceção de pelo menos um dos coeficientes.[0337] In these and other cases, the one of the plurality of configuration modes indicates that the non-zero set of coefficients includes all coefficients with the exception of at least one of the coefficients.

[0338] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar aquele dentre a pluralidade de modos de configuração com base em um valor sinalizado em um fluxo de bits.[0338] In these and other cases, the audio encoding device 20 is configured to determine one of a plurality of configuration modes based on a signaled value in a bit stream.

[0339] Vários aspectos das técnicas também podem, em alguns casos, possibilitar que o dispositivo de codificação de áudio 20 identifique um ou mais objetos de áudio distintos (ou, em outras palavras, objetos de áudio predominantes). Em algumas ocorrências, o dispositivo de codificação de áudio 20 pode ser configurado para identificar um ou mais objetos de áudio distintos a partir de um ou mais coeficientes harmônicos esféricos (SHC) associados aos objetos de áudio com base em uma direcionalidade determinada para um ou mais dos objetos de áudio.[0339] Various aspects of the techniques may also, in some cases, enable the audio encoding device 20 to identify one or more distinct audio objects (or, in other words, predominant audio objects). In some instances, the audio encoding device 20 may be configured to identify one or more distinct audio objects from one or more spherical harmonic coefficients (SHC) associated with the audio objects based on a given directionality to one or more of the audio objects.

[0340] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para determinar a direcionalidade do um ou mais objetos de áudio com base nos coeficientes harmônicos esféricos associados com os objetos de áudio.[0340] In these and other cases, the audio encoding device 20 is further configured to determine the directionality of the one or more audio objects based on the spherical harmonic coefficients associated with the audio objects.

[0341] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para realizar uma decomposição de valor singular em relação aos coeficientes harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade dos coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e representar a pluralidade de coeficientes harmônicos esféricos como uma função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V, em que o dispositivo de codificação de áudio 20 é configurado para determinar a respectiva direcionalidade do um ou mais objetos de áudio tem por base, pelo menos em parte, a matriz V.[0341] In these and other cases, the audio encoding device 20 is further configured to perform a singular value decomposition with respect to spherical harmonic coefficients to generate a matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients and representing the plurality of spherical harmonic coefficients as a function of at least a portion of one or more of the U matrix, the S matrix and the V matrix, wherein the audio encoding device 20 is configured to determine the respective directionality of the one or more audio objects is based, at least in part, on the V matrix.

[0342] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para reordenar um ou mais vetores da matriz V, de modo que os vetores que têm um quociente de direcionalidade maior sejam posicionados acima dos vetores que têm um menor quociente de direcionalidade na matriz V reordenda.[0342] In these and other cases, the audio encoding device 20 is additionally configured to reorder one or more vectors of the matrix V, so that vectors that have a higher directionality quotient are positioned above vectors that have a lower directionality quotient in the reordered V matrix.

[0343] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para determinar que os vetores que têm o maior quociente de direcionalidade incluem maiores informações direcionais do que os vetores que têm menos quociente de direcionalidade.[0343] In these and other cases, the audio encoding device 20 is further configured to determine that vectors that have the highest directionality quotient include more directional information than vectors that have less directionality quotient.

[0344] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para multiplicar a matriz V pela matriz S para gerar uma matriz VS, em que a matriz VS inclui um ou mais vetores.[0344] In these and other cases, the audio encoding device 20 is further configured to multiply the matrix V by the matrix S to generate a matrix VS, where the matrix VS includes one or more vectors.

[0345] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para selecionar entradas de cada fileira da matriz VS que estão associadas a uma ordem maior do que 14, elevar ao quadrado cada uma das entradas selecionadas para formar entradas correspondentes elevadas ao quadrado e para cada fileira da matriz VS, somar todas as entradas elevadas ao quadrado para determinar um quociente de direcionalidade para um vetor correspondente.[0345] In these and other cases, audio encoding device 20 is additionally configured to select inputs from each row of the VS matrix that are associated with an order greater than 14, square each of the selected inputs to form inputs corresponding squared and for each row of the VS matrix, sum all squared entries to determine a directionality quotient for a corresponding vector.

[0346] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para selecionar as entradas de cada fileira da matriz VS associada à ordem maior do que 14, em que isso compreende selecionar todas as entradas que se iniciam na 18aentrada de cada fileira da matriz VS e que terminam na 38a entrada de cada fileira da matriz VS.[0346] In these and other cases, the audio encoding device 20 is configured to select inputs from each row of the VS matrix associated with the order greater than 14, where this comprises selecting all inputs starting at the 18th input of each row of the VS matrix and ending in the 38th entry of each row of the VS matrix.

[0347] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para selecionar um subconjunto dos vetores da matriz VS para representar os objetos de áudio distintos. Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para selecionar quatro vetores da matriz VS e em que os quatro vetores selecionados têm os quatro maiores quocientes de direcionalidade dentre todos os vetores da matriz VS.[0347] In these and other cases, the audio encoding device 20 is further configured to select a subset of the VS matrix vectors to represent the distinct audio objects. In these and other cases, the audio encoding device 20 is configured to select four vectors from the VS matrix and wherein the four selected vectors have the four largest directionality quotients among all vectors from the VS matrix.

[0348] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar que o subconjunto selecionado dos vetores que representa os objetos de áudio distintos tem por base tanto a direcionalidade quanto uma energia de cada vetor.[0348] In these and other cases, the audio encoding device 20 is configured to determine that the selected subset of vectors representing the distinct audio objects is based on both the directionality and an energy of each vector.

[0349] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para realizar uma comparação de energia entre um ou mais primeiros vetores e um ou mais segundos vetores representativos dos objetos de áudio distintos para determinar o um ou mais primeiros vetores reordenados, em que o um ou mais primeiros vetores descrevem os objetos de áudio distintos em uma primeira porção dos dados de áudio e o um ou mais segundos vetores descrevem os objetos de áudio distintos em uma segunda porção dos dados de áudio.[0349] In these and other cases, the audio encoding device 20 is further configured to perform an energy comparison between one or more first vectors and one or more second vectors representative of distinct audio objects to determine the one or more first vectors. reordered vectors, where the one or more first vectors describe the discrete audio objects in a first portion of the audio data and the one or more second vectors describe the discrete audio objects in a second portion of the audio data.

[0350] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para realizar uma relação cruzada entre um ou mais primeiros vetores e um ou mais segundos vetores representativos dos objetos de áudio distintos para determinar o um ou mais primeiros vetores reordenados, em que o um ou mais primeiros vetores descrevem os objetos de áudio distintos em uma primeira porção dos dados de áudio e o um ou mais segundos vetores descrevem os objetos de áudio distintos em uma segunda porção dos dados de áudio.[0350] In these and other cases, the audio encoding device 20 is further configured to perform a cross-relationship between one or more first vectors and one or more second vectors representative of distinct audio objects to determine the one or more first vectors reordered, wherein the one or more first vectors describe the discrete audio objects in a first portion of the audio data and the one or more second vectors describe the discrete audio objects in a second portion of the audio data.

[0351] Vários aspectos das técnicas também podem, em alguns casos, possibilitar que o dispositivo de codificação de áudio 20 seja configurado para realizar uma compensação de energia em relação às decomposições dos coeficientes de HOA 11. Nesses e em outros casos, o dispositivo de codificação de áudio 20 pode ser configurado para realizar uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos para gerar representações decompostas da pluralidade de coeficientes harmônicos esféricos representativos de um ou mais objetos de áudio e informações direcionais correspondentes, em que os coeficientes harmônicos esféricos estão associados a uma ordem e descrevem um campo sonoro, determinam informações direcionais distintas e de segundo plano a partir das informações direcionais, reduzem uma ordem das informações direcionais associadas aos objetos de áudio de segundo plano para gerar informações direcionais de segundo plano transformadas, aplicam compensação para aumentar os valores das informações direcionais transformadas para preservar uma energia geral do campo sonoro.[0351] Various aspects of the techniques may also, in some cases, enable the audio coding device 20 to be configured to perform power compensation with respect to decompositions of HOA coefficients 11. In these and other cases, the audio coding device 11 audio coding 20 may be configured to perform vector-based synthesis against a plurality of spherical harmonic coefficients to generate decomposed representations of the plurality of spherical harmonic coefficients representative of one or more audio objects and corresponding directional information, wherein the spherical harmonic coefficients are associated with an order and describe a sound field, determine distinct directional and background information from the directional information, reduce an order of directional information associated with background audio objects to generate transformed background directional information , apply compensation They are used to increase the transformed directional information values to preserve an overall sound field energy.

[0352] Nesses e em outros casos, o dispositivo de codificação de áudio 20 pode ser configurado para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U e uma matriz S representativas dos objetos de áudio e uma matriz V representativa das informações direcionais, determinar vetores de colunas distintas da matriz V e vetores de coluna de segundo plano da matriz V, reduzir uma ordem dos vetores de coluna de segundo plano da matriz V para gerar vetores de coluna de segundo plano transformados da matriz V e aplicar a compensação para aumentar os valores dos vetores de coluna de segundo plano transformados da matriz V para preservar uma energia geral do campo sonoro.[0352] In these and other cases, the audio encoding device 20 can be configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients to generate a matrix U and a matrix S representative of the audio objects and a matrix V representative of the directional information, determine distinct column vectors from matrix V and background column vectors from matrix V, reduce an order of background column vectors from matrix V to generate transformed background column vectors from matrix V and apply compensation to increase the values of the transformed background column vectors of the matrix V to preserve an overall sound field energy.

[0353] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para determinar a quantidade de valores singulares salientes da matriz S, em a quantidade de vetores de colunas distintas da matriz V é a quantidade de valores singulares salientes da matriz S.[0353] In these and other cases, the audio coding device 20 is additionally configured to determine the amount of salient singular values of the matrix S, in which the amount of vectors of distinct columns of the matrix V is the amount of salient singular values of the matrix V. matrix S.

[0354] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar uma ordem reduzida para os coeficientes harmônicos esféricos e zero valores para as fileiras dos vetores de coluna de segundo plano da matriz V associados a uma ordem que é maior do que a ordem reduzida.[0354] In these and other cases, the audio encoding device 20 is configured to determine a reduced order for the spherical harmonic coefficients and zero values for the rows of the matrix V background column vectors associated with an order that is larger than the reduced order.

[0355] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para combinar colunas de segundo plano da matriz U, colunas de segundo plano da matriz S e uma transposta das colunas de segundo plano transformadas da matriz V para gerar coeficientes harmônicos esféricos modificados.[0355] In these and other cases, the audio encoding device 20 is additionally configured to combine U matrix background columns, S matrix background columns, and a transpose of the transformed matrix V background columns to generate modified spherical harmonic coefficients.

[0356] Nesses e em outros casos, os coeficientes harmônicos esféricos modificados descrevem um ou mais componentes de segundo plano do campo sonoro.[0356] In these and other cases, the modified spherical harmonic coefficients describe one or more background components of the sound field.

[0357] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar uma primeira energia de um vetor dentre os vetores de coluna de segundo plano da matriz V e uma segunda energia de um vetor dentre os vetores de coluna de segundo plano transformados da matriz V e aplicar um valor de amplificação a cada elemento do vetor dentre os vetores de coluna de segundo plano transformados da matriz V, em que o valor de amplificação compreende uma razão da primeira energia para a segunda energia.[0357] In these and other cases, the audio encoding device 20 is configured to determine a first energy of a vector among the background column vectors of the matrix V and a second energy of a vector among the column vectors of background transforms of the matrix V and applying an amplification value to each element of the vector among the transformed background column vectors of the matrix V, wherein the amplification value comprises a ratio of the first energy to the second energy.

[0358] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar um primeiro quadrado de média de raiz de energia de um vetor dentre os vetores de coluna de segundo plano da matriz V e um segundo quadrado de média de raiz de energia de um vetor dentre os vetores de coluna de segundo plano transformados da matriz V e aplicar um valor de amplificação a cada elemento do vetor dentre os vetores de coluna de segundo plano transformados da matriz V, em que o valor de amplificação compreende uma razão da primeira energia para a segunda energia.[0358] In these and other cases, the audio encoding device 20 is configured to determine a first squared average root energy of a vector among the background column vectors of matrix V and a second square average of energy root of a vector among the transformed background column vectors of the matrix V and applying an amplification value to each element of the vector among the transformed background column vectors of the matrix V, wherein the amplification value comprises a ratio of the first energy to the second energy.

[0359] Vários aspectos das técnicas descritas na presente revelação também possibilitam que o dispositivo de codificação de áudio 20 realize uma interpolação em relação às versões decompostas dos coeficientes de HOA 11. Em algumas ocorrências, o dispositivo de codificação de áudio 20 pode ser configurado para obter coeficientes harmônicos esféricos interpolados decompostos por um segmento de tempo, pelo menos em parte, desempenhando-se uma interpolação em relação a uma primeira decomposição de uma primeira pluralidade de coeficientes harmônicos esféricos e uma segunda decomposição de uma segunda pluralidade de coeficientes harmônicos esféricos.[0359] Various aspects of the techniques described in the present disclosure also enable the audio encoding device 20 to perform an interpolation against decomposed versions of the HOA coefficients 11. In some instances, the audio encoding device 20 may be configured to obtaining interpolated spherical harmonic coefficients decomposed by a time segment, at least in part, by performing an interpolation with respect to a first decomposition of a first plurality of spherical harmonic coefficients and a second decomposition of a second plurality of spherical harmonic coefficients.

[0360] Nesses e em outros casos, a primeira decomposição compreende uma primeira matriz V representativa de vetores singulares à direita da primeira pluralidade de coeficientes harmônicos esféricos.[0360] In these and other cases, the first decomposition comprises a first matrix V representative of singular vectors to the right of the first plurality of spherical harmonic coefficients.

[0361] Nesses e em outros exemplos, a segunda decomposição compreende uma segunda matriz V representativa de vetores singulares à direita da segunda pluralidade de coeficientes harmônicos esféricos.[0361] In these and other examples, the second decomposition comprises a second matrix V representative of singular vectors to the right of the second plurality of spherical harmonic coefficients.

[0362] Nesses e em outros casos, a primeira decomposição compreende uma primeira matriz V representativa de vetores singulares à direita da primeira pluralidade de coeficientes harmônicos esféricos e a segunda decomposição compreende uma segunda matriz V representativa de vetores singulares à direita da segunda pluralidade de coeficientes harmônicos esféricos.[0362] In these and other cases, the first decomposition comprises a first matrix V representative of singular vectors to the right of the first plurality of spherical harmonic coefficients and the second decomposition comprises a second matrix V representative of singular vectors to the right of the second plurality of coefficients spherical harmonics.

[0363] Nesses e em outros casos, o segmento de tempo compreende um subquadro de um quadro de áudio.[0363] In these and other cases, the time segment comprises a subframe of an audio frame.

[0364] Nesses e em outros casos, o segmento de tempo compreende uma amostra de tempo de um quadro de áudio.[0364] In these and other cases, the time segment comprises a time sample of an audio frame.

[0365] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para obter uma decomposição interpolada da primeira decomposição e a segunda decomposição para um coeficiente harmônico esférico da primeira pluralidade de coeficientes de harmônicos esféricos.[0365] In these and other cases, the audio encoding device 20 is configured to obtain an interpolated decomposition of the first decomposition and the second decomposition to a spherical harmonic coefficient of the first plurality of spherical harmonic coefficients.

[0366] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para obter decomposições interpoladas da primeira decomposição para uma primeira porção da primeira pluralidade de coeficientes de harmônicos esféricos incluídos no primeiro quadro e a segunda decomposição para uma segunda porção da segunda pluralidade de coeficientes de harmônicos esféricos incluída no segundo quadro, e o dispositivo de codificação de áudio 20 é configurado adicionalmente para aplicar as decomposições interpoladas a um primeiro componente de tempo da primeira porção da primeira pluralidade de coeficientes de harmônicos esféricos incluída no primeiro quadro para gerar um primeiro componente de tempo artificial da primeira pluralidade de coeficientes de harmônicos esféricos, e aplicar as respectivas decomposições interpoladas a um segundo componente de tempo da segunda porção dentre a segunda pluralidade de coeficientes de harmônicos esféricos incluída no segundo quadro para gerar um segundo componente de tempo artificial da segunda pluralidade de coeficientes de harmônicos esféricos incluídos.[0366] In these and other cases, the audio encoding device 20 is configured to obtain interpolated decompositions from the first decomposition to a first portion of the first plurality of spherical harmonic coefficients included in the first frame and the second decomposition to a second portion of the second plurality of spherical harmonic coefficients included in the second frame, and the audio encoding device 20 is further configured to apply the interpolated decays to a first time component of the first portion of the first plurality of spherical harmonic coefficients included in the first frame to generating a first artificial time component of the first plurality of spherical harmonic coefficients, and applying respective interpolated decompositions to a second time component of the second portion from among the second plurality of spherical harmonic coefficients included in the second frame to generate a second artificial time component of the second plurality of included spherical harmonic coefficients.

[0367] Nesses e em outros casos, o primeiro componente de tempo é gerado realizando-se uma síntese à base de vetor em relação à primeira pluralidade de coeficientes de harmônicos esféricos.[0367] In these and other cases, the first time component is generated by performing a vector-based synthesis with respect to the first plurality of spherical harmonic coefficients.

[0368] Nesses e em outros casos, o segundo componente de tempo é gerado realizando-se uma síntese à base de vetor em relação à segunda pluralidade de coeficientes de harmônicos esféricos.[0368] In these and other cases, the second time component is generated by performing a vector-based synthesis with respect to the second plurality of spherical harmonic coefficients.

[0369] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para receber o primeiro componente de tempo artificial e o segundo componente de tempo artificial, computar as decomposições interpoladas da primeira decomposição para a primeira porção da primeira pluralidade de coeficientes de harmônicos esféricos e a segunda decomposição para a segunda porção da segunda pluralidade de coeficientes de harmônicos esféricos, e aplicar inversos das decomposições interpoladas ao primeiro componente de tempo artificial para recuperar o primeiro componente de tempo e ao segundo componente de tempo artificial para recuperar o segundo componente de tempo.[0369] In these and other cases, the audio encoding device 20 is further configured to receive the first artificial time component and the second artificial time component, compute the interpolated decompositions from the first decomposition to the first portion of the first plurality of spherical harmonic coefficients and the second decomposition to the second portion of the second plurality of spherical harmonic coefficients, and applying inverses of the interpolated decompositions to the first artificial time component to recover the first time component and to the second artificial time component to recover the second time component.

[0370] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para interpolar um primeiro componente espacial da primeira pluralidade de coeficientes de harmônicos esféricos e o segundo componente espacial da segunda pluralidade de coeficientes de harmônicos esféricos.[0370] In these and other cases, the audio encoding device 20 is configured to interpolate a first spatial component of the first plurality of spherical harmonic coefficients and the second spatial component of the second plurality of spherical harmonic coefficients.

[0371] Nesses e em outros casos, o primeiro componente espacial compreende uma primeira matriz U representativa de vetores singulares à esquerda da primeira pluralidade de coeficientes de harmônicos esféricos.[0371] In these and other cases, the first spatial component comprises a first matrix U representative of singular vectors to the left of the first plurality of spherical harmonic coefficients.

[0372] Nesses e em outros casos, o segundo componente espacial compreende uma segunda matriz U representativa de vetores singulares à esquerda da segunda pluralidade de coeficientes de harmônicos esféricos.[0372] In these and other cases, the second spatial component comprises a second matrix U representative of singular vectors to the left of the second plurality of spherical harmonic coefficients.

[0373] Nesses e em outros casos, o primeiro componente espacial é representativo de M segmentos de tempo de coeficientes de harmônicos esféricos para a primeira pluralidade de coeficientes de harmônicos esféricos e o segundo componente espacial é representativo de M segmentos de tempo de coeficientes de harmônicos esféricos para a segunda pluralidade de coeficientes de harmônicos esféricos.[0373] In these and other cases, the first spatial component is representative of M time segments of spherical harmonic coefficients for the first plurality of spherical harmonic coefficients and the second spatial component is representative of M time segments of spherical harmonic coefficients spherical to the second plurality of spherical harmonic coefficients.

[0374] Nesses e em outros casos, o primeiro componente espacial é representativo de M segmentos de tempo de coeficientes de harmônicos esféricos para a primeira pluralidade de coeficientes de harmônicos esféricos e o segundo componente espacial é representativo de M segmentos de tempo de coeficientes de harmônicos esféricos para a segunda pluralidade de coeficientes de harmônicos esféricos, e o dispositivo de codificação de áudio 20 é configurado para interpolar os últimos N elementos do primeiro componente espacial e os primeiros N elementos do segundo componente espacial.[0374] In these and other cases, the first spatial component is representative of M time segments of spherical harmonic coefficients for the first plurality of spherical harmonic coefficients and the second spatial component is representative of M time segments of spherical harmonic coefficients spherical to the second plurality of spherical harmonic coefficients, and the audio encoding device 20 is configured to interpolate the last N elements of the first spatial component and the first N elements of the second spatial component.

[0375] Nesses e em outros casos, a segunda pluralidade de coeficientes de harmônicos esféricos é subsequente à primeira pluralidade de coeficientes de harmônicos esféricos no domínio de tempo.[0375] In these and other cases, the second plurality of spherical harmonic coefficients is subsequent to the first plurality of spherical harmonic coefficients in the time domain.

[0376] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para decompor a primeira pluralidade de coeficientes de harmônicos esféricos para gerar a primeira decomposição da primeira pluralidade de coeficientes de harmônicos esféricos.[0376] In these and other cases, the audio encoding device 20 is further configured to decompose the first plurality of spherical harmonic coefficients to generate the first decomposition of the first plurality of spherical harmonic coefficients.

[0377] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para decompor a segunda pluralidade de coeficientes de harmônicos esféricos para gerar a segunda decomposição da segunda pluralidade de coeficientes de harmônicos esféricos.[0377] In these and other cases, the audio encoding device 20 is further configured to decompose the second plurality of spherical harmonic coefficients to generate the second decomposition of the second plurality of spherical harmonic coefficients.

[0378] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para realizar uma decomposição de valor singular em relação à primeira pluralidade de coeficientes de harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da primeira pluralidade de coeficientes de harmônicos esféricos, uma matriz S representativa de valores singulares da primeira pluralidade de coeficientes de harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da primeira pluralidade de coeficientes de harmônicos esféricos.[0378] In these and other cases, the audio encoding device 20 is further configured to perform a singular value decomposition with respect to the first plurality of spherical harmonic coefficients to generate a matrix U representative of left singular vectors of the first plurality of spherical harmonic coefficients, a matrix S representative of singular values of the first plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the first plurality of spherical harmonic coefficients.

[0379] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para realizar uma decomposição de valor singular em relação à segunda pluralidade de coeficientes de harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da segunda pluralidade de coeficientes de harmônicos esféricos, uma matriz S representativa de valores singulares da segunda pluralidade de coeficientes de harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da segunda pluralidade de coeficientes de harmônicos esféricos.[0379] In these and other cases, the audio encoding device 20 is further configured to perform a singular value decomposition with respect to the second plurality of spherical harmonic coefficients to generate a matrix U representative of left singular vectors of the second plurality of spherical harmonic coefficients, a matrix S representative of singular values of the second plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the second plurality of spherical harmonic coefficients.

[0380] Nesses e em outros casos, cada uma dentre a primeira e a segundas pluralidades de coeficientes de harmônicos esféricos representa uma representação de onda plana do campo sonoro.[0380] In these and other cases, each of the first and second pluralities of spherical harmonic coefficients represents a plane wave representation of the sound field.

[0381] Nesses e em outros casos, cada uma dentre a primeira e a segundas pluralidades de coeficientes de harmônicos esféricos representa um ou mais objetos de áudio mono misturados juntamente.[0381] In these and other cases, each of the first and second pluralities of spherical harmonic coefficients represents one or more mono audio objects mixed together.

[0382] Nesses e em outros casos, cada uma dentre a primeira e a segundas pluralidades de coeficientes de harmônicos esféricos compreende respectivos primeiro e segundo coeficientes de harmônicos esféricos que representam um campo sonoro tridimensional.[0382] In these and other cases, each of the first and second pluralities of spherical harmonic coefficients comprises respective first and second spherical harmonic coefficients representing a three-dimensional sound field.

[0383] Nesses e em outros casos, a primeira e a segunda pluralidades de coeficientes de harmônicos esféricos são, cada uma, associadas a pelo menos uma função de base esférica que tem uma ordem maior do que um(1).[0383] In these and other cases, the first and second pluralities of spherical harmonic coefficients are each associated with at least one spherical basis function that has an order greater than one(1).

[0384] Nesses e em outros casos, a primeira e a segunda pluralidades de coeficientes de harmônicos esféricos são, cada uma, associadas a pelo menos um função de base esférica que tem uma ordem igual a quatro.[0384] In these and other cases, the first and second pluralities of spherical harmonic coefficients are each associated with at least one spherical basis function that has an order equal to four.

[0385] Nesses e em outros casos, a interpolação é uma interpolação ponderada da primeira decomposição e da segunda decomposição, em que os pesos da interpolação ponderada aplicados à primeira decomposição são inversamente proporcionais a um tempo representado por vetores da primeira e segunda decomposições e em que os pesos da interpolação ponderada aplicados à segunda decomposição são proporcionais a um tempo representado por vetores da primeira e segunda decomposições.[0385] In these and other cases, the interpolation is a weighted interpolation of the first decomposition and the second decomposition, where the weighted interpolation weights applied to the first decomposition are inversely proportional to a time represented by vectors of the first and second decompositions and in that the weighted interpolation weights applied to the second decomposition are proportional to a time represented by vectors of the first and second decompositions.

[0386] Nesses e em outros casos, os coeficientes de harmônicos esféricos interpolados decompostos suavizam pelo menos um dentre os componentes espaciais e os componentes de tempo da primeira pluralidade de coeficientes de harmônicos esféricos e da segunda pluralidade de coeficientes de harmônicos esféricos.[0386] In these and other cases, the decomposed interpolated spherical harmonic coefficients smooth at least one of the spatial components and the time components of the first plurality of spherical harmonics coefficients and the second plurality of spherical harmonics coefficients.

[0387] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para computar Us[n] = HOA(n) * (V_vec[n])-1 para obter um escalar.[0387] In these and other cases, audio encoding device 20 is configured to compute Us[n] = HOA(n) * (V_vec[n])-1 to obtain a scalar.

[0388] Nesses e em outros casos, a interpolação compreende uma interpolação linear. Nesses e em outros casos, a interpolação compreende uma interpolação não linear. Nesses e em outros casos, a interpolação compreende uma interpolação de cosseno. Nesses e em outros casos, a interpolação compreende uma interpolação de cosseno ponderada. Nesses e em outros casos, a interpolação compreende uma interpolação cúbica. Nesses e em outros casos, a interpolação compreende um Interpolação de Spline Adaptativa. Nesses e em outros casos, a interpolação compreende uma interpolação de curvatura mínima.[0388] In these and other cases, the interpolation comprises a linear interpolation. In these and other cases, the interpolation comprises a non-linear interpolation. In these and other cases, the interpolation comprises a cosine interpolation. In these and other cases, the interpolation comprises a weighted cosine interpolation. In these and other cases, the interpolation comprises a cubic interpolation. In these and other cases, the interpolation comprises an Adaptive Spline Interpolation. In these and other cases, the interpolation comprises a minimum curvature interpolation.

[0389] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para gerar um fluxo de bits que inclui uma representação dos coeficientes de harmônicos esféricos interpolados decompostos para o segmento de tempo, e uma indicação de um tipo da interpolação.[0389] In these and other cases, the audio encoding device 20 is further configured to generate a bit stream that includes a representation of the decomposed interpolated spherical harmonic coefficients for the time segment, and an indication of a type of the interpolation. .

[0390] Nesses e em outros casos, a indicação compreende um ou mais bits que mapeiam para o tipo de interpolação.[0390] In these and other cases, the indication comprises one or more bits that map to the interpolation type.

[0391] Desta forma, vários aspectos dos conjuntos de procedimentos descritos nesta revelação podem habilitar o dispositivo de codificação de áudio 20 para ser configurado para obter um fluxo de bits que inclui uma representação dos coeficientes de harmônicos esféricos interpolados decompostos para o segmento de tempo, e uma indicação de um tipo da interpolação.[0391] In this way, various aspects of the sets of procedures described in this disclosure can enable the audio encoding device 20 to be configured to obtain a bit stream that includes a representation of the interpolated spherical harmonic coefficients decomposed for the time segment, and an indication of an interpolation type.

[0392] Nesses e em outros casos, a indicação compreende um ou mais bits que mapeiam para o tipo de interpolação.[0392] In these and other cases, the indication comprises one or more bits that map to the interpolation type.

[0393] Em relação a isso, o dispositivo de codificação de áudio 20 pode representar uma modalidade dos conjuntos de procedimentos em que o dispositivo de codificação de áudio 20 pode, em alguns casos, ser configurado para gerar um fluxo de bits que compreende uma versão compactada de um componente espacial de um campo sonoro, sendo que o componente espacial é gerado realizando-se uma síntese à base de vetor em relação a uma pluralidade de coeficientes de harmônicos esféricos.[0393] In this regard, the audio encoding device 20 may represent an embodiment of the sets of procedures in which the audio encoding device 20 may, in some cases, be configured to generate a bit stream comprising a version compression of a spatial component of a sound field, the spatial component being generated by performing vector-based synthesis with respect to a plurality of spherical harmonic coefficients.

[0394] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para gerar o fluxo de bits para incluir um campo que especifica um modo de predição usado quando se comprime o componente espacial.[0394] In these and other cases, the audio encoding device 20 is further configured to generate the bit stream to include a field that specifies a prediction mode used when compressing the spatial component.

[0395] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para gerar o fluxo de bits para incluir informações de tabela de Huffman que especificam uma tabela de Huffman usada quando se comprime o componente espacial.[0395] In these and other cases, the audio encoding device 20 is configured to generate the bit stream to include Huffman table information that specifies a Huffman table used when compressing the spatial component.

[0396] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para gerar o fluxo de bits para incluir um campo que indica um valor que expressa um tamanho de etapa de quantização ou uma variável do mesmo usada quando se comprime o componente espacial.[0396] In these and other cases, the audio encoding device 20 is configured to generate the bit stream to include a field that indicates a value that expresses a quantization step size or a variable thereof used when compressing the spatial component.

[0397] Nesses e em outros casos, o valor compreende um valor nbits.[0397] In these and other cases, the value comprises an nbits value.

[0398] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para gerar o fluxo de bits para incluir uma versão de uma pluralidade de componentes espaciais do campo sonoro cuja versão compactada do componente espacial é incluída, em que o valor expressa o tamanho de etapa de quantização ou uma variável da mesma usada quando se comprime a pluralidade de componentes espaciais.[0398] In these and other cases, the audio encoding device 20 is configured to generate the bit stream to include a version of a plurality of spatial components of the sound field whose compressed version of the spatial component is included, where the value expresses the quantization step size or a variable thereof used when compressing the plurality of spatial components.

[0399] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para gerar o fluxo de bits para incluir um código de Huffman para representar um identificador de categoria que identifica uma categoria de compactação à qual o componente espacial corresponde.[0399] In these and other cases, the audio encoding device 20 is further configured to generate the bit stream to include a Huffman code to represent a category identifier that identifies a compression category to which the spatial component corresponds.

[0400] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para gerar o fluxo de bits para incluir um bit de sinal que identifica se o componente espacial é um valor positivo ou um valor negativo.[0400] In these and other cases, the audio encoding device 20 is configured to generate the bit stream to include a sign bit that identifies whether the spatial component is a positive value or a negative value.

[0401] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para gerar o fluxo de bits para incluir um código de Huffman para representar um valor residual do componente espacial.[0401] In these and other cases, the audio encoding device 20 is configured to generate the bit stream to include a Huffman code to represent a residual value of the spatial component.

[0402] Nesses e em outros casos, a síntese à base de vetor compreende uma decomposição de valor singular.[0402] In these and other cases, vector-based synthesis comprises a singular value decomposition.

[0403] Em relação a isso, o dispositivo de codificação de áudio 20 pode implantar adicionalmente vários aspectos dos conjuntos de procedimentos em que o dispositivo de codificação de áudio 20 pode, em alguns casos, ser configurado para identificar um livro de códigos de Huffman para usar quando se comprime um componente espacial de uma pluralidade de componentes espaciais com base em uma ordem do componente espacial relacionado aos componentes restantes dentre a pluralidade de componentes espaciais, sendo que o componente espacial é gerado realizando-se uma síntese à base de vetor em relação a uma pluralidade de coeficientes de harmônicos esféricos.[0403] In this regard, the audio encoding device 20 may additionally implement various aspects of sets of procedures where the audio encoding device 20 may, in some cases, be configured to identify a Huffman codebook for use when compressing a spatial component of a plurality of spatial components based on an order of the spatial component related to the remaining components among the plurality of spatial components, where the spatial component is generated by performing a vector-based synthesis with respect to to a plurality of spherical harmonic coefficients.

[0404] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para identificar o livro de códigos de Huffman com base em um modo de predição usado quando se comprime o componente espacial.[0404] In these and other cases, the audio encoding device 20 is configured to identify the Huffman codebook based on a prediction mode used when compressing the spatial component.

[0405] Nesses e em outros casos, uma versão compactada do componente espacial é representada em um fluxo de bits com o uso, pelo menos em parte, das informações de tabela de Huffman que identificam o livro de códigos de Huffman.[0405] In these and other cases, a compressed version of the spatial component is represented in a bitstream using, at least in part, Huffman table information that identifies the Huffman codebook.

[0406] Nesses e em outros casos, uma versão compactada do componente espacial é representada em um fluxo de bits com o uso, pelo menos em parte, de um campo que indica um valor que expressa um tamanho de etapa de quantização ou uma variável da mesma usada quando se comprime o componente espacial.[0406] In these and other cases, a compressed version of the spatial component is represented in a bitstream using, at least in part, a field that indicates a value that expresses a quantization step size or a variable of the same used when compressing the spatial component.

[0407] Nesses e em outros casos, o valor compreende um valor nbits.[0407] In these and other cases, the value comprises an nbits value.

[0408] Nesses e em outros casos, o fluxo de bits compreende uma versão compactada de uma pluralidade de componentes espaciais do campo sonoro cuja versão compactada do componente espacial é incluída, e o valor expressa o tamanho de etapa de quantização ou uma variável da mesma usada quando se comprime a pluralidade de componentes espaciais.[0408] In these and other cases, the bitstream comprises a compressed version of a plurality of spatial components of the sound field whose compressed version of the spatial component is included, and the value expresses the quantization step size or a variable thereof used when compressing the plurality of spatial components.

[0409] Nesses e em outros casos, uma versão compactada do componente espacial é representada em um fluxo de bits com o uso, pelo menos em parte, de um código de Huffman selecionado a partir do livro de códigos de Huffman identificado para representar um identificador de categoria que identifica uma categoria de compactação à qual o componente espacial corresponde.[0409] In these and other cases, a compressed version of the spatial component is represented in a bitstream using, at least in part, a Huffman code selected from the identified Huffman codebook to represent an identifier category that identifies a compression category to which the spatial component corresponds.

[0410] Nesses e em outros casos, uma versão compactada do componente espacial é representada em um fluxo de bits com o uso, pelo menos em parte, de um bit de sinal que identifica se o componente espacial é um valor positivo ou um valor negativo.[0410] In these and other cases, a compressed version of the spatial component is represented in a bit stream using, at least in part, a sign bit that identifies whether the spatial component is a positive value or a negative value. .

[0411] Nesses e em outros casos, uma versão compactada do componente espacial é representada em um fluxo de bits com o uso, pelo menos em parte, de um código de Huffman selecionado a partir do livro de códigos de Huffman identificado para representar um valor residual do componente espacial.[0411] In these and other cases, a compressed version of the spatial component is represented in a bitstream using, at least in part, a Huffman code selected from the identified Huffman codebook to represent a value residual of the spatial component.

[0412] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para comprimir o componente espacial com base no livro de códigos de Huffman identificado para gerar uma versão compactada do componente espacial, e gerar o fluxo de bits para incluir a versão compactada do componente espacial.[0412] In these and other cases, the audio encoding device 20 is further configured to compress the spatial component based on the identified Huffman codebook to generate a compressed version of the spatial component, and generate the bit stream to include the compressed version of the spatial component.

[0413] Ademais, o dispositivo de codificação de áudio 20 pode, em alguns casos, implantar vários aspectos dos conjuntos de procedimentos em que o dispositivo de codificação de áudio 20 pode ser configurado para determinar um tamanho de etapa de quantização a ser usado quando se comprime um componente espacial de um campo sonoro, sendo que o componente espacial é gerado realizando-se uma síntese à base de vetor em relação a uma pluralidade de coeficientes de harmônicos esféricos.[0413] Furthermore, the audio encoding device 20 may, in some cases, implement various aspects of the sets of procedures where the audio encoding device 20 may be configured to determine a quantization step size to be used when compresses a spatial component of a sound field, the spatial component being generated by performing vector-based synthesis with respect to a plurality of spherical harmonic coefficients.

[0414] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para determinar o tamanho de etapa de quantização com base em uma taxa de bits alvo.[0414] In these and other cases, the audio encoding device 20 is further configured to determine the quantization step size based on a target bitrate.

[0415] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar uma estimativa de um número de usado para representar o componente espacial, e determinar o tamanho de etapa de quantização com base em uma diferença entre a estimativa e uma taxa de bits alvo.[0415] In these and other cases, the audio encoding device 20 is configured to determine an estimate of a number used to represent the spatial component, and to determine the quantization step size based on a difference between the estimate and a target bitrate.

[0416] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar uma estimativa de um número de bits usado para representar o componente espacial, determinar uma diferença entre a estimativa e uma taxa de bits alvo, e determinar o tamanho de etapa de quantização adicionando-se a diferença à taxa de bits alvo.[0416] In these and other cases, the audio encoding device 20 is configured to determine an estimate of a number of bits used to represent the spatial component, determine a difference between the estimate and a target bit rate, and determine the quantization step size by adding the difference to the target bitrate.

[0417] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para calcular a estimativa do número de bits que deve ser gerado para o componente espacial dado um livro de códigos correspondente à taxa de bits alvo.[0417] In these and other cases, the audio encoding device 20 is configured to calculate the estimate of the number of bits that should be generated for the spatial component given a codebook corresponding to the target bit rate.

[0418] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para calcular a estimativa do número de bits que deve ser gerado para o componente espacial dado um modo de codificação usado quando se comprime o componente espacial.[0418] In these and other cases, the audio encoding device 20 is configured to calculate the estimate of the number of bits that should be generated for the spatial component given an encoding mode used when compressing the spatial component.

[0419] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para calcular uma primeira estimativa do número de bits que deve ser gerado para o componente espacial dado um primeiro modo de codificação a ser usado quando se comprime o componente espacial, calcular uma segunda estimativa do número de bits que deve ser gerado para o componente espacial dado um segundo modo de codificação a ser usado quando se comprime o componente espacial, selecionar uma dentre a primeira estimativa e a segunda estimativa que tem um menor número de bits a ser usado como a estimativa determinada do número de bits.[0419] In these and other cases, the audio encoding device 20 is configured to calculate a first estimate of the number of bits that should be generated for the spatial component given a first encoding mode to be used when compressing the spatial component , calculate a second estimate of the number of bits that should be generated for the spatial component given a second encoding mode to be used when compressing the spatial component, select one of the first estimate and the second estimate that has the fewest bits to be used as the given estimate of the number of bits.

[0420] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para identificar um identificador de categoria que identifica uma categoria à qual o componente espacial corresponde, identifica um comprimento de bits de um valor residual para o componente espacial que resultaria quando se comprime o componente espacial correspondente à categoria, e determina a estimativa do número de bits, pelo menos em parte, adicionando um número de bits usados para representar o identificador de categoria para o comprimento de bits do valor residual.[0420] In these and other cases, the audio encoding device 20 is configured to identify a category identifier that identifies a category to which the spatial component corresponds, identifies a bit length of a residual value for the spatial component that would result when compressing the spatial component corresponding to the category, and determining the estimate of the number of bits, at least in part, by adding a number of bits used to represent the category identifier to the bit length of the residual value.

[0421] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para selecionar um dentre uma pluralidade de livros de códigos a ser usada quando se comprime o componente espacial.[0421] In these and other cases, the audio encoding device 20 is further configured to select one of a plurality of codebooks to be used when compressing the spatial component.

[0422] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para determinar uma estimativa de um número de bits usado para representar o componente espacial com o uso de cada um dentre a pluralidade de livros de códigos, e selecionar o livro dentre a pluralidade de livros de códigos que resultou na estimativa determinada que tem o menor número de bits.[0422] In these and other cases, the audio encoding device 20 is further configured to determine an estimate of a number of bits used to represent the spatial component using each of the plurality of codebooks, and select the book among the plurality of codebooks that resulted in the given estimate having the fewest bits.

[0423] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para determinar uma estimativa de um número de bits usado para representar o componente espacial com o uso de um ou mais dentre a pluralidade de livros de códigos, em que os um ou mais dentre a pluralidade de livros de códigos selecionados com base em uma ordem dos elementos do componente espacial para ser compactado em relação a outros elementos do componente espacial.[0423] In these and other cases, the audio encoding device 20 is further configured to determine an estimate of a number of bits used to represent the spatial component using one or more of the plurality of codebooks, in that the one or more of the plurality of codebooks selected based on an order of the spatial component elements to be compressed relative to other spatial component elements.

[0424] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para determinar uma estimativa de um número de bits usados para representar o componente espacial com o uso de um dentre a pluralidade de livros de códigos projetada para ser usada quando o componente espacial não é previsto a partir de um componente espacial subsequente.[0424] In these and other cases, the audio encoding device 20 is further configured to determine an estimate of a number of bits used to represent the spatial component using one of the plurality of codebooks designed to be used when the spatial component is not predicted from a subsequent spatial component.

[0425] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para determinar uma estimativa de um número de bits usados para representar o componente espacial com o uso de um dentre a pluralidade de livros de códigos projetada para ser usada quando o componente espacial é previsto a partir de um componente espacial subsequente.[0425] In these and other cases, the audio encoding device 20 is further configured to determine an estimate of a number of bits used to represent the spatial component using one of the plurality of codebooks designed to be used when the spatial component is predicted from a subsequent spatial component.

[0426] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para determinar uma estimativa de um número de bits usado para representar o componente espacial com o uso da pluralidade de livros de códigos projetada para ser usada quando o componente espacial é representativa de um objeto de áudio sintético no campo sonoro.[0426] In these and other cases, the audio encoding device 20 is further configured to determine an estimate of a number of bits used to represent the spatial component using the plurality of codebooks designed to be used when the component space is representative of a synthetic audio object in the sound field.

[0427] Nesses e em outros casos, o objeto de áudio sintético compreende um objeto de áudio modulado por código de pulso (PCM).[0427] In these and other cases, the synthetic audio object comprises a pulse code modulated (PCM) audio object.

[0428] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para determinar uma estimativa de um número de bits usado para representar o componente espacial com o uso da pluralidade de livros de códigos projetada para ser usada quando o componente espacial é representativa de um objeto de áudio gravado no campo sonoro.[0428] In these and other cases, the audio encoding device 20 is further configured to determine an estimate of a number of bits used to represent the spatial component using the plurality of codebooks designed to be used when the component space is representative of an audio object recorded in the sound field.

[0429] Em cada um dos vários casos descritos acima, deveria ser compreendido que o dispositivo de codificação de áudio 20 pode realizar um método ou de outra forma compreende meios para realizar cada etapa do método para o qual o dispositivo de codificação de áudio 20 é configurado para realizar em alguns casos, esses meios podem compreende um ou mais processadores. Em alguns casos, os um ou mais processadores podem representar um processador de propósito especial configurado por meio de instruções armazenadas em um meio de armazenamento legível por computador não transitório. Em outras palavras, vários aspectos dos conjuntos de procedimentos em cada um dos conjuntos de exemplos de codificação podem fornecer um meio de armazenamento legível por computador não transitório que tem armazenado no mesmo instruções que, quando executadas, fazem com que os um ou mais processadores realizem o método para o qual o dispositivo de codificação de áudio 20 foi configurado para realizar.[0429] In each of the various cases described above, it should be understood that the audio encoding device 20 may perform a method or otherwise comprises means for performing each step of the method for which the audio encoding device 20 is configured to perform in some cases, these means may comprise one or more processors. In some cases, the one or more processors may represent a special-purpose processor configured through instructions stored on a non-transient computer-readable storage medium. In other words, various aspects of the sets of procedures in each of the sets of coding examples can provide a non-transient computer-readable storage medium that has stored instructions in it that, when executed, cause the one or more processors to perform the method for which the audio encoding device 20 has been configured to perform.

[0430] A Figura 5 é um diagrama de blocos que ilustra o dispositivo de decodificação de áudio 24 da Figura 3 em mais detalhes. Conforme mostrado no exemplo da Figura 5, o dispositivo de decodificação de áudio 24 pode incluir uma unidade de extração 72, uma unidade de reconstrução à base de direcionalidade 90 e uma unidade de reconstrução à base de vetor 92.[0430] Figure 5 is a block diagram illustrating the audio decoding device 24 of Figure 3 in more detail. As shown in the example of Figure 5, the audio decoding device 24 may include an extraction unit 72, a directionality-based reconstruction unit 90 and a vector-based reconstruction unit 92.

[0431] A unidade de extração 72 pode representar uma unidade configurada para receber o fluxo de bits 21 e extrair as várias verões codificadas (por exemplo, uma versão codificada à base de direcionalidade ou uma versão codificada à base de vetor) dos coeficientes de HOA 11. A unidade de extração 72 pode determinar a partir do elemento de sintaxe notado acima (por exemplo, o elemento de sintaxe de ChannelType mostrado nos exemplos das Figuras 10E e 10H(i)-100(ii)) se os coeficientes de HOA 11 foram codificados por meio das várias versões. Quando uma codificação à base de direcionalidade foi realizada, a unidade de extração 72 pode extrair a versão à base de direcionalidade dos coeficientes de HOA 11 e os elementos de sintaxe associadas a essa versão codificada (que é denotada como informações à base de direcionalidade 91 no exemplo da Figura 5), que passa essas informações à base de direcionalidade 91 para a unidade de reconstrução à base de direcionalidade 90. Essa unidade de reconstrução à base de direcionalidade 90 pode representar a unidade configurada para reconstruir os coeficientes de HOA na forma de coeficientes de HOA 11’ com base nas informações à base de direcionalidade 91. O fluxo de bits e a disposição de elementos de sintaxe dentro do fluxo de bits são descritos abaixo em maiores detalhes em relação ao exemplo das Figuras 10-100(ii) e 11.[0431] Extractor unit 72 may represent a unit configured to receive bitstream 21 and extract the various encoded versions (e.g. a directionality-encoded version or a vector-based encoded version) of the HOA coefficients 11. The extraction unit 72 can determine from the syntax element noted above (e.g., the ChannelType syntax element shown in the examples of Figures 10E and 10H(i)-100(ii)) whether the HOA coefficients 11 were coded through the various versions. When directionality-based encoding has been performed, the extraction unit 72 can extract the directionality-based version of the HOA coefficients 11 and the syntax elements associated with that encoded version (which is denoted as directionality-based information 91 in example in Figure 5), which passes this directionality-based information 91 to the directionality-based reconstruction unit 90. This directionality-based reconstruction unit 90 can represent the unit configured to reconstruct the HOA coefficients in the form of  coefficients. HOA 11' based on directionality-based information 91. The bit stream and arrangement of syntax elements within the bit stream are described below in greater detail with respect to the example of Figures 10-100(ii) and 11 .

[0432] Quando o elemento de sintaxe indica que os coeficientes HOA 11 foram codificados com o uso de uma síntese com base em vetor, a unidade de extração 72 pode extrair os vetores V[k] de primeiro plano codificados 57, os coeficientes HOA de ambiente codificado 59 e os sinais de nFG codificados 59. A unidade de extração 72 pode passar os vetores de primeiro plano codificados V[k] 57 para a unidade de quantização 74 e os coeficientes de HOA de ambiente codificados 59 em conjunto com os sinais de nFG codificados 61 para a unidade de decodificação psicoacústica 80.[0432] When the syntax element indicates that the HOA coefficients 11 were encoded using vector-based synthesis, the extraction unit 72 can extract the encoded foreground V[k] vectors 57, the HOA coefficients of coded environment 59 and the coded nFG signals 59. The extraction unit 72 may pass the coded foreground vectors V[k] 57 to the quantization unit 74 and the coded environment HOA coefficients 59 together with the coded environment signals 59. nFG coded 61 to psychoacoustic decoding unit 80.

[0433] Para extrair os vetores de primeiro plano codificados V[k] 57, os coeficientes de HOA de ambiente codificados 59 e os sinais de nFG codificados 59, as unidade de extração 72 podem obter as informações de canal auxiliares 57, que incluem o elemento de sintaxe denotado codedVVecLength. A unidade de extração 72 pode analisar o codedVVecLength a partir das informações de canal auxiliares 57. A unidade de extração 72 pode ser configurada para operar em que um dos modos de configuração descritos acima com base no elemento de sintaxe de codedVVecLength.[0433] To extract the coded foreground vectors V[k] 57, the coded ambient HOA coefficients 59 and the coded nFG signals 59, the extraction unit 72 can obtain the auxiliary channel information 57, which includes the syntax element denoted codedVVecLength. The extraction unit 72 can parse the codedVVecLength from the auxiliary channel information 57. The extraction unit 72 can be configured to operate in one of the configuration modes described above based on the codedVVecLength syntax element.

[0434] A unidade de extração 72 então opera de acordo com qualquer um dos modos de configuração para analisar uma forma compactada dos vetores de primeiro plano reduzidos V[k] 55k a partir das informações de canal auxiliares 57. A unidade de extração 72 pode operar de acordo com a instrução switch apresentada no seguindo pseudo-código com a sintaxe apresentada na tabela de sintaxe a seguir para VectorData:

Figure img0041
Figure img0042
[0434] Extractor unit 72 then operates in any of the configuration modes to analyze a compressed form of reduced foreground vectors V[k] 55k from auxiliary channel information 57. Extractor unit 72 can operate according to the switch statement presented in the following pseudo-code with the syntax presented in the following syntax table for VectorData:
Figure img0041
Figure img0042

[0435] Na tabela de sintaxe anterior, a primeira instrução switch com os quatro casos (caso 0-3) fornece uma forma através da qual determinar o comprimento de vetor VTDIST no que se refere ao número (WecLength) e índices de coeficientes (VVecCoeffld). O primeiro caso, caso 0, indica que todos os coeficientes para os vetores VTDIST (NumOfHoaCoeffs) são especificados. O segundo caso, caso 1, indica que somente aqueles coeficientes do vetor de VTDIST correspondentes ao número maior do que um MmNumOfCoeffsForAmbHOA são especificados, que podem denotar o que é chamado de (NDIST + 1)2 - (NBG + 1)2 acima. Adicionalmente os coeficientes de NumOfContAddAmbHoaChan identificados em ContAddAmbHoaChan são subtraídos. A lista ContAddAmbHoaChan especifica canais adicionais (em que “canais” se referem a um coeficiente particular correspondente a uma determinada ordem, combinação de subordem) correspondentes a uma ordem que excede a ordem MinAmbHoaOrder. O terceiro caso, caso 2, indica que aqueles coeficientes do vetor de VTDIST correspondentes ao número maior do que um MmNumOfCoeffsForAmbHOA são especificados, que podem denotar o que é chamado de (NDIST + 1)2 - (NBG + 1)2 acima. O quarto caso, caso 3, indica que aqueles coeficientes do vetor VTDIST remanescente após remover os coeficientes identificados por NumOfContAddAmbHoaChan são especificados. Tanto VVecLength quanto a lista de VVecCoeffld são válidos para todos VVectors dentro de HOAFrame.[0435] In the syntax table above, the first switch statement with the four cases (case 0-3) provides a way by which to determine the length of the VTDIST array with respect to number (WecLength) and coefficient indices (VVecCoeffld ). The first case, case 0, indicates that all coefficients for the VTDIST vectors (NumOfHoaCoeffs) are specified. The second case, case 1, indicates that only those coefficients of the VTDIST vector corresponding to the number greater than a MmNumOfCoeffsForAmbHOA are specified, which can denote what is called (NDIST + 1)2 - (NBG + 1)2 above. Additionally the coefficients of NumOfContAddAmbHoaChan identified in ContAddAmbHoaChan are subtracted. The ContAddAmbHoaChan list specifies additional channels (where "channels" refers to a particular coefficient corresponding to a given order, suborder combination) corresponding to an order that exceeds the MinAmbHoaOrder order. The third case, case 2, indicates that those coefficients of the VTDIST vector corresponding to the number greater than a MmNumOfCoeffsForAmbHOA are specified, which can denote what is called (NDIST + 1)2 - (NBG + 1)2 above. The fourth case, case 3, indicates that those coefficients of the VTDIST vector remaining after removing the coefficients identified by NumOfContAddAmbHoaChan are specified. Both VVecLength and the VVecCoeffld list are valid for all VVectors within HOAFrame.

[0436] Após essa instrução switch, a decisão de se deve realizar desquantização uniforme pode ser controlada por NbitsQ (ou, conforme denotado acima, nbits), que se for igual a 5, uma desquantização de escalar de 8 bit uniforme é realizada. Em contraste, um valor de NbitsQ maior ou igual a 6 pode resultar na aplicação da decodificação de Huffman. O valor de cid referido acima pode ser igual aos dois bits menos significativos do valor de NbitsQ. O modo de predição discutido acima é denotado como o PFlag na tabela de sintaxe acima, enquanto o bit de informações de HT é denotado de CbFlag na tabela de sintaxe acima. A sintaxe remanescente especifica como a decodificação ocorre de forma substancialmente semelhante àquela descrita acima. Vários exemplos do fluxo de bits 21 que se conforma a cada um dos vários casos acima são descritos em maiores detalhes abaixo em relação às Figuras 10H(i)-100(ii).[0436] After this switch instruction, the decision whether to perform uniform dequantization can be controlled by NbitsQ (or, as denoted above, nbits), which if equal to 5, a uniform 8-bit scalar dequantization is performed. In contrast, an NbitsQ value greater than or equal to 6 may result in Huffman decoding being applied. The value of cid referred to above can be equal to the two least significant bits of the value of NbitsQ. The prediction mode discussed above is denoted as PFlag in the syntax table above, while the HT info bit is denoted as CbFlag in the syntax table above. The remaining syntax specifies how decoding takes place substantially similar to that described above. Various examples of bitstream 21 conforming to each of the above various cases are described in greater detail below with reference to Figures 10H(i)-100(ii).

[0437] A unidade de reconstrução à base de vetor 92 representa uma unidade configurada para realizar operações recíprocas àquelas descritas acima em relação à unidade de síntese à base de vetor 27 com a finalidade de reconstruir os coeficientes de HOA 11’. A unidade de reconstrução à base de vetor 92 pode incluir uma unidade de quantização 74, uma unidade de interpolação espaço-temporal 76, uma unidade de formulação de primeiro plano 78, uma unidade de decodificação psicoacústica 80, uma unidade de formulação de coeficiente de HOA 82 e uma unidade de reordenação 84.[0437] The vector-based reconstruction unit 92 represents a unit configured to perform reciprocal operations to those described above with respect to the vector-based synthesis unit 27 for the purpose of reconstructing the HOA coefficients 11'. The vector-based reconstruction unit 92 may include a quantization unit 74, a spatio-temporal interpolation unit 76, a foreground formulation unit 78, a psychoacoustic decoding unit 80, an HOA coefficient formulation unit. 82 and a reordering unit 84.

[0438] A unidade de quantização 74 pode representar uma unidade configurada para opera de forma recíproca à unidade de quantização 52 mostrada no exemplo da Figura 4 com a finalidade de desquantificar os vetores de primeiro plano codificados V[k] 57 e gerar assim vetores de primeiro plano reduzidos V[k] 55k. A unidade de desquantização 74 pode, em alguns exemplos, realizar uma forma de decodificação por entropia e desquantização escalar de forma recíproca àquela descrita acima em relação à unidade de quantização 52. A unidade de desquantização 74 pode encaminhar os vetores de primeiro plano reduzidos V[k] 55k para a unidade de reordenação 84.[0438] The quantization unit 74 can represent a unit configured to operate reciprocally to the quantization unit 52 shown in the example of Figure 4 in order to dequantify the coded foreground vectors V[k] 57 and thus generate vectors of reduced foreground V[k] 55k. The dequantization unit 74 may, in some instances, perform a form of entropy decoding and scalar dequantization reciprocally to that described above with respect to the quantization unit 52. The dequantization unit 74 may route the reduced foreground vectors V[ k] 55k for reorder unit 84.

[0439] A unidade de decodificação psicoacústica 80 pode operar de forma recíproca à unidade de codificação de áudio psicoacústica 40 mostrada no exemplo da Figura 4 com a finalidade de decodificar os coeficientes de HOA de ambiente codificados 59 e os sinais de nFG codificados 61 e gerar assim os coeficientes de HOA de ambiente compensados por energia 47’ e os sinais de nFG interpolados 49’ (que também podem ser chamados de objetos de áudio de nFG interpolados 49’). A unidade de decodificação psicoacústica 80 pode passar os coeficientes HOA de ambiente compensados por energia 47’ para unidade de formulação de coeficiente de HOA 82 e os sinais de nFG 49’ para a reordenação 84.[0439] The psychoacoustic decoding unit 80 may reciprocally operate with the psychoacoustic audio encoding unit 40 shown in the example of Figure 4 for the purpose of decoding the coded ambient HOA coefficients 59 and the coded nFG signals 61 and generate thus energy compensated ambient HOA coefficients 47' and interpolated nFG signals 49' (which may also be called interpolated nFG audio objects 49'). Psychoacoustic decoding unit 80 may pass energy compensated ambient HOA coefficients 47' to HOA coefficient formulation unit 82 and nFG signals 49' to reordering 84.

[0440] A unidade de reordenação 84 pode representar uma unidade configurada para operar de uma maneira recíproca similar àquela descrita acima em relação à unidade de reordenação 34. A unidade de reordenação 84 pode receber elementos de sintaxe indicativos da ordem original dos componentes de primeiro plano dos coeficientes de HOA 11. A unidade de reordenação 84 pode, com base nesses elementos de sintaxe de reordenação, reorganizar os sinais de nFG interpolados 49’ e os vetores 55A V[k] de primeiro plano reduzidos para gerar sinais de nFG 49” reordenados e vetores 55k’V[k] de primeiro plano reordenados. A unidade de reordenação 84 pode emitir os sinais de nFG 49” reordenados para a unidade de formulação de primeiro plano 78 e os vetores 55k’ V[k] de primeiro plano reordenados para a unidade de interpolação espaço- temporal 76.[0440] Reordering unit 84 may represent a unit configured to operate in a reciprocal manner similar to that described above with respect to reordering unit 34. Reordering unit 84 may receive syntax elements indicative of the original order of foreground components of the HOA coefficients 11. The reordering unit 84 can, based on these reordering syntax elements, rearrange the interpolated nFG signals 49' and the reduced foreground vectors 55A V[k] to generate 49" reordered nFG signals and reordered foreground 55k'V[k] vectors. The reordering unit 84 may output the reordered nFG signals 49" to the foreground formulation unit 78 and the reordered foreground vectors 55k' V[k] to the spatiotemporal interpolation unit 76.

[0441] A unidade de interpolação espaço- temporal 76 pode operar de uma maneira similar àquela descrita acima em relação à unidade de interpolação espaço- temporal 50. A unidade de interpolação espaço-temporal 76 pode receber os vetores 55k’ V[k] de primeiro plano reordenados e realizar a interpolação espaço-temporal em relação aos vetores 55k’ V[k] de primeiro plano reordenados e vetores 55k-i‘ V[k-1] de primeiro plano reordenados para gerar vetores 55k'” V[k] de primeiro plano interpolados. A unidade de interpolação espaço-temporal 76 pode transmitir os vetores 55k” V[k] de primeiro plano interpolados para a unidade de formulação de primeiro plano 78.[0441] The spatiotemporal interpolation unit 76 may operate in a similar manner to that described above with respect to the spatiotemporal interpolation unit 50. The spatiotemporal interpolation unit 76 may receive the vectors 55k' V[k] of reordered foreground vectors and perform spatiotemporal interpolation against the reordered foreground 55k' V[k] and reordered foreground 55k-i' V[k-1] vectors to generate 55k'” V[k] interpolated foreground. The spatiotemporal interpolation unit 76 may transmit the interpolated foreground vectors 55k” V[k] to the foreground formulation unit 78.

[0442] A unidade de formulação de primeiro plano 78 pode representar uma unidade configurada para realizar multiplicação de matriz em relação aos vetores 55k" V[k] de primeiro plano interpolados e aos sinais de nFG 49” reordenados para gerar os coeficientes HOA de primeiro plano 65. A unidade de formulação de primeiro plano 78 pode realizar uma multiplicação de matriz dos sinais de nFG reordenados 49” pelos vetores de V[k] de primeiro plano interpolados 55k”.[0442] The foreground formulation unit 78 may represent a unit configured to perform matrix multiplication with respect to interpolated foreground 55k"V[k] vectors and 49" nFG signals reordered to generate the first HOA coefficients plane 65. The foreground formulation unit 78 may perform a matrix multiplication of the reordered nFG signals 49" by the interpolated foreground vectors V[k] 55k".

[0443] A unidade de formulação de coeficiente de HOA 82 pode representar uma unidade configurada para adicionar os coeficientes de HOA de primeiro plano 65 para os canais de HOA de ambiente 47’ com a finalidade de obter os coeficientes de HOA 11 ‘, em que a plica reflete que esses coeficientes de HOA 11 ‘ podem ser semelhantes, mas não iguais aos coeficientes de HOA 11. As diferenças entre os coeficientes de HOA 11 e 11 ‘ podem resultar da perda devido à transmissão através de um meio de transmissão com perdas, quantização ou outras operações com perdas.[0443] The HOA coefficient formulation unit 82 may represent a unit configured to add the foreground HOA coefficients 65 to the ambient HOA channels 47' for the purpose of obtaining the HOA coefficients 11', where The application reflects that these HOA 11' coefficients may be similar to, but not equal to, the HOA 11 coefficients. Differences between the 11 and 11' HOA coefficients may result from loss due to transmission over a lossy transmission medium, quantization or other lossy operations.

[0444] Desta forma, os conjuntos de procedimentos podem habilitar um dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24, para determinar, a partir de um fluxo de bits, informações direcionais quantificadas, um objeto de áudio de primeiro plano codificado, e coeficientes de ambissônico de ordem superior de ambiente codificados (HOA), em que as informações direcionais quantificadas e o objeto de áudio de primeiro plano codificado representam coeficientes de HOA de primeiro plano que descrevem um componente de primeiro plano de um campo sonoro, e em que os coeficientes de HOA de ambiente codificados descrevem um componente de ambiente do campo sonoro, desquantificar as informações direcionais quantificadas para gerar informações direcionais, realizar interpolação espaço-temporal em relação às informações direcionais para gerar informações direcionais interpoladas, decodificar por áudio o objeto de áudio de primeiro plano codificado para gerar um objeto de áudio de primeiro plano e os coeficientes de HOA de ambiente codificados para gerar coeficientes de HOA de ambiente, determinar os coeficientes de HOA de primeiro plano como uma função das informações direcionais interpoladas e o objeto de áudio de primeiro plano, e determinar coeficientes de HOA como uma função dos coeficientes de HOA de primeiro plano e os coeficientes de HOA de ambiente.[0444] In this way, procedure sets can enable an audio decoding device, such as audio decoding device 24, to determine, from a bit stream, quantized directional information, a foreground audio object encoded, and encoded ambient higher-order ambisonic (HOA) coefficients, where the quantized directional information and the encoded foreground audio object represent foreground HOA coefficients that describe a foreground component of a sound field, and where encoded ambient HOA coefficients describe an ambient component of the sound field, dequantify quantified directional information to generate directional information, perform spatiotemporal interpolation against directional information to generate interpolated directional information, audio decode the object foreground audio encoded to generate an object foreground audio and ambient HOA coefficients encoded to generate ambient HOA coefficients, determine foreground HOA coefficients as a function of interpolated directional information and the foreground audio object, and determine HOA coefficients as a function of the foreground HOA coefficients and the ambient HOA coefficients.

[0445] Desta forma, vários aspectos dos conjuntos de procedimentos podem habilitar um dispositivo de decodificação de áudio unificado 24 para comutar entre dois esquemas de descompactação diferentes. Em alguns casos, o dispositivo de decodificação de áudio 24 pode ser configurado para selecionar um dentre uma pluralidade de esquemas de descompactação baseada na indicação de se uma versão compactada de coeficientes de harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético, e descomprimir a versão compactada dos coeficientes de harmônicos esféricos com o uso aquele esquema selecionado da pluralidade de esquemas de descompactação. Nesses e em outros casos, o dispositivo de decodificação de áudio 24 compreende um decodificador integrado.[0445] In this way, various aspects of the procedure sets can enable a unified audio decoding device 24 to switch between two different decompression schemes. In some cases, the audio decoding device 24 may be configured to select one of a plurality of decompression schemes based on an indication of whether a compressed version of spherical harmonic coefficients representative of a sound field are generated from a sound object. synthetic audio, and decompressing the compressed version of the spherical harmonic coefficients using that scheme selected from the plurality of decompression schemes. In these and other cases, the audio decoding device 24 comprises an integrated decoder.

[0446] Em alguns casos, o dispositivo de decodificação de áudio 24 pode ser configurado para obter uma indicação de se coeficientes de harmônicos esféricos representativa de um campo sonoro são gerados a partir de um objeto de áudio sintético.[0446] In some cases, the audio decoding device 24 may be configured to obtain an indication of whether representative spherical harmonic coefficients of a sound field are generated from a synthetic audio object.

[0447] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado para obter a indicação a partir de um fluxo de bits que armazena uma versão compactada dos coeficientes de harmônicos esféricos.[0447] In these and other cases, the audio decoding device 24 is configured to obtain the indication from a bit stream that stores a compressed version of the spherical harmonic coefficients.

[0448] Desta forma, vários aspectos dos conjuntos de procedimentos podem habilitar o dispositivo de decodificação de áudio 24 para obter vetores que descrevem componentes de segundo plano e distintos do campo sonoro. Em alguns casos, o dispositivo de decodificação de áudio 24 pode ser configurado para determinar um ou mais primeiros vetores que descrevem componentes distintos de um campo sonoro e um ou mais segundos vetores que descrevem os componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos desempenhando-se uma transformação em relação a uma pluralidade de coeficientes de harmônicos esféricos.[0448] In this way, various aspects of the procedure sets can enable the audio decoding device 24 to obtain vectors that describe background and distinct components of the sound field. In some cases, the audio decoding device 24 may be configured to determine one or more first vectors that describe distinct components of a sound field and one or more second vectors that describe the background components of the sound field, either one or more more first vectors than the one or more second vectors generated by at least performing a transformation with respect to a plurality of spherical harmonic coefficients.

[0449] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que a transformação compreende uma decomposição de valor singular que gera uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes de harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes de harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes de harmônicos esféricos.[0449] In these and other cases, the audio decoding device 24, wherein the transformation comprises a singular value decomposition that generates a matrix U representative of singular vectors to the left of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients.

[0450] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que os um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST codificados por áudio que, antes da codificação por áudio, foram gerados multiplicando-se um ou mais vetores UDIST codificados por áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e em que a matriz U e a matriz S são geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes de harmônicos esféricos.[0450] In these and other cases, the audio decoding device 24, where the first one or more vectors comprise one or more audio-encoded UDIST * SDIST vectors that, prior to audio encoding, were generated by multiplying a or more audio-encoded UDIST vectors of a matrix U by one or more SDIST vectors of a matrix S, and wherein the matrix U and matrix S are generated by at least performing singular value decomposition with respect to the plurality of coefficients of spherical harmonics.

[0451] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para decodificar por áudio os um ou mais vetores UDIST * SDIST codificados por áudio para gerar uma versão decodificada por áudio dos um ou mais vetores UDIST * SDIST codificados por áudio.[0451] In these and other cases, the audio decoding device 24 is additionally configured to audio-decode the one or more audio-encoded UDIST*SDIST arrays to generate an audio-decoded version of the one or more encoded UDIST*SDIST arrays by audio.

[0452] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que os um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST codificados por áudio que, antes da codificação por áudio, foram gerados multiplicando-se um ou mais vetores UDIST codificados por áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e um ou mais vetores VTDIST de uma transposta de uma matriz V, e em que a matriz U e a matriz S e a matriz V são geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes de harmônicos esféricos.[0452] In these and other cases, the audio decoding device 24, where the first one or more vectors comprise one or more audio-encoded UDIST * SDIST vectors that, prior to audio encoding, were generated by multiplying a or more audio-encoded UDIST vectors of a matrix U by one or more SDIST vectors of a matrix S, and one or more VTDIST vectors of a transpose of a matrix V, and where the matrix U and the matrix S and the matrix V are generated at least by performing the singular value decomposition with respect to the plurality of spherical harmonic coefficients.

[0453] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para decodificar por áudio os um ou mais vetores UDIST * SDIST codificados por áudio para gerar uma versão decodificada por áudio dos um ou mais vetores UDIST * SDIST codificados por áudio.[0453] In these and other cases, the audio decoding device 24 is additionally configured to audio-decode the one or more audio-encoded UDIST*SDIST arrays to generate an audio-decoded version of the one or more encoded UDIST*SDIST arrays by audio.

[0454] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para multiplicar os vetores UDIST * SDIST pelos vetores VTDIST para recuperar aqueles dentre a pluralidade de harmônicos esféricos representativos dos componentes distintos do campo sonoro.[0454] In these and other cases, the audio decoding device 24 is further configured to multiply the UDIST * SDIST vectors by the VTDIST vectors to recover those from among the plurality of spherical harmonics representative of the distinct components of the sound field.

[0455] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que os um ou mais segundos vetores compreendem um ou mais vetores UBG * SBG * VTBG codificados por áudio que, antes da codificação por áudio, estavam gerando multiplicando-se vetores UBG incluídos dentro de uma matriz U por vetores SBG incluídos dentro de uma matriz S e então pelos vetores VTBG incluídos dentro de uma transposta de uma matriz V, e em que a matriz S, a matriz U e a matriz V foram, cada uma, geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes de harmônicos esféricos.[0455] In these and other cases, the audio decoding device 24, where the one or more second vectors comprise one or more audio-encoded UBG * SBG * VTBG vectors which, prior to audio encoding, were generating by multiplying them. if vectors UBG enclosed within a matrix U by vectors SBG enclosed within a matrix S and then by vectors VTBG enclosed within a transpose of a matrix V, and where matrix S, matrix U and matrix V were each one, generated at least by performing the singular value decomposition with respect to the plurality of spherical harmonic coefficients.

[0456] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que os um ou mais segundos vetores compreendem um ou mais vetores UBG * SBG * VTBG codificados por áudio que, antes da codificação por áudio, estavam gerando multiplicando-se vetores UBG incluídos dentro de uma matriz U por vetores SBG incluídos dentro de uma matriz S e então por vetores VTBG incluídos dentro de uma transposta de uma matriz V, em que a matriz S, a matriz U e a matriz V foram geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes de harmônicos esféricos, e em que o dispositivo de decodificação de áudio 24 é configurado adicionalmente para decodificar por áudio os um ou mais vetores UBG * SBG * VTBG codificados por áudio para gerar um ou mais vetores UBG * SBG * VTBG decodificados por áudio.[0456] In these and other cases, the audio decoding device 24, where the one or more second vectors comprise one or more audio-encoded UBG * SBG * VTBG vectors which, prior to audio encoding, were generating by multiplying them. if vectors UBG included within a matrix U by vectors SBG included within a matrix S and then by vectors VTBG included within a transpose of a matrix V, where matrix S, matrix U and matrix V have been generated at least performing singular value decomposition with respect to the plurality of spherical harmonic coefficients, and wherein the audio decoding device 24 is further configured to audio decode the one or more audio-encoded UBG * SBG * VTBG vectors to generate one or more audio-decoded UBG * SBG * VTBG vectors.

[0457] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que os um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST codificados por áudio que, antes da codificação por áudio, foram gerados multiplicando-se um ou mais vetores UDIST codificados por áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e um ou mais vetores VTDIST de uma transposta de uma matriz V, em que a matriz U, a matriz S e a matriz V foram geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes de harmônicos esféricos, e em que o dispositivo de decodificação de áudio 24 é configurado adicionalmente para decodificar por áudio os um ou mais vetores UDIST * SDIST codificados por áudio para gerar os um ou mais vetores UDIST * SDIST, e multiplicar os vetores UDIST * SDIST pelos vetores VTDIST para recuperar aqueles dentre a pluralidade de coeficientes de harmônicos esféricos que descrevem os componentes distintos do campo sonoro, em que os um ou mais segundos vetores compreendem um ou mais vetores UBG * SBG * VTBG codificados por áudio que, antes da codificação por áudio, foram gerados multiplicando-se vetores UBG incluídos na matriz U por vetores SBG incluídos na matriz S e então por vetores VTBG incluídos na transposta da matriz V, e em que o dispositivo de decodificação de áudio 24 é configurado adicionalmente para decodificar por áudio os um ou mais vetores UBG * SBG * VTBG codificados por áudio para recuperar pelo menos uma porção da pluralidade dos coeficientes de harmônicos esféricos que descrevem componentes de segundo plano do campo sonoro, e adicionar a pluralidade de coeficientes de harmônicos esféricos que descreve os componentes distintos do campo sonoro para a pelo menos porção da pluralidade dos coeficientes de harmônicos esféricos que descrevem os componentes de segundo plano do campo sonoro para gerar uma versão reconstruída da pluralidade de coeficientes de harmônicos esféricos.[0457] In these and other cases, the audio decoding device 24, where the first one or more vectors comprise one or more audio-encoded UDIST * SDIST vectors which, prior to audio encoding, were generated by multiplying a or more audio-encoded UDIST vectors of a matrix U by one or more SDIST vectors of a matrix S, and one or more VTDIST vectors of a transpose of a matrix V, where the matrix U, matrix S, and matrix V have been generated by at least performing singular value decomposition with respect to the plurality of spherical harmonic coefficients, and wherein the audio decoding device 24 is further configured to audio decode the one or more audio-encoded UDIST * SDIST vectors to generate the one or more UDIST * SDIST vectors, and multiply the UDIST * SDIST vectors by the VTDIST vectors to retrieve those of the plurality of spherical harmonic coefficients that describe the distinct components of the sound field, wherein the one or more second vectors comprise one or more audio-encoded UBG * SBG * VTBG vectors that, prior to audio encoding, were generated by multiplying UBG vectors included in the matrix U by SBG vectors included in the matrix S and then by VTBG vectors included in the transpose of matrix V, and wherein the audio decoding device 24 is further configured to audio decode the one or more audio-encoded UBG * SBG * VTBG vectors to recover at least a portion of the plurality of spherical harmonic coefficients that describe background components of the sound field, and adding the plurality of spherical harmonic coefficients that describe the distinct components of the sound field to the at least portion of the plurality of spherical harmonic coefficients that describe the components of background of the sound field to generate a reconstructed version of the plurality of spherical harmonic coefficients you.

[0458] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que os um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST que, antes da codificação por áudio, foram gerados multiplicando-se um ou mais vetores UDIST codificados por áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e um ou mais vetores VTDIST de uma transposta de uma matriz V, em que a matriz U, a matriz S e a matriz V foram geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes de harmônicos esféricos, e em que o dispositivo de decodificação de áudio 20 é configurado adicionalmente para obter um valor D que indica o número de vetores a ser extraído de um fluxo de bits para formar os um ou mais vetores UDIST * SDIST e os um ou mais vetores DiST.[0458] In these and other cases, audio decoding device 24, where the first one or more vectors comprise one or more UDIST*SDIST vectors which, prior to audio encoding, were generated by multiplying one or more vectors audio-encoded UDIST of a matrix U by one or more SDIST vectors of a matrix S, and one or more vectors VTDIST of a transpose of a matrix V, where the matrix U, matrix S, and matrix V have been generated at least performing singular value decomposition with respect to the plurality of spherical harmonic coefficients, and wherein the audio decoding device 20 is further configured to obtain a D value indicating the number of vectors to be extracted from a bit stream to form the one or more UDIST * SDIST vectors and the one or more DiST vectors.

[0459] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que os um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIS que, antes da codificação por áudio, foram gerados multiplicando-se um ou mais vetores UDIST codificados por áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e um ou mais vetores VTDIST de uma transposta de uma matriz V, em que a matriz U, a matriz S e a matriz V foram geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes de harmônicos esféricos, e em que o dispositivo de decodificação de áudio 24 é configurado adicionalmente para obter um valor D em uma base de quadro de áudio por quadro de áudio que indica o número de vetores a ser extraído de um fluxo de bits para formar os um ou mais vetores UDIST * SDIST e os um ou mais vetores VTDIST.[0459] In these and other cases, audio decoding device 24, where the first one or more vectors comprise one or more UDIST*SDIS vectors which, prior to audio encoding, were generated by multiplying one or more vectors audio-encoded UDIST of a matrix U by one or more SDIST vectors of a matrix S, and one or more vectors VTDIST of a transpose of a matrix V, where the matrix U, matrix S, and matrix V have been generated at least performing singular value decomposition with respect to the plurality of spherical harmonic coefficients, and wherein the audio decoding device 24 is further configured to obtain a D value on an audio frame per audio frame basis that indicates the number of vectors to extract from a bit stream to form the one or more UDIST * SDIST vectors and the one or more VTDIST vectors.

[0460] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que a transformação compreende uma análise de componente principal para identificar os componentes distintos do campo sonoro e os componentes de segundo plano do campo sonoro.[0460] In these and other cases, the audio decoding device 24, wherein the transformation comprises a principal component analysis to identify the distinct components of the sound field and the background components of the sound field.

[0461] Vários aspectos dos conjuntos de procedimentos descritos nesta revelação também podem habilitar o dispositivo de codificação de áudio 24 para realizar interpolação em relação a versões decompostas dos coeficientes de HOA. Em alguns casos, o dispositivo de decodificação de áudio 24 pode ser configurado para obter coeficientes de harmônicos esféricos interpolados decompostos por um segmento de tempo, pelo menos em parte, desempenhando-se uma interpolação em relação a uma primeira decomposição de uma primeira pluralidade de coeficientes de harmônicos esféricos e uma segunda decomposição de uma segunda pluralidade de coeficientes de harmônicos esféricos.[0461] Various aspects of the sets of procedures described in this disclosure may also enable the audio encoding device 24 to perform interpolation against decomposed versions of the HOA coefficients. In some cases, the audio decoding device 24 may be configured to obtain interpolated spherical harmonic coefficients decomposed by a time segment, at least in part, by performing an interpolation with respect to a first decomposition of a first plurality of coefficients. of spherical harmonics and a second decomposition of a second plurality of spherical harmonics coefficients.

[0462] Nesses e em outros casos, a primeira decomposição compreende uma primeira matriz V representativa de vetores singulares à direita da primeira pluralidade de coeficientes de harmônicos esféricos.[0462] In these and other cases, the first decomposition comprises a first matrix V representative of singular vectors to the right of the first plurality of spherical harmonic coefficients.

[0463] Nesses e em outros exemplos, a segunda decomposição compreende uma segunda matriz V representativa de vetores singulares à direita da segunda pluralidade de coeficientes de harmônicos esféricos.[0463] In these and other examples, the second decomposition comprises a second matrix V representative of singular vectors to the right of the second plurality of spherical harmonic coefficients.

[0464] Nesses e em outros casos, a primeira decomposição compreende uma primeira matriz V representativa de vetores singulares à direita da primeira pluralidade de coeficientes de harmônicos esféricos, e a segunda decomposição compreende uma segunda matriz V representativa de vetores singulares à direita da segunda pluralidade de coeficientes de harmônicos esféricos.[0464] In these and other cases, the first decomposition comprises a first matrix V representative of singular vectors to the right of the first plurality of spherical harmonic coefficients, and the second decomposition comprises a second matrix V representative of singular vectors to the right of the second plurality of spherical harmonic coefficients.

[0465] Nesses e em outros casos, o segmento de tempo compreende um subquadro de um quadro de áudio.[0465] In these and other cases, the time segment comprises a subframe of an audio frame.

[0466] Nesses e em outros casos, o segmento de tempo compreende uma amostra de tempo de um quadro de áudio.[0466] In these and other cases, the time segment comprises a time sample of an audio frame.

[0467] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado para obter uma decomposição interpolada da primeira decomposição e a segunda decomposição para um coeficiente harmônico esférico da primeira pluralidade de coeficientes de harmônicos esféricos.[0467] In these and other cases, the audio decoding device 24 is configured to obtain an interpolated decomposition of the first decomposition and the second decomposition to a spherical harmonic coefficient of the first plurality of spherical harmonic coefficients.

[0468] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado para obter decomposições interpoladas da primeira decomposição para uma primeira porção da primeira pluralidade de coeficientes de harmônicos esféricos incluída no primeiro quadro e a segunda decomposição para uma segunda porção da segunda pluralidade de coeficientes de harmônicos esféricos incluída no segundo quadro, e o dispositivo de decodificação de áudio 24 é configurado adicionalmente para aplicar as decomposições interpoladas a um primeiro componente de tempo da primeira porção da primeira pluralidade de coeficientes de harmônicos esféricos incluída no primeiro quadro para gerar um primeiro componente de tempo artificial da primeira pluralidade de coeficientes de harmônicos esféricos, e aplicar as respectivas decomposições interpoladas a um segundo componente de tempo da segunda porção dentre a segunda pluralidade de coeficientes de harmônicos esféricos incluída no segundo quadro para gerar um segundo componente de tempo artificial da segunda pluralidade de coeficientes de harmônicos esféricos incluídos.[0468] In these and other cases, the audio decoding device 24 is configured to obtain interpolated decompositions from the first decomposition to a first portion of the first plurality of spherical harmonic coefficients included in the first frame and the second decomposition to a second portion of the second plurality of spherical harmonic coefficients included in the second frame, and the audio decoding device 24 is further configured to apply the interpolated decays to a first time component of the first portion of the first plurality of spherical harmonic coefficients included in the first frame to generating a first artificial time component of the first plurality of spherical harmonic coefficients, and applying the respective interpolated decompositions to a second time component of the second portion from among the second plurality of spherical harmonic coefficients included in the second frame to generate a second artificial time component of the second plurality of included spherical harmonic coefficients.

[0469] Nesses e em outros casos, o primeiro componente de tempo é gerado realizando-se uma síntese à base de vetor em relação à primeira pluralidade de coeficientes de harmônicos esféricos.[0469] In these and other cases, the first time component is generated by performing a vector-based synthesis with respect to the first plurality of spherical harmonic coefficients.

[0470] Nesses e em outros casos, o segundo componente de tempo é gerado realizando-se uma síntese à base de vetor em relação à segunda pluralidade de coeficientes de harmônicos esféricos.[0470] In these and other cases, the second time component is generated by performing a vector-based synthesis with respect to the second plurality of spherical harmonic coefficients.

[0471] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para receber o primeiro componente de tempo artificial e o segundo componente de tempo artificial, computar as decomposições interpoladas da primeira decomposição para a primeira porção da primeira pluralidade de coeficientes de harmônicos esféricos e a segunda decomposição para a segunda porção da segunda pluralidade de coeficientes de harmônicos esféricos, e aplicar inversos das decomposições interpoladas ao primeiro componente de tempo artificial para recuperar o primeiro componente de tempo e ao segundo componente de tempo artificial para recuperar o segundo componente de tempo.[0471] In these and other cases, the audio decoding device 24 is further configured to receive the first artificial time component and the second artificial time component, compute the interpolated decompositions from the first decomposition to the first portion of the first plurality of spherical harmonic coefficients and the second decomposition to the second portion of the second plurality of spherical harmonic coefficients, and applying inverses of the interpolated decompositions to the first artificial time component to recover the first time component and to the second artificial time component to recover the second time component.

[0472] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado para interpolar um primeiro componente espacial da primeira pluralidade de coeficientes de harmônicos esféricos e o segundo componente espacial da segunda pluralidade de coeficientes de harmônicos esféricos.[0472] In these and other cases, the audio decoding device 24 is configured to interpolate a first spatial component of the first plurality of spherical harmonic coefficients and the second spatial component of the second plurality of spherical harmonic coefficients.

[0473] Nesses e em outros casos, o primeiro componente espacial compreende uma primeira matriz U representativa de vetores singulares à esquerda da primeira pluralidade de coeficientes de harmônicos esféricos.[0473] In these and other cases, the first spatial component comprises a first matrix U representative of singular vectors to the left of the first plurality of spherical harmonic coefficients.

[0474] Nesses e em outros casos, o segundo componente espacial compreende uma segunda matriz U representativa de vetores singulares à esquerda da segunda pluralidade de coeficientes de harmônicos esféricos.[0474] In these and other cases, the second spatial component comprises a second matrix U representative of singular vectors to the left of the second plurality of spherical harmonic coefficients.

[0475] Nesses e em outros casos, o primeiro componente espacial é representativo de M segmentos de tempo de coeficientes de harmônicos esféricos para a primeira pluralidade de coeficientes de harmônicos esféricos e o segundo componente espacial é representativo de M segmentos de tempo de coeficientes de harmônicos esféricos para a segunda pluralidade de coeficientes de harmônicos esféricos.[0475] In these and other cases, the first spatial component is representative of M time segments of spherical harmonic coefficients for the first plurality of spherical harmonic coefficients and the second spatial component is representative of M time segments of spherical harmonic coefficients spherical to the second plurality of spherical harmonic coefficients.

[0476] Nesses e em outros casos, o primeiro componente espacial é representativo de M segmentos de tempo de coeficientes de harmônicos esféricos para a primeira pluralidade de coeficientes de harmônicos esféricos e o segundo componente espacial é representativo de M segmentos de tempo de coeficientes de harmônicos esféricos para a segunda pluralidade de coeficientes de harmônicos esféricos, e o dispositivo de decodificação de áudio 24 é configurado para interpolar os últimos N elementos do primeiro componente espacial e os primeiros N elementos do segundo componente espacial.[0476] In these and other cases, the first spatial component is representative of M time segments of spherical harmonic coefficients for the first plurality of spherical harmonic coefficients and the second spatial component is representative of M time segments of spherical harmonic coefficients to the second plurality of spherical harmonic coefficients, and the audio decoding device 24 is configured to interpolate the last N elements of the first spatial component and the first N elements of the second spatial component.

[0477] Nesses e em outros casos, a segunda pluralidade de coeficientes de harmônicos esféricos é subsequente à primeira pluralidade de coeficientes de harmônicos esféricos no domínio de tempo.[0477] In these and other cases, the second plurality of spherical harmonic coefficients is subsequent to the first plurality of spherical harmonic coefficients in the time domain.

[0478] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para decompor a primeira pluralidade de coeficientes de harmônicos esféricos para gerar a primeira decomposição da primeira pluralidade de coeficientes de harmônicos esféricos.[0478] In these and other cases, the audio decoding device 24 is further configured to decompose the first plurality of spherical harmonic coefficients to generate the first decomposition of the first plurality of spherical harmonic coefficients.

[0479] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para decompor a segunda pluralidade de coeficientes de harmônicos esféricos para gerar a segunda decomposição da segunda pluralidade de coeficientes de harmônicos esféricos.[0479] In these and other cases, the audio decoding device 24 is further configured to decompose the second plurality of spherical harmonic coefficients to generate the second decomposition of the second plurality of spherical harmonic coefficients.

[0480] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para realizar uma decomposição de valor singular em relação à primeira pluralidade de coeficientes de harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da primeira pluralidade de coeficientes de harmônicos esféricos, uma matriz S representativa de valores singulares da primeira pluralidade de coeficientes de harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da primeira pluralidade de coeficientes de harmônicos esféricos.[0480] In these and other cases, the audio decoding device 24 is further configured to perform a singular value decomposition with respect to the first plurality of spherical harmonic coefficients to generate a matrix U representative of left singular vectors of the first plurality of spherical harmonic coefficients, a matrix S representative of singular values of the first plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the first plurality of spherical harmonic coefficients.

[0481] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para realizar uma decomposição de valor singular em relação à segunda pluralidade de coeficientes de harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da segunda pluralidade de coeficientes de harmônicos esféricos, uma matriz S representativa de valores singulares da segunda pluralidade de coeficientes de harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da segunda pluralidade de coeficientes de harmônicos esféricos.[0481] In these and other cases, the audio decoding device 24 is further configured to perform a singular value decomposition with respect to the second plurality of spherical harmonic coefficients to generate a matrix U representative of left singular vectors of the second plurality of spherical harmonic coefficients, a matrix S representative of singular values of the second plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the second plurality of spherical harmonic coefficients.

[0482] Nesses e em outros casos, cada uma dentre a primeira e a segunda pluralidades de coeficientes de harmônicos esféricos representa uma representação de onda plana do campo sonoro.[0482] In these and other cases, each of the first and second pluralities of spherical harmonic coefficients represents a plane wave representation of the sound field.

[0483] Nesses e em outros casos, cada uma dentre a primeira e a segunda pluralidades de coeficientes de harmônicos esféricos representa um ou mais objetos de áudio mono misturados juntamente.[0483] In these and other cases, each of the first and second pluralities of spherical harmonic coefficients represents one or more mono audio objects mixed together.

[0484] Nesses e em outros casos, cada uma dentre a primeira e a segunda pluralidades de coeficientes de harmônicos esféricos compreende respectivos primeiro e segundo coeficientes de harmônicos esféricos que representam um campo sonoro tridimensional.[0484] In these and other cases, each of the first and second pluralities of spherical harmonic coefficients comprises respective first and second spherical harmonic coefficients representing a three-dimensional sound field.

[0485] Nesses e em outros casos, a primeira e a segunda pluralidades de coeficientes de harmônicos esféricos são, cada uma, associadas a pelo menos uma função de base esférica que tem uma ordem maior do que um(1).[0485] In these and other cases, the first and second pluralities of spherical harmonic coefficients are each associated with at least one spherical basis function that has an order greater than one(1).

[0486] Nesses e em outros casos, a primeira e a segunda pluralidades de coeficientes de harmônicos esféricos são, cada uma, associadas a pelo menos um função de base esférica que tem uma ordem igual a quatro.[0486] In these and other cases, the first and second pluralities of spherical harmonic coefficients are each associated with at least one spherical basis function that has an order equal to four.

[0487] Nesses e em outros casos, a interpolação é uma interpolação ponderada da primeira decomposição e segunda decomposição, em que os pesos da interpolação ponderada aplicada à primeira decomposição são inversamente proporcionais a um tempo representado por vetores da primeira e segunda decomposições e em que os pesos da interpolação ponderada aplicada à segunda decomposição são proporcionais a um tempo representado pelos vetores da primeira e segunda decomposições.[0487] In these and other cases, the interpolation is a weighted interpolation of the first decomposition and second decomposition, where the weights of the weighted interpolation applied to the first decomposition are inversely proportional to a time represented by vectors of the first and second decompositions and in which the weights of the weighted interpolation applied to the second decomposition are proportional to a time represented by the vectors of the first and second decompositions.

[0488] Nesses e em outros casos, os coeficientes de harmônicos esféricos interpolados decompostos suavizam pelo menos um dentre os componentes espaciais e os componentes de tempo da primeira pluralidade de coeficientes de harmônicos esféricos e da segunda pluralidade de coeficientes de harmônicos esféricos.[0488] In these and other cases, the decomposed interpolated spherical harmonic coefficients smooth at least one of the spatial components and the time components of the first plurality of spherical harmonic coefficients and the second plurality of spherical harmonic coefficients.

[0489] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado para computar Us[n] = HOA(n) * (V_vec[n])-1 para obter um escalar.[0489] In these and other cases, the audio decoding device 24 is configured to compute Us[n] = HOA(n) * (V_vec[n])-1 to obtain a scalar.

[0490] Nesses e em outros casos, a interpolação compreende uma interpolação linear. Nesses e em outros casos, a interpolação compreende uma interpolação não linear. Nesses e em outros casos, a interpolação compreende uma interpolação de cosseno. Nesses e em outros casos, a interpolação compreende uma interpolação de cosseno ponderada. Nesses e em outros casos, a interpolação compreende uma interpolação cúbica. Nesses e em outros casos, a interpolação compreende um Interpolação de Spline Adaptativa. Nesses e em outros casos, a interpolação compreende uma interpolação de curvatura mínima.[0490] In these and other cases, the interpolation comprises a linear interpolation. In these and other cases, the interpolation comprises a non-linear interpolation. In these and other cases, the interpolation comprises a cosine interpolation. In these and other cases, the interpolation comprises a weighted cosine interpolation. In these and other cases, the interpolation comprises a cubic interpolation. In these and other cases, the interpolation comprises an Adaptive Spline Interpolation. In these and other cases, the interpolation comprises a minimum curvature interpolation.

[0491] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para gerar um fluxo de bits que inclui uma representação dos coeficientes de harmônicos esféricos interpolados decompostos para o segmento de tempo, e uma indicação de um tipo da interpolação.[0491] In these and other cases, the audio decoding device 24 is further configured to generate a bit stream that includes a representation of the decomposed interpolated spherical harmonic coefficients for the time segment, and an indication of a type of the interpolation. .

[0492] Nesses e em outros casos, a indicação compreende um ou mais bits que mapeiam para o tipo de interpolação.[0492] In these and other cases, the indication comprises one or more bits that map to the interpolation type.

[0493] Nesses e em outros casos, o dispositivo de codificação de áudio 24 é configurado adicionalmente para obter um fluxo de bits que inclui uma representação dos coeficientes de harmônicos esféricos interpolados decompostos para o segmento de tempo, e uma indicação de um tipo da interpolação.[0493] In these and other cases, the audio encoding device 24 is further configured to obtain a bit stream that includes a representation of the decomposed interpolated spherical harmonic coefficients for the time segment, and an indication of a type of the interpolation. .

[0494] Nesses e em outros casos, a indicação compreende um ou mais bits que mapeiam para o tipo de interpolação.[0494] In these and other cases, the indication comprises one or more bits that map to the interpolation type.

[0495] Vários aspectos dos conjuntos de procedimentos podem, em alguns casos, habilitar adicionalmente o dispositivo de decodificação de áudio 24 para ser configurado para obter um fluxo de bits que compreende uma versão compactada de um componente espacial de um campo sonoro, sendo que o componente espacial é gerado realizando-se uma síntese à base de vetor em relação a uma pluralidade de coeficientes de harmônicos esféricos.[0495] Various aspects of the procedure sets may, in some cases, additionally enable the audio decoding device 24 to be configured to obtain a bit stream comprising a compressed version of a spatial component of a sound field, the spatial component is generated by performing vector-based synthesis with respect to a plurality of spherical harmonic coefficients.

[0496] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso de, pelo menos em parte, um campo que especifica um modo de predição usado quando se comprime o componente espacial.[0496] In these and other cases, the compressed version of the spatial component is represented in the bitstream using, at least in part, a field that specifies a prediction mode used when compressing the spatial component.

[0497] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso de, pelo menos em parte, informações de tabela de Huffman que especificam uma tabela de Huffman usada quando se comprime o componente espacial.[0497] In these and other cases, the compressed version of the spatial component is represented in the bitstream using, at least in part, Huffman table information that specifies a Huffman table used when compressing the spatial component.

[0498] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de um campo que indica um valor que expressa um tamanho de etapa de quantização ou uma variável da mesma usada quando se comprime o componente espacial.[0498] In these and other cases, the compressed version of the spatial component is represented in the bit stream using, at least in part, a field that indicates a value that expresses a quantization step size or a variable thereof used when compressing the spatial component.

[0499] Nesses e em outros casos, o valor compreende um valor nbits.[0499] In these and other cases, the value comprises an nbits value.

[0500] Nesses e em outros casos, o fluxo de bits compreende uma versão compactada de uma pluralidade de componentes espaciais do campo sonoro cuja versão compactada do componente espacial é incluída, e o valor expressa o tamanho de etapa de quantização ou uma variável da mesma usada quando se comprime a pluralidade de componentes espaciais.[0500] In these and other cases, the bit stream comprises a compressed version of a plurality of spatial components of the sound field whose compressed version of the spatial component is included, and the value expresses the quantization step size or a variable thereof used when compressing the plurality of spatial components.

[0501] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de um código de Huffman para representar um identificador de categoria que identifica uma categoria de compactação à qual o componente espacial corresponde.[0501] In these and other cases, the compressed version of the spatial component is represented in the bitstream using, at least in part, a Huffman code to represent a category identifier that identifies a compression category to which the spatial component corresponds.

[0502] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de um bit de sinal que identifica se o componente espacial é um valor positivo ou um valor negativo.[0502] In these and other cases, the compressed version of the spatial component is represented in the bit stream using, at least in part, a sign bit that identifies whether the spatial component is a positive value or a negative value.

[0503] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso de, pelo menos em parte, um código de Huffman para representar um valor residual do componente espacial.[0503] In these and other cases, the compressed version of the spatial component is represented in the bitstream using, at least in part, a Huffman code to represent a residual value of the spatial component.

[0504] Nesses e em outros casos, o dispositivo compreende um dispositivo de decodificação de áudio.[0504] In these and other cases, the device comprises an audio decoding device.

[0505] Vários aspectos dos conjuntos de procedimentos também podem habilitar o dispositivo de decodificação de áudio 24 para identificar um livro de códigos de Huffman para usar quando descomprimir uma versão compactada de um componente espacial de uma pluralidade de componentes espaciais compactados com base em uma ordem da versão compactada do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais compactados, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes de harmônicos esféricos.[0505] Various aspects of procedure sets can also enable the audio decoding device 24 to identify a Huffman codebook to use when decompressing a compressed version of a spatial component from a plurality of compressed spatial components based on an order of the compressed version of the spatial component with respect to those remaining of the plurality of compressed spatial components, the spatial component generated by performing vector-based synthesis with respect to a plurality of spherical harmonic coefficients.

[0506] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado para obter um fluxo de bits que compreende a versão compactada de um componente espacial de um campo sonoro, e descomprime a versão compactada do componente espacial com o uso, pelo menos em parte, do livro de códigos de Huffman identificado para obter o componente espacial.[0506] In these and other cases, the audio decoding device 24 is configured to obtain a bit stream comprising the compressed version of a spatial component of a sound field, and decompresses the compressed version of the spatial component with use, at least in part, from the Huffman codebook identified to obtain the spatial component.

[0507] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de um campo que especifica um modo de predição usado quando se comprime o componente espacial, e o dispositivo de decodificação de áudio 24 é configurado para descomprimir a versão compactada do componente espacial com base, pelo menos em parte, no modo de predição para obter o componente espacial.[0507] In these and other cases, the compressed version of the spatial component is represented in the bitstream using, at least in part, a field that specifies a prediction mode used when compressing the spatial component, and the device decoding system 24 is configured to decompress the compressed version of the spatial component based at least in part on the prediction mode to obtain the spatial component.

[0508] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de informações de tabela de Huffman que especificam uma tabela de Huffman usada quando se comprime o componente espacial, e o dispositivo de decodificação de áudio 24 é configurado para descomprimir a versão compactada do componente espacial com base, pelo menos em parte, nas informações de tabela de Huffman.[0508] In these and other cases, the compressed version of the spatial component is represented in the bitstream using, at least in part, Huffman table information that specifies a Huffman table used when compressing the spatial component, and the audio decoding device 24 is configured to decompress the compressed version of the spatial component based at least in part on the Huffman table information.

[0509] Nesses e em outros casos, a versão compactada do componente espacial é representado no fluxo de bits com o uso, pelo menos em parte, de um campo que indica um valor que expressa um tamanho de etapa de quantização ou uma variável do mesmo usada quando se comprime o componente espacial, e o dispositivo de decodificação de áudio 24 é configurado para descomprimir a versão compactada do componente espacial com base, pelo menos em parte, no valor.[0509] In these and other cases, the compressed version of the spatial component is represented in the bit stream using, at least in part, a field that indicates a value that expresses a quantization step size or a variable thereof. used when compressing the spatial component, and the audio decoding device 24 is configured to decompress the compressed version of the spatial component based at least in part on the value.

[0510] Nesses e em outros casos, o valor compreende um valor nbits.[0510] In these and other cases, the value comprises an nbits value.

[0511] Nesses e em outros casos, o fluxo de bits compreende uma versão compactada de uma pluralidade de componentes espaciais do campo sonoro cuja versão compactada do componente espacial está incluída, o valor expressa o tamanho de etapa de quantização ou uma variável da mesma usada quando se comprime a pluralidade de componentes espaciais e o dispositivo de decodificação de áudio 24 é configurado para descomprimir a pluralidade de versão compactada do componente espacial com base, pelo menos em parte, no valor.[0511] In these and other cases, the bit stream comprises a compressed version of a plurality of spatial components of the sound field whose compressed version of the spatial component is included, the value expresses the quantization step size or a variable thereof used when the plurality of spatial components is compressed and the audio decoding device 24 is configured to decompress the plurality of compressed version of the spatial component based at least in part on the value.

[0512] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de um código de Huffman para representar um identificador de categoria que identifica uma categoria de compactação à qual o componente espacial corresponde e o dispositivo de decodificação de áudio 24 é configurado para descomprimir a versão compactada do componente espacial com base, pelo menos em parte, no código de Huffman.[0512] In these and other cases, the compressed version of the spatial component is represented in the bitstream using, at least in part, a Huffman code to represent a category identifier that identifies a compression category to which the spatial component corresponds and the audio decoding device 24 is configured to decompress the compressed version of the spatial component based, at least in part, on the Huffman code.

[0513] Nesses e em outros casos, a versão compactada do componente espacial é representado no fluxo de bits com o uso de, pelo menos em parte, um bit de sinal que identifica se o componente espacial é um valor positivo ou m valor negativo, e o dispositivo de decodificação de áudio 24 é configurado para descomprimir a versão compactada do componente espacial com base, pelo menos em parte, no bit de sinal.[0513] In these and other cases, the compressed version of the spatial component is represented in the bit stream using, at least in part, a sign bit that identifies whether the spatial component is a positive value or a negative m value, and the audio decoding device 24 is configured to decompress the compressed version of the spatial component based at least in part on the signal bit.

[0514] Nesses e em outros casos, a versão compactada do componente espacial é representado no fluxo de bits com o uso, pelo menos em parte, de um código de Huffman para representar um valor residual do componente espacial e o dispositivo de decodificação de áudio 24 é configurado para descomprimir a versão compactada do componente espacial com base, pelo menos em parte, no código de Huffman incluído no livro de códigos de Huffman identificado.[0514] In these and other cases, the compressed version of the spatial component is represented in the bitstream using, at least in part, a Huffman code to represent a residual value of the spatial component and the audio decoding device. 24 is configured to decompress the compressed version of the spatial component based, at least in part, on the Huffman code included in the identified Huffman codebook.

[0515] Em cada um dos vários casos descritos acima, deveria ser compreendido que o dispositivo de decodificação de áudio 24 pode realizar um método ou de outra forma compreende meios para realizar cada etapa do método para o qual o dispositivo de decodificação de áudio 24 é configurado para realizar em alguns casos, esses meios podem compreende um ou mais processadores. Em alguns casos, os um ou mais processadores podem representar um processador de propósito especial configurado por meio de instruções armazenadas em um meio de armazenamento legível por computador não transitório. Em outras palavras, vários aspectos dos conjuntos de procedimentos em cada um dos conjuntos de exemplos de codificação podem fornecer um meio de armazenamento legível por computador não transitório que tem armazenado no mesmo instruções que, quando executadas, fazem com que os um ou mais processadores realizem o método para o qual o dispositivo de decodificação de áudio 24 foi configurado para realizar.[0515] In each of the various cases described above, it should be understood that the audio decoding device 24 may perform a method or otherwise comprises means for performing each step of the method for which the audio decoding device 24 is configured to perform in some cases, these means may comprise one or more processors. In some cases, the one or more processors may represent a special-purpose processor configured through instructions stored on a non-transient computer-readable storage medium. In other words, various aspects of the sets of procedures in each of the sets of coding examples can provide a non-transient computer-readable storage medium that has stored instructions that, when executed, cause the one or more processors to perform the method for which the audio decoding device 24 was configured to perform.

[0516] A Figura 6 é um fluxograma que ilustra a operação exemplificativa de uma unidade de análise de conteúdo de um dispositivo de codificação de áudio, como a unidade de análise de conteúdo 26 mostrada no exemplo da Figura 4, na realização de vários aspectos dos conjuntos de procedimentos descritos nesta revelação.[0516] Figure 6 is a flowchart illustrating the exemplary operation of a content analysis unit of an audio encoding device, such as the content analysis unit 26 shown in the example of Figure 4, in carrying out various aspects of the sets of procedures described in this disclosure.

[0517] A unidade de análise de conteúdo 26 pode, quando se determina se os coeficientes de HOA 11 representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético, obter um quadro de coeficientes de HOA (93), que pode ser de tamanho 25 por 1024 para uma representação de quarta ordem (isto é, N = 4). Após obter os coeficientes de HOA com quadro (que também pode ser denotados no presente documento como uma matriz de SHC com quadro 11 e subsequentes matrizes de SHC com quadro podem ser denotadas como matrizes de SHC com quadro 27B, 27C, etc.), a unidade de análise de conteúdo 26 pode, então, excluir o primeiro vetor dos coeficientes de HOA com quadro 11 para gerar coeficientes de HOA com quadro reduzidos(94).[0517] The content analysis unit 26 can, when determining whether representative HOA coefficients 11 of a sound field are generated from a synthetic audio object, obtain a table of HOA coefficients (93), which can be of size 25 by 1024 for a fourth-order representation (that is, N = 4). After obtaining the framed HOA coefficients (which may also be denoted herein as a framed SHC matrix 11 and subsequent framed SHC matrices may be denoted as framed SHC matrices 27B, 27C, etc.), the content analysis unit 26 can then exclude the first vector of framed HOA coefficients 11 to generate reduced frame HOA coefficients(94).

[0518] A unidade de análise de conteúdo 26 pode, então, prever o primeiro vetor não zero dos coeficientes de HOA com quadro reduzidos a partir dos vetores remanescentes dos coeficientes de HOA com quadro reduzidos(95). Após prever o primeiro vetor não zero, a unidade de análise de conteúdo 26 pode obter um erro com base no primeiro vetor não zero previsto e o vetor não zero real (96). Uma vez que o erro é obtido, a unidade de análise de conteúdo 26 pode computar uma razão com base em uma energia do primeiro vetor não zero real e o erro (97). A unidade de análise de conteúdo 26 pode, então, comparar essa razão a um limite (98). Quando a razão não excede o limite (“NÃO” 98), a unidade de análise de conteúdo 26 pode determinar que a matriz de SHC com quadro 11 é gerada a partir de uma gravação e indica no fluxo de bits que a representação codificada correspondentes da matriz de SHC 11 foi gerada a partir de uma gravação (100, 101). Quando a razão excede o limite (“SIM” 98), a unidade de análise de conteúdo 26 pode determinar que a matriz de SHC com quadro 11 é gerada a partir de um objeto de áudio sintético e indica no fluxo de bits que a representação codificada correspondente da matriz de SHC 11 foi gerada a partir de um objeto de áudio sintético (102, 103). Em alguns casos, quando a matriz de SHC com quadro 11 foi gerada a partir de uma gravação, a unidade de análise de conteúdo 26 passa a matriz de SHC com quadro 11 para a síntese à base de vetor unidade 27 (101). Em alguns casos, quando a matriz de SHC com quadro 11 foi gerada a partir de um objeto de áudio sintético, a unidade de análise de conteúdo 26 passa a matriz de SHC com quadro 11 para a unidade de síntese à base de direcional 28 (104).[0518] The content analysis unit 26 can then predict the first non-zero vector of reduced frame HOA coefficients from the remaining vectors of reduced frame HOA coefficients(95). After predicting the first non-zero vector, the content analysis unit 26 may obtain an error based on the first predicted non-zero vector and the actual non-zero vector (96). Once the error is obtained, the content analysis unit 26 can compute a ratio based on an energy of the real non-zero first vector and the error (97). The content analysis unit 26 can then compare this ratio to a threshold (98). When the ratio does not exceed the threshold ("NO" 98), the content analysis unit 26 can determine that the framed SHC matrix 11 is generated from a recording and indicates in the bitstream that the corresponding encoded representation of the SHC 11 array was generated from a recording (100, 101). When the ratio exceeds the threshold ("YES" 98), the content analysis unit 26 can determine that the SHC matrix with frame 11 is generated from a synthetic audio object and indicates in the bitstream that the encoded representation corresponding matrix of SHC 11 was generated from a synthetic audio object (102, 103). In some cases, when the frame 11 SHC matrix has been generated from a recording, the content analysis unit 26 passes the frame 11 SHC matrix to the unit vector based synthesis 27 (101). In some cases, when the frame 11 SHC matrix was generated from a synthetic audio object, the content analysis unit 26 passes the frame 11 SHC matrix to the directional-based synthesis unit 28 (104 ).

[0519] A Figura 7 é um fluxograma que ilustra a operação exemplificativa de um dispositivo de codificação de áudio, como o dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4, na realização de vários aspectos dos conjuntos de procedimentos de síntese à base de vetor descritos nesta revelação. Inicialmente, o dispositivo de codificação de áudio 20 recebe os coeficientes de HOA 11 (106). O dispositivo de codificação de áudio 20 pode invocar a unidade de LIT 30, que pode aplicar uma LIT em relação aos coeficientes de HOA para emitir coeficientes de HOA transformados (por exemplo, no caso de SVD, em que os coeficientes de HOA transformados podem compreender os vetores US[k] 33 e os vetores V[k] 35) (107).[0519] Figure 7 is a flowchart illustrating the exemplary operation of an audio encoding device, such as the audio encoding device 20 shown in the example of Figure 4, in carrying out various aspects of the sets of based synthesis procedures. vectors described in this disclosure. Initially, the audio encoding device 20 receives the HOA coefficients 11 (106). The audio coding device 20 may invoke the LIT unit 30, which may apply an LIT against the HOA coefficients to output transformed HOA coefficients (e.g. in the case of SVD, where the transformed HOA coefficients may comprise the US[k] 33 vectors and the V[k] 35 vectors) (107).

[0520] O dispositivo de codificação de áudio 20 pode, a seguir, invocar a unidade de cálculo de parâmetro 32 para realizar a análise descrita acima em relação a qualquer combinação dos vetores US[k] 33, vetores US[k-1] 33, os vetores V[k] e/ou V[k-1] 35 para identificar vários parâmetros da forma descrita acima. Isto é, a unidade de cálculo de parâmetro 32 pode determinar pelo menos um parâmetro com base em uma análise dos coeficientes de HOA transformados 33/35 (108).[0520] Audio encoding device 20 may then invoke parameter calculation unit 32 to perform the analysis described above with respect to any combination of US[k]33 vectors, US[k-1]33 vectors , the vectors V[k] and/or V[k-1] 35 to identify various parameters as described above. That is, the parameter calculation unit 32 can determine at least one parameter based on an analysis of the transformed HOA coefficients 33/35 (108).

[0521] O dispositivo de codificação de áudio 20 pode, então, invocar a unidade de reordenação 34, que pode reordenar os coeficientes de HOA transformados (que, novamente no contexto de SVD, pode se referir aos vetores XJS[k] 33 e aos vetores V[k] 35) com base no parâmetro para gerar coeficientes de HOA transformados reordenados 33735’ (ou, em outras palavras, os vetores XJS[k] 33’ e os vetores V[k] 35’), conforme descrito acima (109). O dispositivo de codificação de áudio 20 pode, durante qualquer uma das operações de primeiro plano ou operações subsequentes, também invocar a unidade de análise de campo sonoro 44. A unidade de análise de campo sonoro 44 pode, conforme descrito acima, realizar uma análise de campo sonoro em relação aos coeficientes de HOA 11 e/ou aos coeficientes de HOA transformados 33/35 para determinar o número total de canais de primeiro plano (nFG) 45, a ordem do campo sonoro de segundo plano (NBG) e o número (NBGa) e índices (i) de canais de HOA de BG para enviar (que podem coletivamente ser denotados como informações de canal de segundo plano 43 no exemplo da Figura 4) (109).[0521] The audio encoding device 20 can then invoke the reordering unit 34, which can reorder the transformed HOA coefficients (which, again in the context of SVD, can refer to the XJS[k] vectors 33 and the vectors V[k] 35) based on the parameter to generate reordered transformed HOA coefficients 33735' (or, in other words, the vectors XJS[k] 33' and the vectors V[k] 35'), as described above ( 109). The audio encoding device 20 may, during any of the foreground operations or subsequent operations, also invoke the sound field analysis unit 44. The sound field analysis unit 44 may, as described above, perform a sound field analysis unit 44. sound field in relation to HOA coefficients 11 and/or transformed HOA coefficients 33/35 to determine the total number of foreground channels (nFG) 45, the order of the background sound field (NBG) and the number ( NBGa) and indices (i) of BG HOA channels to send (which may collectively be denoted as background channel information 43 in the example of Figure 4) (109).

[0522] O dispositivo de codificação de áudio 20 também pode invocar a unidade de seleção de segundo plano 48. A unidade de seleção de segundo plano 48 pode determinar coeficientes de HOA de ambiente ou segundo plano 47 com base nas informações de canal de segundo plano 43 (110). O dispositivo de codificação de áudio 20 pode invocar, adicionalmente, a unidade de seleção de primeiro plano 36, que pode selecionar aqueles dentre os vetores XJS[k] reordenados 33’ e os vetores V[k] reordenados 35’ que representam componentes distintos ou de primeiro plano do campo sonoro com base em nFG 45 (que pode representar um ou mais índices que identificam esses vetores de primeiro plano) (112).[0522] Audio encoding device 20 may also invoke background selection unit 48. Background selection unit 48 may determine ambient or background HOA coefficients 47 based on background channel information 43 (110). The audio encoding device 20 can additionally invoke the foreground selection unit 36, which can select those among the reordered XJS[k] vectors 33' and the reordered V[k] vectors 35' representing distinct components or foreground of the sound field based on nFG 45 (which may represent one or more indices that identify these foreground vectors) (112).

[0523] O dispositivo de codificação de áudio 20 pode invocar a unidade de compensação de energia 38. A unidade de compensação de energia 38 pode realizar compensação de energia em relação aos coeficientes de HOA de ambiente 47 para compensar pela perda de energia devido à remoção de vários canais dentre os canais de HOA pela unidade de seleção de segundo plano 48 (114) e gerar assim os coeficientes de HOA de ambiente compensados por energia 47’.[0523] Audio encoding device 20 may invoke power compensation unit 38. Power compensation unit 38 may perform power compensation against ambient HOA coefficients 47 to compensate for power loss due to removal of several channels among the HOA channels by the background selection unit 48 (114) and thereby generate the energy compensated ambient HOA coefficients 47'.

[0524] O dispositivo de codificação de áudio 20 pode, então, invocar a unidade de interpolação espaço- temporal 50. A unidade de interpolação espaço-temporal 50 pode realizar interpolação espaço-temporal em relação aos coeficientes de HOA transformados reordenados 33735’ para obter os sinais de primeiro plano interpolados 49’ (que também podem ser chamados de “sinais de nFG interpolados 49”‘) e as informações direcionais de primeiro plano remanescentes 53 (que também podem ser chamadas os “vetores Y[k] 53”) (116). O dispositivo de codificação de áudio 20 pode, então, invocar uma unidade de redução de coeficiente 46. A unidade de redução de coeficiente 46 pode realizar a redução de coeficiente em relação aos vetores V[k] de primeiro plano remanescentes 53 com base nas informações de canal de segundo plano 43 para obter informações direcionais de primeiro plano reduzidas 55 (que também podem ser chamadas de vetores de primeiro plano reduzidos V[k] 55) (118).[0524] The audio encoding device 20 may then invoke the spatiotemporal interpolation unit 50. The spatiotemporal interpolation unit 50 may perform spatiotemporal interpolation against the reordered transformed HOA coefficients 33735' to obtain the interpolated foreground signals 49' (which may also be called the "interpolated nFG signals 49"') and the remaining foreground directional information 53 (which may also be called the "Y[k] vectors 53") ( 116). The audio encoding device 20 can then invoke a coefficient reduction unit 46. The coefficient reduction unit 46 can perform coefficient reduction with respect to the remaining foreground vectors V[k] 53 based on the information 43 to obtain reduced foreground directional information 55 (which may also be called reduced foreground vectors V[k] 55) (118).

[0525] O dispositivo de codificação de áudio 20 pode, então, invocar a unidade de quantização 52 para comprimir, da forma descrita acima, os vetores de primeiro plano reduzidos V[k] 55 e gerar vetores V[ k] de primeiro plano codificados 57 (120).[0525] The audio encoding device 20 can then invoke the quantization unit 52 to compress, in the manner described above, the reduced foreground vectors V[k] 55 and generate coded foreground vectors V[k] 57 (120).

[0526] O dispositivo de codificação de áudio 20 também pode invocar a unidade codificadora de áudio psicoacústico 40. A unidade codificadora de áudio psicoacústico 40 pode codificar por psicoacústico cada vetor dos coeficientes de HOA de ambiente compensados por energia 47’ e os sinais de nFG interpolados 49’ para gerar coeficientes de HOA de ambiente codificados 59 e sinais de nFG codificados 61. O dispositivo de codificação de áudio pode, então, invocar a unidade de geração de fluxo de bits 42. A unidade de geração de fluxo de bits 42 pode gerar o fluxo de bits 21 com base nas informações direcionais de primeiro plano codificadas 57, os coeficientes de HOA de ambiente codificados 59, os sinais de nFG codificados 61 e as informações de canal de segundo plano 43.[0526] Audio encoding device 20 may also invoke psychoacoustic audio encoding unit 40. Psychoacoustic audio encoding unit 40 may psychoacoustically encode each vector of energy compensated ambient HOA coefficients 47' and nFG signals interpolated 49' to generate encoded ambient HOA coefficients 59 and encoded nFG signals 61. The audio encoding device may then invoke the bitstream generation unit 42. The bitstream generation unit 42 may generating bitstream 21 based on encoded foreground directional information 57, encoded ambient HOA coefficients 59, encoded nFG signals 61, and background channel information 43.

[0527] A Figura 8 é um fluxograma que ilustra a operação exemplificativa de um dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24 mostrado na Figura 5, na realização de vários aspectos dos conjuntos de procedimentos descritos nesta revelação. Inicialmente, o dispositivo de decodificação de áudio 24 pode receber o fluxo de bits 21 (130). Mediante o recebimento de fluxo de bits, o dispositivo de decodificação de áudio 24 pode invocar a unidade de extração 72. Presumindo para propósitos de discussão que o fluxo de bits 21 indica que a reconstrução à base de vetor deve ser realizada, o dispositivo de extração 72 pode analisar esse fluxo de bits para recuperar as informações notadas acima, passando essas informações para a unidade de reconstrução à base de vetor 92.[0527] Figure 8 is a flowchart illustrating the exemplary operation of an audio decoding device, such as the audio decoding device 24 shown in Figure 5, in performing various aspects of the sets of procedures described in this disclosure. Initially, the audio decoding device 24 can receive the bit stream 21 (130). Upon receiving the bitstream, the audio decoding device 24 may invoke the extraction unit 72. Assuming for purposes of discussion that the bitstream 21 indicates that vector-based reconstruction is to be performed, the extraction device 72 can parse this bit stream to retrieve the information noted above, passing that information to the vector-based reconstruction unit 92.

[0528] Em outras palavras, a unidade de extração 72 pode extrair as informações direcionais de primeiro plano codificadas 57 (que, novamente, também podem ser chamadas de vetores de primeiro plano codificados V[k] 57), os coeficientes de HOA de ambiente codificados 59 e os sinais de primeiro plano codificados (que também podem ser chamados de sinais de nFG de primeiro plano codificados 59 ou os objetos de áudio de primeiro plano codificados 59) a partir do fluxo de bits 21 da forma descrita acima (132).[0528] In other words, the extraction unit 72 can extract the coded foreground directional information 57 (which, again, can also be called the coded foreground vectors V[k] 57), the ambient HOA coefficients 59 and the encoded foreground signals (which may also be called the encoded foreground nFG signals 59 or the encoded foreground audio objects 59) from the bit stream 21 as described above (132).

[0529] O dispositivo de decodificação de áudio 24 pode, adicionalmente, invocar a unidade de quantização 74. A unidade de quantização 74 pode desquantificar e decodificar por entropia as informações direcionais de primeiro plano codificadas 57 para obter informações direcionais de primeiro plano reduzidas 55k (136). O dispositivo de decodificação de áudio 24 também pode invocar a unidade de decodificação psicoacústica 80. A unidade de codificação de áudio psicoacústica 80 pode decodificar os coeficientes de HOA de ambiente codificados 59 e os sinais de primeiro plano codificados 61 para obter coeficientes de HOA de ambiente compensados por energia 47’ e os sinais de primeiro plano interpolados 49’ (138). A unidade de decodificação psicoacústica 80 pode passar os coeficientes HOA de ambiente compensados por energia 47’ para unidade de formulação de coeficiente de HOA 82 e os sinais de nFG 49’ para a unidade reordenação 84.[0529] The audio decoding device 24 may additionally invoke the quantization unit 74. The quantization unit 74 may entropy dequantize and decode the encoded foreground directional information 57 to obtain reduced foreground directional information 55k ( 136). The audio decoding device 24 can also invoke the psychoacoustic decoding unit 80. The psychoacoustic audio coding unit 80 can decode the encoded ambient HOA coefficients 59 and the encoded foreground signals 61 to obtain ambient HOA coefficients energy compensated 47' and interpolated foreground signals 49' (138). Psychoacoustic decoding unit 80 may pass energy compensated ambient HOA coefficients 47' to HOA coefficient formulation unit 82 and nFG signals 49' to reordering unit 84.

[0530] A unidade de reordenação 84 pode receber elementos de sintaxe indicativos da ordem original dos componentes de primeiro plano dos coeficientes de HOA 11. A unidade de reordenação 84 pode, com base nesses elementos de sintaxe de reordenação, reorganizar os sinais de nFG interpolados 49’ e os vetores V[k] 55 k de primeiro plano reduzidos para gerar sinais de nFG 49” reordenados e vetores V[k] 55k’ de primeiro plano reordenados (140). A unidade de reordenação 84 pode emitir os sinais de nFG 49” reordenados para a unidade de formulação de primeiro plano 78 e os vetores 55k’ V[k] de primeiro plano reordenados para a unidade de interpolação espaço-temporal 76.[0530] The reordering unit 84 may receive syntax elements indicative of the original order of the foreground components of the HOA coefficients 11. The reordering unit 84 may, based on these reordering syntax elements, rearrange the interpolated nFG signals 49' and reduced foreground V[k] 55k vectors to generate reordered 49” nFG signals and reordered foreground V[k] 55k' vectors (140). The reordering unit 84 may output the reordered nFG signals 49" to the foreground formulation unit 78 and the reordered foreground vectors 55k' V[k] to the spatiotemporal interpolation unit 76.

[0531] O dispositivo de decodificação de áudio 24 pode, a seguir, invocar a unidade de interpolação espaço-temporal 76. A unidade de interpolação espaço- temporal 76 pode receber as informações direcionais de primeiro plano reordenadas 55k’ e realizar a interpolação espaço-temporal em relação às informações direcionais de primeiro plano reduzidas para gerar as informações direcionais de primeiro plano interpoladas 55k” (142). A unidade de interpolação espaço-temporal 76 pode transmitir os vetores 55k” V[k] de primeiro plano interpolados para a unidade de formulação de primeiro plano 718.[0531] The audio decoding device 24 may then invoke the spatiotemporal interpolation unit 76. The spatiotemporal interpolation unit 76 may receive the reordered foreground directional information 55k' and perform the spatiotemporal interpolation. time relative to the reduced foreground directional information to generate the 55k interpolated foreground directional information” (142). The spatiotemporal interpolation unit 76 may transmit the interpolated foreground vectors 55k” V[k] to the foreground formulation unit 718.

[0532] O dispositivo de decodificação de áudio 24 pode invocar a unidade de formulação de primeiro plano 78. A unidade de formulação de primeiro plano 78 pode realizar a multiplicação de matriz dos sinais de primeiro plano interpolados 49” pelas informações direcionais de primeiro plano interpoladas 55k” para obter os coeficientes de HOA de primeiro plano 65 (144). O dispositivo de decodificação de áudio 24 também pode invocar a unidade de formulação de coeficiente de HOA 82. A unidade de formulação de coeficiente de HOA 82 pode adicionar os coeficientes de HOA de primeiro plano 65 aos canais de HOA de ambiente 47’ com a finalidade de obter os coeficientes de HOA 11 ‘ (146).[0532] Audio decoding device 24 may invoke foreground formulation unit 78. Foreground formulation unit 78 may perform matrix multiplication of interpolated foreground signals 49" by interpolated foreground directional information 55k” to get the foreground HOA coefficients 65 (144). The audio decoding device 24 may also invoke the HOA coefficient formulation unit 82. The HOA coefficient formulation unit 82 may add the foreground HOA coefficients 65 to the ambient HOA channels 47' for the purpose of to obtain the HOA coefficients 11' (146).

[0533] As Figuras 9A a 9L são diagramas de bloco que ilustram vários aspectos do dispositivo de codificação de áudio 20 do exemplo da Figura 4 em mais detalhes. A Figura 9A é um diagrama de blocos que ilustra a unidade de LIT 30 do dispositivo de codificação de áudio 20 em maiores detalhes. Conforme mostrado no exemplo da Figura 9A, a unidade de LIT 30 pode incluir múltiplas transformadas invertíveis lineares diferentes 200-200N. A unidade de LIT 30 pode incluir, para fornecer alguns exemplos, uma transformada de decomposição de valor singular (SVD) 200A (“SVD 200A”), uma transformada de análise de componente principal(PCA) 200B (“PCA 200B”), uma transformada de Karhunen-Loeve (KLT) 200C (“KLT 200C”), uma transformada de Fourier rápida (FFT) 200D (“FFT 200D”) e uma transformada de cosseno discreta (DCT) 200N (“DCT 200N”). A unidade de LIT 30 pode invocar qualquer uma das transformadas invertíveis lineares 200 para aplicar a respectiva transformada em relação aos coeficientes de HOA 11 e gerar os respectivos coeficientes de HOA transformados 33/35.[0533] Figures 9A to 9L are block diagrams illustrating various aspects of the audio encoding device 20 of the example of Figure 4 in more detail. Figure 9A is a block diagram illustrating the LIT unit 30 of the audio encoding device 20 in greater detail. As shown in the example of Figure 9A, the LIT unit 30 can include multiple different linear invertible transforms 200-200N. The LIT unit 30 may include, to provide some examples, a singular value decomposition transform (SVD) 200A ("SVD 200A"), a principal component analysis transform (PCA) 200B ("PCA 200B"), a Karhunen-Loeve transform (KLT) 200C ("KLT 200C"), a fast Fourier transform (FFT) 200D ("FFT 200D") and a discrete cosine transform (DCT) 200N ("DCT 200N"). The LIT unit 30 can invoke any of the linear invertible transforms 200 to apply the respective transform with respect to the HOA coefficients 11 and generate the respective transformed HOA coefficients 33/35.

[0534] Embora sejam descritos como sendo realizados diretamente em relação aos coeficientes de HOA 11, a unidade de LIT 30 pode aplicar as transformadas invertíveis lineares 200 a derivados dos coeficientes de HOA 11. Por exemplo, a unidade de LIT 30 pode aplicar a SVD 200 em relação a uma matriz de densidade espectral de potência derivada dos coeficientes de HOA 11. A matriz de densidade espectral de potência pode ser denotada como PSD e obtida através da multiplicação de matriz da transposta do hoaFrame para o hoaFrame, conforme destacado no pseudocódigo que segue a abaixo. A notação de hoaFrame se refere a um quadro dos coeficientes de HOA 11.[0534] Although described as being performed directly with respect to HOA 11 coefficients, the LIT unit 30 can apply the linear invertible transforms 200 to derivatives of the HOA coefficients 11. For example, the LIT unit 30 can apply the SVD 200 against a power spectral density matrix derived from the HOA coefficients 11. The power spectral density matrix can be denoted as PSD and obtained by matrix multiplication of the transpose of the hoaFrame to the hoaFrame, as highlighted in the pseudocode that follow below. The hoaFrame notation refers to a frame of HOA 11 coefficients.

[0535] A unidade de LIT 30 pode, após a aplicar a SVD 200 (svd) à PSD, pode obter uma matriz S[k]2 (S quadrático) e uma matriz V[k]. A matriz S[k]2 pode denotar uma matriz S[k] quadrática, mediante a qual a unidade de LIT 30 (ou, alternativamente, a unidade de SVD 200 como um exemplo) pode aplicar uma operação de raiz quadrada à matriz S[k]2 para obter a matriz S[k]. A unidade de SVD 200 pode, em alguns casos, realizar a quantização em relação à matriz V[k] para obter uma matriz V[k] quantificada (que pode ser denotada como a matriz V[&]’). A unidade de LIT 30 pode obter a matriz U[k] multiplicando-se primeiro a matriz S[k] pela matriz V[&]’ quantificada para obter uma matriz SV[k]’. A unidade de LIT 30 pode obter a seguir o pseudoinverso (pinv) da matriz SV[k]’ e então multiplicar os coeficientes de HOA 11 pelo pseudoinverso da matriz SV[k]’ para obter a matriz U[k]. A primeiro plano pode ser representado pelo seguinte pseudo-código:

Figure img0043
[0535] The unit of LIT 30 can, after applying the SVD 200 (svd) to the PSD, can obtain a matrix S[k]2 (Squadratic) and a matrix V[k]. The matrix S[k]2 can denote a quadratic matrix S[k] whereby the unit of LIT 30 (or alternatively the unit of SVD 200 as an example) can apply a square root operation to the matrix S[ k]2 to obtain the matrix S[k]. The SVD unit 200 can, in some cases, quantize against the matrix V[k] to obtain a quantized matrix V[k] (which can be denoted as the matrix V[&]'). The LIT unit 30 can obtain the matrix U[k] by first multiplying the matrix S[k] by the quantized matrix V[&]' to obtain a matrix SV[k]'. The unit of LIT 30 can then obtain the pseudoinverse (pinv) of the matrix SV[k]' and then multiply the coefficients of HOA 11 by the pseudoinverse of the matrix SV[k]' to obtain the matrix U[k]. The foreground can be represented by the following pseudo-code:
Figure img0043

[0536] Realizando se SVD em relação à densidade espectral de potência (PSD) dos coeficientes de HOA ao invés dos próprios coeficientes, a unidade de LIT 30 pode potencialmente reduzir a complexidade computacional da realização da SVD em termos de um ou mais dos ciclos de processador e espaço de armazenamento, enquanto alcança a mesma eficácia de codificação de áudio fonte como se a SVD fosse aplicada diretamente aos coeficientes de HOA. Isto é, a SVD do tipo PSD descrita acima pode ser potencialmente menos computacionalmente exigente porque a SVD é feita em uma matriz F*F (com F o número de coeficientes de HOA). Em comparação a uma matriz M * F com M como o comprimento de quadro, isto é, 1024 ou mais amostras. A complexidade de uma SVD pode agora, através da aplicação à PSD ao invés dos coeficientes de HOA 11, estar ao redor de 0(LA3) em comparação a 0(M*LA2) quando aplicados aos coeficientes de HOA 11 (em que 0(*) denota a notação de grande 0 de complexidade de computação comum às artes de ciência de computação).[0536] By performing SVD against the power spectral density (PSD) of the HOA coefficients rather than the coefficients themselves, the LIT 30 unit can potentially reduce the computational complexity of performing the SVD in terms of one or more of the cycles of processor and storage space, while achieving the same source audio coding efficiency as if SVD were applied directly to the HOA coefficients. That is, the PSD-type SVD described above can potentially be less computationally demanding because the SVD is done on an F*F matrix (with F the number of HOA coefficients). Compared to an M * F matrix with M as the frame length, i.e. 1024 or more samples. The complexity of an SVD can now, through application to PSD rather than HOA 11 coefficients, be around 0(LA3) compared to 0(M*LA2) when applied to HOA 11 coefficients (where 0( *) denotes the large 0 computing complexity notation common to the computer science arts).

[0537] A Figura 9B é um diagrama de blocos que ilustra uma unidade de LIT 32 do dispositivo de codificação de áudio 20 em maiores detalhes. a unidade de cálculo de parâmetro 32 pode incluir uma unidade de análise de energia 202 e uma unidade de correlação cruzada 204. A unidade de análise de energia 202 pode realizar a análise de energia descrita acima em relação a um ou mais dos vetores US[k] 33 e aos vetores V[k] 35 para gerar um ou mais dentre o parâmetro de correlação (R), os parâmetros de propriedades direcionais (θ, cp, r), e a propriedade de energia (e) para um ou mais dentre o quadro atual (k) ou o quadro anterior (-1). Da mesma forma, a unidade de correlação cruzada 204 pode realizar a correlação cruzada descrita acima em relação a um ou mais dos vetores XJS[k] 33 e os vetores V[k] 35 para gerar um ou mais dentre o parâmetro de correlação (R), os parâmetros de propriedades direcionais (θ, cp, r), e a propriedade de energia (e) para um ou mais dentre o quadro atual (k) ou o quadro anterior (-1). A unidade de cálculo de parâmetro 32 pode emitir os parâmetros de quadro atual 37 e os parâmetros de quadro anterior 39.[0537] Figure 9B is a block diagram illustrating a LIT unit 32 of audio encoding device 20 in greater detail. the parameter calculation unit 32 may include an energy analysis unit 202 and a cross correlation unit 204. The energy analysis unit 202 may perform the energy analysis described above with respect to one or more of the vectors US[k ] 33 and the vectors V[k] 35 to generate one or more of the correlation parameter (R), the directional property parameters (θ, cp, r), and the energy property (e) for one or more of the current frame (k) or the previous frame (-1). Likewise, the cross-correlation unit 204 can perform the cross-correlation described above against one or more of the vectors XJS[k] 33 and the vectors V[k] 35 to generate one or more of the correlation parameter (R ), the parameters of directional properties (θ, cp, r), and the energy property (e) for one or more of the current frame (k) or the previous frame (-1). The parameter calculation unit 32 can output current frame parameters 37 and previous frame parameters 39.

[0538] A Figura 9A é um diagrama de blocos que ilustra a unidade de LIT 34 do dispositivo de codificação de áudio 20 em maiores detalhes. A unidade de reordenação 34 inclui uma unidade de avaliação de parâmetro 206 e uma unidade de reordenação de vetor 208. A unidade de avaliação de parâmetro 206 representa uma unidade configurada para avaliar os parâmetros de quadro anterior 39 e os parâmetros de quadro atual 37 da forma descrita acima para gerar índices de reordenação 205. Os índices de reordenação 205 incluem índices que identificam como os vetores dentre os vetores US [A:] 33 e os vetores dentre os vetores V[k] 35 devem ser reordenados (por exemplo, por pares de índice com o primeiro índice do par que identifica o índice da localização de vetor atual e o segundo índice do par que identifica a localização reordenada do vetor). A unidade de reordenação de vetor 208 representa uma unidade configurada para reordenar os vetores XJS[k] 33 e os vetores V[k] 35 de acordo com os índices de reordenação 205. A unidade de reordenação 34 pode emitir os vetores XJS[k] reordenados 33’ e os vetores V[k] reordenados 35’, enquanto também passa os índices de reordenação 205 como um ou mais elementos de sintaxe para a unidade de geração de fluxo de bits 42.[0538] Figure 9A is a block diagram illustrating the LIT unit 34 of the audio encoding device 20 in greater detail. The reordering unit 34 includes a parameter evaluating unit 206 and a vector reordering unit 208. The parameter evaluating unit 206 represents a unit configured to evaluate the previous frame parameters 39 and the current frame parameters 37 in the form described above for generating reordering indices 205. Reordering indices 205 include indices that identify how vectors among vectors US[A:] 33 and vectors among vectors V[k] 35 are to be reordered (e.g., pairwise). index with the first index of the pair identifying the index of the current vector location and the second index of the pair identifying the reordered location of the vector). Vector reordering unit 208 represents a unit configured to reorder vectors XJS[k] 33 and vectors V[k] 35 according to reorder indices 205. Reorder unit 34 can output vectors XJS[k] reordered 33' and the reordered vectors V[k] 35', while also passing the reordering indices 205 as one or more syntax elements to the bitstream generating unit 42.

[0539] A Figura 9D é um diagrama de blocos que ilustra a unidade de análise de campo sonoro 44 do dispositivo de codificação de áudio 20 em maiores detalhes. Conforme mostrado no exemplo da Figura 9D, a unidade de análise de campo sonoro 44 pode incluir uma unidade de análise de valor singular 210A, uma unidade de análise de energia 210B, uma unidade de análise espacial 2 10c, uma unidade de análise de mascaramento espacial 210D, uma unidade de análise de difusão 210E e uma unidade de análise direcional 21 OF. A unidade de análise de valor singular 210A pode representar uma unidade configurada para analisar a inclinação da curva criada pelos valores diagonais descendentes de vetores S (formando parte dos vetores XJS[k] 33), em que os grandes valores singulares representam sons de primeiro plano ou distintos e os valores singulares baixos representam componentes de segundo plano do campo sonoro, conforme descrito acima. A unidade de análise de energia 21 OB pode representar uma unidade configurada para determinar a energia dos vetores V[k] 35 em uma base por vetor.[0539] Figure 9D is a block diagram illustrating the sound field analysis unit 44 of the audio encoding device 20 in greater detail. As shown in the example of Figure 9D, the sound field analysis unit 44 may include a single value analysis unit 210A, a power analysis unit 210B, a spatial analysis unit 210c, a spatial masking analysis unit 210B. 210D, a diffusion analysis unit 210E and a directional analysis unit 21 OF. The singular value analysis unit 210A can represent a unit configured to analyze the slope of the curve created by the descending diagonal values of S vectors (forming part of the XJS[k] 33 vectors), where the large singular values represent foreground sounds. or distinct and the low singular values represent background components of the sound field as described above. The energy analysis unit 21 OB may represent a unit configured to determine the energy of vectors V[k] 35 on a per vector basis.

[0540] A unidade de análise espacial 2 10c pode representar uma unidade configurada para realizar A análise de energia espacial descrita acima através da transformação dos coeficientes de HOA 11 no domínio espacial e identificando áreas de energia alta representativas de componentes direcionais do campo sonoro que deveria ser preservado. A unidade de análise de mascaramento espacial 210D pode representar uma unidade configurada para realizar a análise de mascaramento espacial de forma semelhante àquela da análise de energia espacial, exceto que a unidade de análise de mascaramento espacial 210D pode identificar áreas espaciais que são mascaradas por sons de energia superior espacialmente próximos. A unidade de análise de difusão 210E pode representar uma unidade configurada para realizar a análise de difusão descrita acima em relação aos coeficientes de HOA 11 para identificar área de energia difusa que podem representar componentes de segundo plano do campo sonoro. A unidade de análise direcional 21 OF pode representar uma unidade configurada para realizar a análise direcional notada acima que envolve a computação dos vetores \S[k], e realizando-se o quadro e a soma de cada entrada de cada um desses vetores \S[k] para identificar um quociente de direcionalidade. A unidade de análise direcional 21 OF pode fornecer esse quociente de direcionalidade para cada um dos vetores \S[k] para a unidade de identificação (ID) de segundo plano/primeiro plano (BG/FG) 212.[0540] Spatial analysis unit 2 10c may represent a unit configured to perform the spatial energy analysis described above by transforming the HOA coefficients 11 into the spatial domain and identifying high energy areas representative of directional components of the sound field that should be preserved. The 210D spatial masking analysis unit can represent a unit configured to perform spatial masking analysis in a manner similar to that of the spatial energy analysis, except that the 210D spatial masking analysis unit can identify spatial areas that are masked by sounds of superior energy spatially close. The scatter analysis unit 210E may represent a unit configured to perform the scatter analysis described above in relation to HOA coefficients 11 to identify areas of diffuse energy that may represent background components of the sound field. The directional analysis unit 21 OF may represent a unit configured to perform the directional analysis noted above that involves computing the vectors \S[k], and performing the frame and sum of each input of each of these vectors \S [k] to identify a directionality quotient. The directional analysis unit 21 OF can provide this directionality quotient for each of the vectors \S[k] to the foreground/background identification (ID) unit (BG/FG) 212.

[0541] A unidade de análise de campo sonoro 44 também pode incluir a unidade de ID de BG/FG 212, que pode representar uma unidade configurada para determinar o número total de canais de primeiro plano (nFG) 45, a ordem do campo sonoro de segundo plano (NBG) e o número (NBGa) e índices (i) de canais de HOA de BG adicionais para enviar (o que pode ser denotado coletivamente como informações de canal de segundo plano 43 no exemplo da Figura 4) com base em qualquer combinação da análise emita por qualquer combinação de unidades de análise 210-21 OF. A unidade de ID de BG/FG 212 pode determinar o nFG 45 e as informações de canal de segundo plano 43 com a finalidade de alcançar a taxa de bit alvo 41.[0541] Sound field analysis unit 44 may also include BG/FG ID unit 212, which may represent a unit configured to determine the total number of foreground channels (nFG) 45, sound field order (NBG) and the number (NBGa) and indices (i) of additional BG HOA channels to send (which can be collectively denoted as background channel information 43 in the example in Figure 4) based on any combination of analysis output by any combination of analysis units 210-21 OF. BG/FG ID unit 212 can determine nFG 45 and background channel information 43 in order to achieve target bit rate 41.

[0542] A Figura 9E é um diagrama de blocos que ilustra a unidade de seleção de primeiro plano 36 do dispositivo de codificação de áudio 20 em maiores detalhes. A unidade de seleção de primeiro plano 36 inclui uma unidade de análise de vetor 214 que pode analisar ou de outra forma extrair os vetores de US[k] de primeiro plano 49 e os vetores V[k] de primeiro plano 51k identificados pelo elemento de sintaxe nFG 45 a partir dos vetores XJS[k] reordenados 33’ e os vetores V[k] reordenados 35’. A unidade de análise de vetor 214 pode analisar os vários vetores representativos dos componentes de primeiro plano do campo sonoro identificado pela unidade de análise de campo sonoro 44 e especificados pelo elemento de sintaxe de nFG 45 (que também pode ser chamado de informações de canal de primeiro plano 45). Conforme mostrado no exemplo da Figura 9E, a unidade de análise de vetor 214 pode selecionar, em alguns casos, vetores não consecutivos dentro dos vetores XJS[k] de primeiro plano 49 e dos vetores V[k] de primeiro plano 51k para representar os componentes de primeiro plano do campo sonoro. Ademais, a unidade de análise de vetor 214 pode selecionar, em alguns casos, os mesmos vetores (por posição) dos vetores XJS[k] de primeiro plano 49 e os vetores V[k] de primeiro plano 51k para representar os componentes de primeiro plano do campo sonoro.[0542] Figure 9E is a block diagram illustrating the foreground selection unit 36 of the audio encoding device 20 in greater detail. The foreground selection unit 36 includes a vector analysis unit 214 that can analyze or otherwise extract the foreground US[k] vectors 49 and the foreground V[k] vectors 51k identified by the foreground element. nFG 45 syntax from the 33' reordered XJS[k] vectors and 35' reordered V[k] vectors. The vector analysis unit 214 can analyze the various vectors representative of the foreground components of the sound field identified by the sound field analysis unit 44 and specified by the nFG syntax element 45 (which may also be referred to as audio channel information). foreground 45). As shown in the example of Figure 9E, the vector analysis unit 214 may select, in some cases, non-consecutive vectors within the foreground XJS[k] vectors 49 and the foreground V[k] vectors 51k to represent the foreground components of the sound field. Furthermore, the vector analysis unit 214 may select, in some cases, the same vectors (by position) from the foreground XJS[k] vectors 49 and the foreground V[k] vectors 51k to represent the foreground components. sound field plane.

[0543] A Figura 9A é um diagrama de blocos que ilustra uma unidade de LIT 48 do dispositivo de codificação de áudio 20 em maiores detalhes. A unidade de seleção de segundo plano 48 pode determinar coeficientes de HOA de ambiente ou segundo plano 47 com base nas informações de canal de segundo plano (por exemplo, o campo sonoro de segundo plano (NBG) e o número (NBGa) e os índices (i) de canais de HOA de BG adicionais para enviar). Por exemplo, quando NBG for igual a um(1), a unidade de seleção de segundo plano 48 pode selecionar os coeficientes de HOA 11 para cada amostra do quadro de áudio que tem uma ordem igual ou menor do que um(1). A unidade de seleção de segundo plano 48 pode, nesse exemplo, então selecionar os coeficientes de HOA 11 que tem um índice identificado por um dos índices (i) como coeficientes de HOA de BG adicionais, em que o NBGa é fornecido à unidade de geração de fluxo de bits 42 para ser especificado no fluxo de bits 21 com a finalidade de habilitar o dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5, para analisar os coeficientes de HOA de BG 47 a partir do fluxo de bits 21. A unidade de seleção de segundo plano 48 pode, então, emitir os coeficientes de HOA de ambiente 47 para a unidade de compensação de energia 38. Os coeficientes de HOA de ambiente 47 pode ter dimensões D M x [(NBG+1)2 + NBGa].[0543] Figure 9A is a block diagram illustrating a LIT unit 48 of audio encoding device 20 in greater detail. Background selection unit 48 can determine ambient or background HOA coefficients 47 based on background channel information (e.g., background sound field (NBG) and number (NBGa) and indices (i) additional BG HOA channels to send). For example, when NBG is equal to one(1), the background selection unit 48 can select HOA coefficients 11 for each audio frame sample that has an order equal to or less than one(1). The background selection unit 48 can, in this example, then select the HOA coefficients 11 that have an index identified by one of the indices (i) as additional BG HOA coefficients, where the NBGa is provided to the generating unit bitstream 42 to be specified in bitstream 21 for the purpose of enabling the audio decoding device, such as the audio decoding device 24 shown in the example of Figure 5, to analyze the HOA coefficients from BG 47 to from the bit stream 21. The background selection unit 48 may then output the ambient HOA coefficients 47 to the power compensation unit 38. The ambient HOA coefficients 47 may have dimensions DM x [( NBG+1)2 + NBGa].

[0544] Conforme adicionalmente mostrado no exemplo da Figura 10C(i), a porção 258B’ pode incluir subfluxos de bits para vl a vn, em que cada um dos quais inclui um campo de informações de Tabela Huffman 263 e um correspondente dos componentes direcionais comprimidos vl a vn sem incluir o campo de modo de previsão 262. Em todos os outros aspectos, a porção 258B’ pode ser similar à porção 258B.[0544] As further shown in the example of Figure 10C(i), portion 258B' may include bit substreams for vl to vn, each of which includes a Huffman Table information field 263 and a corresponding one from the directional components compressed vl to vn without including predict mode field 262. In all other respects, portion 258B' may be similar to portion 258B.

[0545] A unidade de determinação de energia 218 pode representar uma unidade configurada para identificar o RMS para cada fileira e/ou coluna de uma ou mais dentre a matriz US[k] reordenada 33’ e a matriz V[k] reordenada 35’. A unidade de determinação de energia 38 também pode identificado o RMS para cada fileira e/ou coluna de um ou mais dos canais de primeiro plano selecionados, que podem incluir os sinais de nFG 49 e os vetores V[k] de primeiro plano 511, e os coeficientes de HOA de ambiente de ordem reduzida 47. O RMS para cada fileira e/ou coluna dentre as uma ou mais matriz US[k] reordenada 33’ e a matriz V[k] reordenada 35’ pode ser armazenado em um vetor denotado RMSCOMPLETO, enquanto o RMS para cada fileira e/ou coluna de um ou mais dos sinais nFG 49, os vetores V[k] de primeiro plano 511, e os coeficientes de HOA de ambiente reduzidos em ordem 47 podem ser armazenados em um vetor denotado RMSREDUZIDO- [0519] Em alguns exemplos, para determinar cada RMS das respectivas fileiras e/ou colunas de uma ou mais dentre a matriz US[k] reordenada 33’, a matriz V[k] reordenada 35’, os sinais de nFG 49, os vetores V[k] de primeiro plano 511, e os coeficientes de HOA de ambiente reduzidos em ordem 47, a unidade de determinação de energia 218 pode primeiro aplicar um renderizador de coeficiente de harmônico esférico de referência (SHC) às colunas. A aplicação do renderizador de SHC de referência pela unidade de determinação de energia 218 permite a determinação de RMS no domínio de SHC para determinar a energia do campo sonoro geral descrito por cada fileira e/ou coluna do quadro representado por fileiras e/ou colunas de uma ou mais dentre a matriz XJS[k] reordenada 33’, a matriz V[k] reordenada 35’, os sinais de nFG 49, os vetores V[k] de primeiro plano 51k, e os coeficientes de HOA de ambiente reduzidos em ordem 47. A unidade de determinação de energia 38 pode passar esses vetores de RMSCOMPLETO e RMSREDUZIDO para a unidade de análise de energia 220.[0545] The energy determination unit 218 may represent a unit configured to identify the RMS for each row and/or column of one or more of the 33' reordered US[k] matrix and 35' reordered matrix V[k] . The energy determination unit 38 may also identify the RMS for each row and/or column of one or more of the selected foreground channels, which may include the nFG signals 49 and the foreground V[k] vectors 511, and the reduced-order ambient HOA coefficients 47. The RMS for each row and/or column among the one or more 33' reordered US[k] matrix and 35' reordered matrix V[k] can be stored in a vector denoted RMSCOMPLETE, while the RMS for each row and/or column of one or more of the nFG signals 49, the foreground V[k] vectors 511, and the reduced ambient HOA coefficients in order 47 can be stored in a vector denoted RMSREDUCED- [0519] In some examples, to determine each RMS of the respective rows and/or columns of one or more of the 33' reordered US[k] matrix, 35' reordered V[k] matrix, the signals of nFG 49, the foreground V[k] vectors 511, and the reduced ambient HOA coefficients in order 47, the unit and power determination 218 may first apply a reference spherical harmonic coefficient (SHC) renderer to the columns. Application of the reference SHC renderer by the energy determination unit 218 allows the determination of RMS in the SHC domain to determine the energy of the overall sound field described by each row and/or column of the frame represented by rows and/or columns of one or more of the reordered XJS[k] matrix 33', the reordered matrix V[k] 35', the nFG signals 49, the foreground vectors V[k] 51k, and the reduced ambient HOA coefficients in order 47. The energy determination unit 38 can pass these FULL RMS and LOW RMS vectors to the energy analysis unit 220.

[0546] A unidade de análise de energia 220 pode representar uma unidade configurada para computar um vetor de valor de amplificação Z, de acordo com a seguinte equação: Z = RMS COMPLETO / RMS REDUZIDO - A unidade de análise de energia 220 pode, então, passar esse vetor de valor de amplificação Z para a unidade de amplificação de energia 222. A unidade de amplificação de energia 222 pode representar uma unidade configurada para aplicar esse vetor de valor de amplificação Z ou várias porções do mesmo a um ou mais dos sinais de sinais de nFG 49, dos vetores V[k] de primeiro plano 511, e dos coeficientes de HOA de ambiente reduzidos em ordem 47. Em alguns casos, o vetor de valor de amplificação Z é aplicado somente aos coeficientes de HOA de ambiente reduzidos em ordem 47 de acordo com a seguinte equação HOABG_RED’ = HOABG_REDZT, em que HOABG-RED denota os coeficientes de HOA de ambiente reduzidos em ordem 47, HOABG-RED denota a energia compensada, coeficientes de HOA de ambiente reduzidos 47’ e Zr denota a transposta do vetor Z.[0546] The energy analysis unit 220 may represent a unit configured to compute a Z amplification value vector, according to the following equation: Z = FULL RMS / LOW RMS - The energy analysis unit 220 may then , passing this Z amplification value vector to the power amplification unit 222. The power amplification unit 222 may represent a unit configured to apply this Z amplification value vector or various portions thereof to one or more of the signals of nFG signals 49, the foreground V[k] vectors 511, and the reduced ambient HOA coefficients in order 47. In some cases, the amplification value vector Z is applied only to the reduced ambient HOA coefficients in order 47 according to the following equation HOABG_RED' = HOABG_REDZT, where HOABG-RED denotes reduced ambient HOA coefficients in order 47, HOABG-RED denotes compensated energy, reduced ambient HOA coefficients 47’ and Zr denotes the transpose of the vector Z.

[0547] A Figura 9H é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de interpolação espaço-temporal 50 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. A unidade de interpolação espaço-temporal 50 pode representar uma unidade configurada para receber os vetores V[k] de primeiro plano 51k para o quadro k’th e os vetores V[k-1] de primeiro plano 51k-1 para o quadro anterior (por conseguinte a notação k-1) e realizar interpolação espaço- temporal para gerar vetores de V[k] de primeiro plano interpolados. A unidade de interpolação espaço-temporal 50 pode incluir uma unidade de interpolação V 224 e uma unidade de adaptação de primeiro plano 226.[0547] Figure 9H is a block diagram illustrating, in greater detail, the spatiotemporal interpolation unit 50 of the audio encoding device 20 shown in the example of Figure 4. The spatiotemporal interpolation unit 50 may represent a unit configured to receive the foreground V[k] vectors 51k for the k'th frame and the foreground V[k-1] vectors 51k-1 for the previous frame (hence the k-1 notation) and perform spatiotemporal interpolation to generate interpolated foreground V[k] vectors. The spatiotemporal interpolation unit 50 may include a V interpolation unit 224 and a foreground adaptation unit 226.

[0548] A unidade de interpolação V 224 pode selecionar uma porção dos vetores V[k] de primeiro plano atuais 51k para interpolar com base nas porções remanescentes dos vetores V[k] de primeiro plano atuais 51k e nos vetores V[k-1] de primeiro plano anteriores 51k. A unidade de interpolação V 224 pode selecionar a porção para ser um ou mais dentre os subquadros notados acima ou somente uma única porção indefinida que pode variar em uma base de quadro por quadro. A unidade de interpolação V 224 pode, em alguns casos, selecionar uma única porção de amostra 128 dentre as 1024 amostras dos vetores V[k] de primeiro plano atuais 51k para interpolar. A unidade de interpolação V 224 pode, então, converter cada um dos vetores nos vetores V[k] de primeiro plano atuais 511 e os vetores V[k-1] de primeiro plano anteriores 51k para separar os mapas espaciais separados projetando-se os vetores em uma esfera (com o uso de uma matriz de projeção como uma matriz de projeto T). A unidade de interpolação V 224 pode, então, interpretar os vetores em V como formatos em uma esfera. Para interpolar as matrizes V para a porção de amostra 256, a unidade de interpolação V 224 pode, então, interpolar esses formatos espaciais - e então transformá-los de volta para os vetores de domínio harmônico esférico por meio do inverso da matriz de projeção. Os conjuntos de procedimentos desta revelação podem, desta forma, fornecer uma transição suave entre as matrizes V. A unidade de interpolação V 224 pode, então, gerar os vetores V[k] remanescentes 53, que representam os vetores V[k] de primeiro plano 51k após serem modificados para remover a porção interpolada dos vetores V[k] de primeiro plano 51k. A unidade de interpolação V 224 pode, então, passar os vetores de V[k] de primeiro plano interpolados 51k’ para a unidade de adaptação de nFG 226.[0548] The V interpolation unit 224 can select a portion of the current foreground vectors V[k] 51k to interpolate based on the remaining portions of the current foreground vectors V[k] 51k and the vectors V[k-1 ] foreground earlier 51k. The V interpolation unit 224 may select the portion to be one or more of the subframes noted above or just a single undefined portion which may vary on a frame-by-frame basis. The V interpolation unit 224 may, in some cases, select a single sample portion 128 from among the 1024 samples of the current foreground V[k] vectors 51k to interpolate. The V interpolation unit 224 can then convert each of the vectors into the current foreground V[k] vectors 511 and the previous foreground vectors V[k-1] 51k to separate the separate spatial maps by projecting the vectors on a sphere (using a projection matrix as a design matrix T). The V interpolation unit 224 can then interpret the vectors in V as shapes on a sphere. To interpolate the V matrices for the sample portion 256, the V interpolation unit 224 can then interpolate these spatial formats - and then transform them back into spherical harmonic domain vectors via the inverse of the projection matrix. The sets of procedures from this disclosure can thus provide a smooth transition between the V matrices. The V interpolation unit 224 can then generate the remaining V[k] vectors 53, which represent the V[k] vectors of first 51k plane after being modified to remove the interpolated portion of the 51k foreground V[k] vectors. The V interpolation unit 224 can then pass the interpolated foreground V[k] vectors 51k' to the nFG adaptation unit 226.

[0549] Quando se seleciona uma única porção para a interpolação, a unidade de interpolação V 224 pode gerar um elemento de sintaxe denotado CodedSpatiallnterpolationTime 254, que identifica a duração ou, em outras palavras, o tempo da interpolação (por exemplo, no que se refere ao número de amostras). Quando se seleciona uma única porção para realizar a interpolação de subquadro, a unidade de interpolação V 224 também pode gerar outro elemento de sintaxe denotado SpatiallnterpolationMethod 255, que pode identificar um tipo de interpolação realizada (ou, em alguns casos, seja interpolação foi realizada ou não). A unidade de interpolação espaço-temporal 50 pode emitir esses elementos de sintaxe 254 e 255 para a unidade de geração de fluxo de bits 42.[0549] When a single portion is selected for interpolation, the interpolation unit V 224 can generate a syntax element denoted CodedSpatiallnterpolationTime 254, which identifies the duration or, in other words, the time of the interpolation (for example, in what refers to the number of samples). When a single portion is selected to perform subframe interpolation, the V interpolation unit 224 may also generate another syntax element denoted SpatiallnterpolationMethod 255, which may identify a type of interpolation performed (or, in some cases, whether interpolation was performed or no). The spatiotemporal interpolation unit 50 may output these syntax elements 254 and 255 to the bitstream generating unit 42.

[0550] A unidade de adaptação de nFG 226 pode representar uma unidade configurada para gerar os sinais de nFG adaptados 49’. A unidade de adaptação de nFG 226 pode gerar os sinais de nFG adaptados 49’ obtendo-se primeiro os coeficientes de HOA de primeiro plano através da multiplicação dos sinais de nFG 49 pelos vetores V[k] de primeiro plano 51k. Após obter os coeficientes de HOA de primeiro plano, a unidade de adaptação de nFG 226 pode dividir os coeficientes de HOA de primeiro plano pelos vetores de V[k] de primeiro plano interpolados 53 para obter os sinais de nFG adaptados 49’ (que podem ser chamados de sinais de nFG interpolados 49’ dado que esses sinais são derivados dos vetores de V[k] de primeiro plano interpolados 51k’).[0550] The nFG adaptation unit 226 may represent a unit configured to generate the adapted nFG signals 49'. The nFG adaptor unit 226 can generate the adapted nFG signals 49' by first obtaining the foreground HOA coefficients by multiplying the nFG signals 49 by the foreground vectors V[k] 51k. After obtaining the foreground HOA coefficients, the nFG adaptation unit 226 can divide the foreground HOA coefficients by the interpolated foreground V[k] vectors 53 to obtain the adapted nFG signals 49' (which can be called interpolated nFG signals 49' since these signals are derived from interpolated foreground V[k] vectors 51k').

[0551] A Figura 91 é diagrama de blocos que ilustra, em maiores detalhes, a unidade de redução de coeficiente 46 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. A unidade de redução de coeficiente 46 pode representar uma unidade configurada para realizar a redução de coeficiente em relação aos vetores V[k] de primeiro plano remanescentes 53 com base nas informações de canal de segundo plano 43 para emitir vetores de primeiro plano reduzidos V[k] 55 para a unidade de quantização 52. Os vetores de primeiro plano reduzidos V[k] 55 podem ter dimensões D: [(N+1)2 - (NBG+1)2-NBGa] x nFG.[0551] Figure 91 is a block diagram illustrating in more detail the coefficient reduction unit 46 of the audio encoding device 20 shown in the example of Figure 4. The coefficient reduction unit 46 may represent a configured unit. to perform coefficient reduction with respect to the remaining foreground vectors V[k] 53 based on the background channel information 43 to output reduced foreground vectors V[k] 55 to the quantization unit 52. The vectors foregrounds V[k] 55 can have dimensions D: [(N+1)2 - (NBG+1)2-NBGa] x nFG.

[0552] A unidade de redução de coeficiente 46 pode incluir uma unidade de minimização de coeficiente 228, que pode representar uma unidade configurada para reduzir ou de outra forma minimizar o tamanho de cada um dos vetores V[k] de primeiro plano remanescentes 53 removendo- se quaisquer coeficientes que são levados em conta nos coeficientes de HOA de segundo plano 47 (como identificado pelas informações de canal de segundo plano 43). A unidade de minimização de coeficiente 228 pode remover aqueles coeficientes identificados pelas informações de canal de segundo plano 43 para obter os vetores de primeiro plano reduzidos V[k] 55.[0552] The coefficient reduction unit 46 may include a coefficient minimization unit 228, which may represent a unit configured to reduce or otherwise minimize the size of each of the remaining foreground vectors V[k] 53 by removing - if any coefficients that are taken into account in background HOA coefficients 47 (as identified by background channel information 43). The coefficient minimization unit 228 can remove those coefficients identified by the background channel information 43 to obtain the reduced foreground vectors V[k] 55.

[0553] A Figura 9J é um diagrama de blocos queilustra, em maiores detalhes, a unidade codificadora de áudio psicoacústico 40 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. A unidade codificadora de áudio psicoacústico 40 pode representar uma unidade configurada para realizar codificação psicoacústica em relação aos coeficientes de HOA de segundo plano compensados por energia 47’e os sinais de nFG interpolados 49’. Conforme mostrado no exemplo da Figura 9H, a unidade codificadora de áudio psicoacústico 40 pode invocar múltiplas instâncias de codificadores de áudio psicoacústico 40A-40N para codificar por áudio cada um dos canais dos coeficientes de HOA de segundo plano compensados por energia 47’ (em que um canal neste contexto se refere a coeficientes para todas as amostras no quadro correspondente a uma função de base esférica de subordem/ordem particular) e cada sinal dentre os sinais de nFG interpolados 49’. Em alguns exemplos, a unidade codificadora de áudio psicoacústico 40 instancia ou de outra forma inclui (quando implantada em hardware) codificadores de áudio 40A-40N em número suficiente para codificar separadamente cada canal dos coeficientes de HOA de segundo plano compensados por energia 47’ (ou NBGa mais o número total de índices (i)) e cada sinal dentre os sinais de nFG interpolados 49’ (ou nFG) para um total de NBGa mais o número total de índices (i) de canais de HOA de ambiente adicionais mais nFG. Os codificadores de áudio 40A-40N podem emitir os coeficientes de HOA de segundo plano codificados 59 e os sinais de nFG codificados 61.[0553] Figure 9J is a block diagram illustrating, in greater detail, the psychoacoustic audio encoder unit 40 of the audio encoder device 20 shown in the example of Figure 4. The psychoacoustic audio encoder unit 40 may represent a configured unit. to perform psychoacoustic coding against energy compensated background HOA coefficients 47' and interpolated nFG signals 49'. As shown in the example of Figure 9H, the psychoacoustic audio encoder unit 40 can invoke multiple instances of psychoacoustic audio encoders 40A-40N to audio encode each of the channels of the energy compensated background HOA coefficients 47' (wherein a channel in this context refers to coefficients for all samples in the frame corresponding to a particular suborder/order spherical basis function) and each signal among the interpolated nFG signals 49'. In some examples, the psychoacoustic audio encoder unit 40 instantiates or otherwise includes (when implemented in hardware) sufficient numbers of audio encoders 40A-40N to separately encode each channel of the energy compensated background HOA coefficients 47' ( or NBGa plus the total number of indices (i)) and each signal among the 49' interpolated nFG signals (or nFG) for a total of NBGa plus the total number of indices (i) of additional room HOA channels plus nFG . Audio encoders 40A-40N can output 59 encoded background HOA coefficients and 61 encoded nFG signals.

[0554] A Figura 9K é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de quantização 52 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4 No exemplo da Figura 9K, a unidade de quantização 52 inclui uma unidade de quantização uniforme 230, uma unidade de nbits 232, uma unidade de predição 234, uma unidade de modo de predição 236 (“Unidade de Modo de Pred 236”), uma unidade de codificação de categoria ou residual 238, e uma unidade de seleção de tabela de Huffman 240. A unidade de quantização 230 uniforme representa uma unidade configurada para realizar a quantificação uniforme descrita acima em relação a um dos componentes espaciais (que podem representar qualquer um dos vetores de primeiro plano reduzidos V[k] 55). A unidade de nbits 232 representa uma unidade configurada para determinar o valor ou parâmetro de nbits.[0554] Figure 9K is a block diagram illustrating in greater detail the quantization unit 52 of the audio encoding device 20 shown in the example of Figure 4 In the example of Figure 9K, the quantization unit 52 includes a unit quantization unit 230, an nbit unit 232, a prediction unit 234, a prediction mode unit 236 ("Pred Mode Unit 236"), a category or residual encoding unit 238, and a selection unit 240. Uniform quantization unit 230 represents a unit configured to perform the uniform quantization described above with respect to one of the spatial components (which may represent any of the reduced foreground vectors V[k] 55). Unit of nbits 232 represents a unit configured to determine the value or parameter of nbits.

[0555] A unidade de predição 234 representa uma unidade configurada para realizar a predição em relação ao componente espacial quantificado. A unidade de predição 234 pode realizar a predição realizando-se uma subtração por elemento dos vetores atuais dentre os vetores de primeiro plano reduzidos V[k] 55 por um vetor correspondente temporalmente subsequente dentre os vetores de primeiro plano reduzidos V[k] 55 (que podem ser denotados como vetores Y[k-1] de primeiro plano reduzidos 55). O resultado dessa predição pode ser chamado de componente espacial previsto.[0555] Prediction unit 234 represents a unit configured to perform prediction with respect to the quantized spatial component. The prediction unit 234 can perform the prediction by performing a per-element subtraction of the current vectors among the reduced foreground vectors V[k] 55 by a corresponding temporally subsequent vector among the reduced foreground vectors V[k] 55 ( which can be denoted as reduced foreground vectors Y[k-1] 55). The result of this prediction can be called the predicted spatial component.

[0556] A unidade de modo de predição 236 pode representar uma unidade configurada para selecionar o modo de predição. A unidade de seleção de tabela de Huffman 240 pode representar uma unidade configurada para selecionar uma tabela de Huffman adequada para a codificação do cid. A unidade de modo de predição 236 e a unidade de seleção de tabela de Huffman 240 pode operar, como um exemplo, de acordo com o seguinte pseudo-código:[0556] Prediction mode unit 236 may represent a unit configured to select prediction mode. The Huffman table selection unit 240 may represent a unit configured to select a suitable Huffman table for cid encoding. The prediction mode unit 236 and the Huffman table selection unit 240 may operate, as an example, according to the following pseudo-code:

[0557] Para um dado nbits, recupera todas as Tabelas de Huffman que têm nbits[0557] For a given nbits, retrieve all Huffman Tables that have nbits

[0558] BOO = 0; B01 = inicializar para computar os bits esperados por modo de codificação[0558] BOO = 0; B01 = initialize to compute expected bits per encoding mode

[0559] para m = 1:(N° de elementos no vetor)[0559] for m = 1:(Number of elements in the vector)

[0560] // calcular número esperado de bits para um elemento de vetor[0560] // calculate expected number of bits for an array element

[0561] // sem previsão e com o uso da Tabela de Huffman 5[0561] // without prediction and using Huffman's Table 5

[0562] B00 = B00 + calculate_bits(v(m), HT5);[0562] B00 = B00 + calculate_bits(v(m), HT5);

[0563] // sem previsão e com o uso da Tabela de Huffman {1,2,3}[0563] // without prediction and using Huffman's Table {1,2,3}

[0564] B01 = B01 + calculate_bits(v(m), HTq); q in {1,2,3}[0564] B01 = B01 + calculate_bits(v(m), HTq); q in {1,2,3}

[0565] // calcular número esperado de bits para previsão residual e(m)[0565] // calculate expected number of bits for residual prediction e(m)

[0566] e(m ) = v(m) - vp(m); // vp(m): elemento de vetor de quadro anterior[0566] e(m) = v(m) - vp(m); // vp(m): previous frame vector element

[0567] // com previsão e com o uso da Tabela de Huffman 4[0567] // with prediction and using Huffman's Table 4

[0568] B10 = B10 + calculate_bits(e(m), HT4);[0568] B10 = B10 + calculate_bits(e(m), HT4);

[0569] // com previsão e com o uso da Tabela de Huffman 5[0569] // with prediction and using Huffman's Table 5

[0570] B11 = B11 + calculate_bits(e(m), HT5);[0570] B11 = B11 + calculate_bits(e(m), HT5);

[0571] fim[0571] end

[0572] // encontrar um melhor modo de previsão e tabela de Huffman que rendam bits mínimos // melhor modo de previsão e tabela de Huffman são sinalizados por pflag e Htflag, respectivamente[0572] // find a best prediction mode and Huffman table that yield minimum bits // best prediction mode and Huffman table are flagged by pflag and Htflag, respectively

[0573] [Be, id] = min([B00 B01 B10 B11]);[0573] [Be, id] = min([B00 B01 B10 B11]);

[0574] Mudar id[0574] Change id

[0575] caso 1: pflag = 0; HTflag = 0;[0575] case 1: pflag = 0; HTflag = 0;

[0576] caso 2: pflag = 0; HTflag = 1;[0576] case 2: pflag = 0; HTflag = 1;

[0577] caso 3: pflag = 1; HTflag = 0;[0577] case 3: pflag = 1; HTflag = 0;

[0578] caso 4: pflag = 1; HTflag = 1;[0578] case 4: pflag = 1; HTflag = 1;

[0579] fim[0579] end

[0580] A unidade de codificação de categoria e residual 238 pode representar uma unidade configurada para realizar a categorização e codificação residual de um componente espacial previsto ou o componente espacial quantificado (quando a predição está desabilitada) da forma descrita em maiores detalhes acima.[0580] Category and residual coding unit 238 may represent a unit configured to perform categorization and residual coding of a predicted spatial component or the quantized spatial component (when prediction is disabled) in the manner described in greater detail above.

[0581] Conforme mostrado no exemplo da Figura 9K, a unidade de quantização 52 pode emitir vários parâmetros ou valores para a inclusão no fluxo de bits 21 ou subinformações (que podem, por si só, ser um fluxo de bits separado do fluxo de bits 21). Presumindo que as informações são especificadas nas informações de canal auxiliares, a unidade de quantização por escalar/entropia 50 pode emitir o valor de nbits como valor de nbits 233, o modo de predição como modo de predição 237 e as informações de tabela de Huffman como informações de tabela de Huffman 241 para a unidade de geração de fluxo de bits 42 em conjunto com a versão compactada do componente espacial (mostrados como vetores de primeiro plano codificados V[k] 57 no exemplo da Figura 4), que nesse exemplo pode se referir ao código de Huffman selecionado para codificar o cid, o bit de sinal, e o residual codificado por bloco. O valor de nbits pode ser especificado uma vez nas informações de canal auxiliares para todos os vetores de primeiro plano codificados V[k] 57, enquanto o modo de predição e as informações de tabela de Huffman podem ser especificadas para cada um dos vetores de primeiro plano codificados V[k] 57. A porção do fluxo de bits que especifica a versão compactada do componente espacial é mostrada em maiores detalhes no exemplo das Figuras 10B e/ou 10c.[0581] As shown in the example of Figure 9K, the quantization unit 52 may output various parameters or values for inclusion in the bit stream 21 or sub-information (which may itself be a separate bit stream from the bit stream 21). Assuming the information is specified in the auxiliary channel information, the scalar/entropy quantization unit 50 can output the nbits value as nbits value 233, the prediction mode as prediction mode 237, and the Huffman table information as Huffman table information 241 for the bitstream generation unit 42 together with the compressed version of the spatial component (shown as coded foreground vectors V[k] 57 in the example of Figure 4), which in this example can be refer to the selected Huffman code to encode the cid, the sign bit, and the block-encoded residual. The value of nbits can be specified once in the auxiliary channel information for all V[k] 57 encoded foreground vectors, while the prediction mode and Huffman table information can be specified for each of the foreground vectors coded plane V[k] 57. The portion of the bit stream that specifies the compressed version of the spatial component is shown in greater detail in the example of Figures 10B and/or 10c.

[0582] A Figura 9L é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de geração de fluxo de bits 42 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. A unidade de geração de fluxo de bits 42 pode incluir uma unidade de geração de informações de canal principal 242 e a unidade de geração de informações de canal auxiliares 244. A unidade de geração de informações de canal principal 242 pode gerar um fluxo de bits principal 21 que inclui um ou mais, se não todos, dos índices de reordenação 205, elemento de sintaxe CodedSpatiallnterpolationTime 254, o elemento de sintaxe SpatiallnterpolationMethod 255, os coeficientes de HOA de segundo plano codificados 59, e os sinais de nFG codificados 61. As unidade de geração de informações de canal auxiliares 244 pode representar uma unidade configurada para gerar um fluxo de bits de canal lateral 2 IB que pode incluir um ou mais, se não todos, dentre o valor de nbits 233, o modo de predição 237, as informações de tabela de Huffman 241 e os vetores de primeiro plano codificados V[k] 57. Os fluxos de bits 21 e 2 IB podem ser chamados coletivamente como o fluxo de bits 21. Em alguns contextos, o fluxo de bits 21 pode somente se referir ao fluxo de bits de canal principal 21, enquanto o fluxo de bits 2 IB pode ser chamado de informações de canal auxiliares 2 IB.[0582] Figure 9L is a block diagram illustrating, in greater detail, the bitstream generating unit 42 of the audio encoding device 20 shown in the example of Figure 4. The bitstream generating unit 42 may include a main channel information generating unit 242 and the auxiliary channel information generating unit 244. The main channel information generating unit 242 may generate a main bit stream 21 that includes one or more, if not all of reordering indices 205, CodedSpatiallnterpolationTime syntax element 254, SpatiallnterpolationMethod syntax element 255, coded background HOA coefficients 59, and coded nFG signals 61. Auxiliary channel information generation units 244 may represent a unit configured to generate a sidechannel 2 IB bit stream that may include one or more, if not all, of the nbit value 233, the prediction mode 237, the information Huffman table s 241 and the coded foreground vectors V[k] 57. Bitstreams 21 and 2 IB may be collectively referred to as bitstream 21. In some contexts, bitstream 21 may only be refer to main channel bit stream 21, while bit stream 2 IB may be called auxiliary channel information 2 IB.

[0583] As Figuras 10A a 100(ii) são diagramas que ilustram porções do fluxo de bits ou informações de canal auxiliar que podem especificar os componentes espaciais compactados em mais detalhes. No exemplo da Figura 10A, uma porção 250 inclui um campo de identificador de renderizador (“ID de renderizador”) 251 e um campo HOADecoderConfig 252. O campo de ID de renderizador 251 pode representar um campo que armazena um ID do renderizador que foi usado para a mixagem de conteúdo de HOA. O campo HOADecoderConfig 252 pode representar um campo configurado para armazenar informações para inicializar o decodificador espacial de HOA.[0583] Figures 10A to 100(ii) are diagrams illustrating portions of the bit stream or auxiliary channel information that may specify the compressed spatial components in more detail. In the example in Figure 10A, a portion 250 includes a renderer identifier field (“render ID”) 251 and a HOADecoderConfig field 252. The renderer ID field 251 can represent a field that stores a renderer ID that was used for mixing HOA content. The HOADecoderConfig 252 field can represent a field configured to store information to initialize the HOA spatial decoder.

[0584] O campo HOADecoderConfig 252 inclui adicionalmente um campo informações direcionais (“informações de direção”) 253, um campo CodedSpatiallnterpolationTime 254, um campo SpatiallnterpolationMethod 255, um campo CodedVVecLength 256 e um campo de informações de ganho 257. As informações direcionais campo 253 pode representar um campo que armazena informações para configurar o decodificador de síntese à base de direcionalidade. O campo CodedSpatiallnterpolationTime 254 pode representar um campo que armazena um tempo da interpolação espaço-temporal dos sinais à base de vetor. O campo SpatiallnterpolationMethod 255 pode representar um campo que armazena uma indicação do tipo de interpolação aplicado durante a interpolação espaço-temporal dos sinais à base de vetor. O campo CodedVVecLength 256 pode representar um campo que armazena um comprimento do vetor de dados transmitidos usados para sintetizar os sinais à base de vetor. O campo de informações de ganho 257 representa um campo que armazena informações indicativas de uma correção de ganho aplicada aos sinais.[0584] The HOADecoderConfig field 252 additionally includes a directional information field (“direction information”) 253, a CodedSpatiallnterpolationTime field 254, a SpatiallnterpolationMethod field 255, a CodedVVecLength field 256 and a gain information field 257. The directional information field 253 can represent a field that stores information for configuring the directionality-based synthesis decoder. The CodedSpatiallnterpolationTime field 254 can represent a field that stores a time of spatiotemporal interpolation of vector-based signals. The SpatiallnterpolationMethod field 255 can represent a field that stores an indication of the type of interpolation applied during spatiotemporal interpolation of vector-based signals. The CodedVVecLength field 256 can represent a field that stores a vector length of transmitted data used to synthesize vector-based signals. Gain information field 257 represents a field that stores information indicative of a gain correction applied to signals.

[0585] No exemplo da Figura 10B, a porção 258 A representa uma porção do canal de informações auxiliares, em que a porção 258 A inclui um cabeçalho de quadro 259 que inclui diversos campo de bytes 260 e um campo de nbites 261. O número de campo de bytes 260 pode representar um campo para expressar o número de bytes incluídos no quadro para especificar componentes espaciais vl a vn que incluem os zeros para campo de alinhamento de byte 264. O campo de nbites 261 representa um campo que pode especificar o valor de nbits identificado para uso ao descomprimir os componentes espaciais vl a vn.[0585] In the example of Figure 10B, portion 258A represents a portion of the auxiliary information channel, wherein portion 258A includes a frame header 259 that includes several byte field 260 and an nbit field 261. The number of byte field 260 may represent a field to express the number of bytes included in the frame to specify spatial components vl to vn which include the zeros for byte alignment field 264. The nbit field 261 represents a field that may specify the value of nbits identified for use when decompressing spatial components vl to vn.

[0586] Conforme adicionalmente mostrado no exemplo da Figura 10B, a porção 258 A pode incluir subfluxos de bits para vl a vn, cada um dos quais inclui um campo de modo de previsão 262, um campo de informações de Tabela Huffman 263 e uma correspondente dos componentes especiais comprimidos vl a vn. O campo de modo de previsão 262 pode representar um campo para armazenar uma indicação de se a previsão foi realizada em relação à um correspondente dos componentes especiais comprimidos vl a vn. O campo de informações de tabela Huffman 263 representa um campo para indicar, pelo menos em parte, que a tabela Huffman deve ser usada para decodificar diversos aspectos da uma correspondente dos componentes especiais comprimidos vl a vn.[0586] As further shown in the example of Figure 10B, portion 258A may include bit substreams for vl to vn, each of which includes a prediction mode field 262, a Huffman Table information field 263, and a corresponding of the special compressed components vl to vn. Prediction mode field 262 may represent a field for storing an indication of whether the prediction has been performed with respect to a corresponding one of the compressed special components vl through vn. The Huffman table information field 263 represents a field to indicate, at least in part, that the Huffman table should be used to decode various aspects of the corresponding one of the special compressed components vl through vn.

[0587] A esse respeito, as técnicas podem habilitar dispositivo de codificação de áudio 20 para obter um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado realizando-se um vetor com base em síntese em relação a uma pluralidade de coeficientes harmônicos esféricos.[0587] In this regard, techniques can enable audio encoding device 20 to obtain a bit stream comprising a compressed version of a spatial component of a sound field, the spatial component generated by performing a vector based synthesis with respect to a plurality of spherical harmonic coefficients.

[0588] A Figura 10C é um diagrama que ilustra um exemplo alternativo de uma porção 258B das informações de canal auxiliar que pode especificar os componentes especiais comprimidos em maiores detalhes. No exemplo da Figura 10C, a porção 258B inclui um cabeçalho de quadro 259 que inclui um campo de Nbits 261. O campo de Nbits 261 representa um campo que pode especificar um valor de nbits identificado para uso na descompressão dos componentes espaciais vl a vn.[0588] Figure 10C is a diagram illustrating an alternative example of a portion 258B of the auxiliary channel information that may specify the compressed special components in greater detail. In the example of Figure 10C , portion 258B includes a frame header 259 that includes an Nbit field 261. Nbit field 261 represents a field that can specify an identified nbit value for use in decompressing spatial components vl through vn.

[0589] Conforme adicionalmente mostrado no exemplo da Figura 10C, a porção 258B pode incluir subfluxos de bits para vl a vn, cada um dos quais inclui um campo de modo de previsão 262, um campo de informações de Tabela Huffman 263 e uma correspondente dos componentes especiais comprimidos vl a vn. O campo de modo de previsão 262 pode representar um campo para armazenar uma indicação de se a previsão foi realizada em relação à um correspondente dos componentes especiais comprimidos vl a vn. O campo de informações de tabela Huffman 263 representa um campo para indicar, pelo menos em parte, que a tabela Huffman deve ser usada para decodificar diversos aspectos da uma correspondente dos componentes especiais comprimidos vl a vn.[0589] As further shown in the example of Figure 10C, portion 258B may include bit substreams for vl to vn, each of which includes a predictive mode field 262, a Huffman Table information field 263, and a corresponding one of the special components compressed vl to vn. Prediction mode field 262 may represent a field for storing an indication of whether the prediction has been performed with respect to a corresponding one of the compressed special components vl through vn. The Huffman table information field 263 represents a field to indicate, at least in part, that the Huffman table should be used to decode various aspects of the corresponding one of the special compressed components vl through vn.

[0590] O campo de Nbits 261 no exemplo ilustrado inclui subcampos A 265, B 266 e C 267. Nesse exemplo, A 265 e B 266 são, cada um, subcampos de 1 bit, enquanto C 267 é um subcampo de 2 bits. Outros exemplos podem incluir subcampos dimensionados de modo diferente 265, 266 e 267. O campo A 265 e o campo B 266 podem representar campos que armazenam primeiro e segundo bits mais significativos do campo de Nbits 261, enquanto o campo C 267 pode representar um campo que armazena os bits menos significativos do campo de Nbits 261.[0590] The Nbit field 261 in the illustrated example includes subfields A 265, B 266, and C 267. In this example, A 265 and B 266 are each 1-bit subfields, while C 267 is a 2-bit subfield. Other examples may include differently sized subfields 265, 266, and 267. Field A 265 and field B 266 may represent fields that store first and second most significant bits of Nbit field 261, while field C 267 may represent a field which stores the least significant bits of the 261 Nbits field.

[0591] A porção 258B também pode incluir um campo AddAmbHoalnfoChannel 268. O campo AddAmbHoalnfoChannel 268 pode representar um campo que armazena informações para os coeficientes HOA de ambiente adicional. Conforme mostrado no exemplo da Figura 10C, o AddAmbHoalnfoChannel 268 inclui um campo CodedAmbCoeffldx 246, um campo AmbCoeffldxTransition 247. O campo CodedAmbCoeffldx 246 pode representar um campo que armazena um índice de um coeficiente HOA ambiente adicional. O campo configurado para armazenar indicativo de dados se, nesse quadro, um coeficiente HOA ambiente adicional está tanto em aumento gradativo quanto em diminuição gradativa.[0591] Portion 258B may also include an AddAmbHoalnfoChannel field 268. The AddAmbHoalnfoChannel field 268 may represent a field that stores information for additional environment HOA coefficients. As shown in the example in Figure 10C, the AddAmbHoalnfoChannel 268 includes a CodedAmbCoeffldx field 246, an AmbCoeffldxTransition field 247. The CodedAmbCoeffldx field 246 can represent a field that stores an index of an additional ambient HOA coefficient. The field configured to store data indicative if, in this frame, an additional ambient HOA coefficient is either gradually increasing or decreasing.

[0592] A Figura 10C(i) é um diagrama que ilustra um exemplo alternativo de uma porção 258B’ das informações de canal auxiliar que podem especificar os componentes especiais comprimidos em maiores detalhes. No exemplo da Figura 10C(i), a porção 258B’ inclui um cabeçalho de quadro 259 que inclui um campo de Nbits 261. O campo de Nbits 261 representa um campo que pode especificar um valor de nbits identificado para uso na descompressão dos componentes espaciais vl a vn.[0592] Figure 10C(i) is a diagram illustrating an alternative example of a portion 258B' of auxiliary channel information that may specify the compressed special components in greater detail. In the example of Figure 10C(i), portion 258B' includes a frame header 259 that includes an Nbits field 261. Nbits field 261 represents a field that can specify an identified nbits value for use in decompressing the spatial components. vl to vn.

[0593] A Figura 10D é um diagrama que ilustra uma porção 258C do fluxo de bits 21 em maiores detalhes. A porção 258C é similar à porção 258, exceto pelo fato de que o cabeçalho de quadro 259 e o alinhamento de byte para zero 264 foram removidos, enquanto o campo de Nbits 261 foi adicionado antes de cada um dos fluxos de bits para vl a vn, conforme mostrado no exemplo da Figura 10D.[0593] Figure 10D is a diagram illustrating a portion 258C of bit stream 21 in greater detail. Portion 258C is similar to portion 258, except that frame header 259 and byte-to-zero alignment 264 have been removed, while Nbit field 261 has been added before each of the bit streams for vl through vn , as shown in the example in Figure 10D.

[0594] A Figura 10D(i) é um diagrama que ilustra uma porção 258C do fluxo de bits 21 em maiores detalhes. A porção 258C é similar à porção 258C exceto pelo fato de que a porção 258C não inclui o campo de modo de previsão 262 para cada um dos vetores V vl a vn.[0594] Figure 10D(i) is a diagram illustrating a portion 258C of bit stream 21 in greater detail. Portion 258C is similar to portion 258C except that portion 258C does not include prediction mode field 262 for each of vectors V vl through vn.

[0595] A Figura 10E é um diagrama que ilustra uma porção 258D do fluxo de bits 21 em maiores detalhes. A porção 258D é similar à porção 258B, exceto pelo fato de que o cabeçalho de quadro 259 e o alinhamento de byte para zero 264 foram removidos, enquanto o campo de Nbits 261 foi adicionado antes de cada um dos fluxos de bits para vl a vn, conforme mostrado no exemplo da Figura 10E.[0595] Figure 10E is a diagram illustrating a portion 258D of bit stream 21 in greater detail. Portion 258D is similar to portion 258B, except that frame header 259 and byte-to-zero alignment 264 have been removed, while Nbit field 261 has been added before each of the bit streams for vl through vn , as shown in the example in Figure 10E.

[0596] A Figura 10E(i) é um diagrama que ilustra uma porção 258D’ do fluxo de bits 21 em maiores detalhes. A porção 258D'é similar à porção 258D exceto pelo fato de que a porção 258D'não inclui o campo de modo de previsão 262 para cada um dos vetores V vl a vn. A esse respeito, o dispositivo de codificação de áudio 20 pode gerar um fluxo de bits 21 que não inclui o campo de modo de previsão 262 para cada vetor V comprimido, conforme demonstrado em relação aos exemplos das Figuras 10C(i), 10D(i) e 10E(i).[0596] Figure 10E(i) is a diagram illustrating a portion 258D' of bit stream 21 in greater detail. Portion 258D' is similar to portion 258D except that portion 258D' does not include prediction mode field 262 for each of vectors V vl through vn. In this regard, the audio coding device 20 can generate a bit stream 21 that does not include the prediction mode field 262 for each compressed vector V, as demonstrated with reference to the examples of Figures 10C(i), 10D(i). ) and 10E(i).

[0597] A Figura 1 OF é um diagrama que ilustra, de uma maneira diferente, a porção 250 do fluxo de bits 21 mostrada no exemplo da Figura 10A. A porção 250 mostrada no exemplo da Figura 10D, inclui um campo HOAOrder (que não foi mostrado no exemplo da Figura 10F para facilidade de propósitos de ilustração), um campo MinAmbHoaOrder (que, novamente, não foi mostrado no exemplo da Figura 10 para facilidade de propósitos de ilustração), o campo de informações de direção 253, o campo CodedSpatiallnterpolationTime 254, o campo SpatiallnterpolationMethod 255, o campo CodedVVecLength 256 e o campo de informações de ganho 257. Conforme mostrado no exemplo da Figura 10F, o campo CodedSpatiallnterpolationTime 254 pode compreender um campo de três bits, o campo SpatiallnterpolationMethod 255 pode compreender um campo de um bit e o campo CodedVVecLength 256 pode compreender um campo de dois bits.[0597] Figure 1 OF is a diagram illustrating, in a different way, the portion 250 of the bit stream 21 shown in the example of Figure 10A. The portion 250 shown in the example in Figure 10D, includes a field HOAOrder (which was not shown in the example in Figure 10F for ease of illustration purposes), a field MinAmbHoaOrder (which, again, was not shown in the example in Figure 10 for ease of for illustration purposes), the direction information field 253, the CodedSpatiallnterpolationTime field 254, the SpatiallnterpolationMethod field 255, the CodedVVecLength field 256, and the gain information field 257. As shown in the example in Figure 10F, the CodedSpatiallnterpolationTime field 254 can comprises a three-bit field, the SpatiallnterpolationMethod field 255 may comprise a one-bit field, and the CodedVVecLength field 256 may comprise a two-bit field.

[0598] A Figura 10G é um diagrama que ilustra uma porção 248 do fluxo de bits 21 em maiores detalhes. A porção 248 representa uma carga útil tridimensional (3D) de codificador de fala/áudio unificado (USAC) que inclui um campo HOAframe 249 (que também pode ser indicado como as informações de faixa auxiliar, informações de canal auxiliar ou fluxo de bits de canal auxiliar). Conforme mostrado no exemplo da Figura 10E, a vista expandida do campo HOAFrame 249 pode ser similar à porção 258B do fluxo de bits 21 mostrada no exemplo da Figura 10C. O “ChannelSidelnfoData” inclui um campo ChannelType 269, que não foi mostrado no exemplo da Figura 10C para facilidade de propósitos de ilustração, o campo A 265 indicado como “ba” no exemplo da Figura 10E, o campo B 266 indicado como “bb” no exemplo da Figura 10E e o campo C 267 indicado como “unitC” no exemplo da Figura 10E. O campo ChannelType indica se o canal é um sinal com base em direção, um sinal com base em vetor ou um coeficiente HOA ambiente adicional. Entre ChannelSidelnfoData diferente há campos AddAmbHoalnfoChannel 268 com os fluxos de bits de vetor V diferentes indicados em cinza (por exemplo, “fluxo de bits para vl” e “fluxo de bits para V2”).[0598] Figure 10G is a diagram illustrating a portion 248 of bit stream 21 in greater detail. Portion 248 represents a unified speech/audio encoder (USAC) three-dimensional (3D) payload that includes a HOAframe field 249 (which may also be denoted as the auxiliary track information, auxiliary channel information, or channel bitstream information). assistant). As shown in the example of Figure 10E, the exploded view of the HOAFrame field 249 may be similar to the portion 258B of the bit stream 21 shown in the example of Figure 10C. The “ChannelSidelnfoData” includes a ChannelType field 269, which was not shown in the example of Figure 10C for ease of illustration purposes, field A 265 indicated as “ba” in the example of Figure 10E, field B 266 indicated as “bb” in the example of Figure 10E and the C field 267 indicated as “unitC” in the example of Figure 10E. The ChannelType field indicates whether the channel is a direction-based signal, a vector-based signal, or an additional ambient HOA coefficient. Between different ChannelSidelnfoData there are AddAmbHoalnfoChannel fields 268 with the different V vector bit streams indicated in gray (eg “bit stream for vl” and “bit stream for V2”).

[0599] As Figuras 10H-100(ii) são diagramas que ilustram outras diversas porções exemplificativas 248H a 2480 do fluxo de bits 21 junto com porções HOAconfig anexas 250H a 250O em maiores detalhes. As Figuras 10H(i) e 10H(ii) ilustram um primeiro fluxo de bits exemplificativo 248H e porção de configuração de HOA anexa 250H que foram gerados para corresponder ao caso 0 no pseudocódigo acima. No exemplo da Figura 10H(i), a porção HOAconfig 25 OH inclui um elemento de sintaxe CodedVVecLength 256 estabelecido para indicar que todos os elementos de um vetor V são codificados, por exemplo, todos os 16 elementos de vetor V. A porção HOAconfig 25 OH também inclui um elemento de sintaxe SpatiallnterpolationMethod 255 estabelecido para indicar que a função de interpolação da interpolação espaço-temporal é um cosseno elevado. A porção HOAconfig 25 OH, além disso, inclui um CodedSpatiallnterpolationTime 254 estabelecido para indicar uma duração de amostra interpolada de 256. A porção HOAconfig 25 OH inclui adicionalmente um elemento de sintaxe MinAmbHoaOrder 150 estabelecido para indicar que a ordem MinimumHOA do conteúdo de HOA de ambiente é uma, em que o dispositivo de decodificação de áudio 24 pode derivar de um elemento de sintaxe MinNumofCoeffsForAmbHOA que seja igual a (1+1)2 ou quatro. A porção HOAconfig 25 OH inclui um elemento de sintaxe HoaOrder 152 estabelecido para indicar a ordem de HOA do conteúdo é igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar de um NumOfHoaCoeffs para ser igual a (N+ 1)2 ou 16.[0599] Figures 10H-100(ii) are diagrams illustrating several other exemplary portions 248H to 2480 of bitstream 21 along with attached HOAconfig portions 250H to 2500 in greater detail. Figures 10H(i) and 10H(ii) illustrate a first exemplary bit stream 248H and attached HOA configuration portion 250H that were generated to correspond to case 0 in the above pseudocode. In the example of Figure 10H(i), the HOAconfig 25 OH portion includes a CodedVVecLength 256 syntax element set to indicate that all elements of a vector V are encoded, for example, all 16 elements of vector V. The HOAconfig portion 25 The H also includes a SpatiallnterpolationMethod 255 syntax element established to indicate that the spatiotemporal interpolation interpolation function is a raised cosine. The HOAconfig 25 OH portion further includes a CodedSpatiallnterpolationTime 254 set to indicate an interpolated sample duration of 256. The HOAconfig 25 OH portion additionally includes a MinAmbHoaOrder 150 syntax element set to indicate that the MinimumHOA order of the ambient HOA content is one, where the audio decoding device 24 can derive a MinNumofCoeffsForAmbHOA syntax element that is equal to (1+1)2 or four. The HOAconfig 25 OH portion includes a HoaOrder syntax element 152 set to indicate the HOA order of the content is equal to three (or, in other words, N = 3), where the audio decoding device 24 can derive from a NumOfHoaCoeffs to be equal to (N+ 1)2 or 16.

[0600] Conforme adicionalmente mostrado no exemplo da Figura 10H(i), a porção 248H inclui um quadro de áudio tridimensional (USAC-3D) de codificação de fala e áudio unificado (USAC) no qual dois quadros de HOA 249A e 249B são armazenados em uma carga útil de extensão de USAC devido ao fato de que dois quadros de áudio são armazenados dentro de um quadro de USAC-3D quando replicação de banda espectral (SBR) é habilitada. O dispositivo de decodificação de áudio 24 pode derivar de diversos canais de transporte flexíveis como uma função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MinNumOfCoeffsForAmbHOA. Nos exemplos a seguir, é presumido que o elemento de sintaxe numHOATransportChannels é igual a 7 e o elemento de sintaxe MinNumOfCoeffsForAmbHOA é igual a quatro, em que o número de canais de transporte flexíveis é igual ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MinNumOfCoeffsForAmbHOA (ou três).[0600] As further shown in the example of Figure 10H(i), portion 248H includes a unified speech and audio coding (USAC) three-dimensional (USAC-3D) audio frame in which two HOA frames 249A and 249B are stored in a USAC extension payload due to the fact that two audio frames are stored within one USAC-3D frame when spectral band replication (SBR) is enabled. The audio decoding device 24 may derive from several flexible transport channels as a function of a numHOATransportChannels syntax element and a MinNumOfCoeffsForAmbHOA syntax element. In the following examples, it is assumed that the numHOATransportChannels syntax element is equal to 7 and the MinNumOfCoeffsForAmbHOA syntax element is equal to four, where the number of flexible transport channels is equal to the numHOATransportChannels syntax element minus the MinNumOfCoeffsForAmbHOA syntax element (or three).

[0601] A Figura 10H(ii) ilustra os quadros 249A e 249B em maiores detalhes. Conforme mostrado no exemplo da Figura 10H(ii), o quadro 249A inclui campos de ChannelSidelnfoData (CSID) 154 a 154C, um campo de HOAGainCorrectionData (HOAGCD), campos de VVectorData 156 e 156B e campos de HOAPredictionlnfo. O campo CSID 154 inclui a unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10H(i). O campo CSID 154B inclui a unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10H(ii). O campo CSID 154C inclui o campo ChannelType 269 que tem um valor de 3. Cada um dos campos CSID 154 a 154C corresponde àqueles respectivos dos canais de transporte 1, 2 e 3. Efetivamente, cada campo CSID 154 a 154C indica se a carga útil correspondente 156 e 156B são sinais com base em direção (quando o ChannelType correspondente é igual a zero), sinais com base em vetor (quando o ChannelType correspondente é igual a um), um coeficiente de HOA de Ambiente adicional (quando o ChannelType correspondente é igual a dois) ou vazios (quando o ChannelType é igual a três).[0601] Figure 10H(ii) illustrates frames 249A and 249B in greater detail. As shown in the example of Figure 10H(ii), frame 249A includes ChannelSidelnfoData (CSID) fields 154 to 154C, a HOAGainCorrectionData (HOAGCD) field, VVectorData fields 156 and 156B, and HOAPredictionlnfo fields. The CSID field 154 includes the C unit 267, bb 266 and ba265 along with the ChannelType 269, each of which are set to the corresponding values 01, 1, 0 and 01 shown in the example of Figure 10H(i). The CSID field 154B includes the C unit 267, bb 266 and ba265 along with the ChannelType 269, each of which are set to the corresponding values 01, 1, 0 and 01 shown in the example of Figure 10H(ii). The CSID field 154C includes the ChannelType field 269 which has a value of 3. Each of the CSID fields 154 to 154C correspond to those of the respective transport channels 1, 2 and 3. Effectively, each CSID field 154 to 154C indicates whether the payload corresponding 156 and 156B are direction-based signals (when the corresponding ChannelType is equal to zero), vector-based signals (when the corresponding ChannelType is equal to one), an additional Environment HOA coefficient (when the corresponding ChannelType is equals two) or empty (when the ChannelType equals three).

[0602] No exemplo da Figura 10H(ii), o quadro 249A inclui dois sinais com base em vetor (devido ao ChannelType 269 igual a 1 nos campos CSID 154 e 154B) e um vazio (devido ao ChannelType 269 igual a 3 nos campos CSID 154C). Devido à porção anterior HOAconfig 25 OH, o dispositivo de decodificação de áudio 24 pode determinar que todos os 16 elementos de vetor V são codificados. Em conformidade, os VVectorData 156 e 156B, cada um, incluem todos os 16 elementos de vetor, cada um dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e índices de elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength=0. Além disso, conforme verificado pelo único asterisco (*), o esquema de codificação é sinalizado por NbitsQ = 5 no campo CSID para o canal de transporte correspondente.[0602] In the example of Figure 10H(ii), frame 249A includes two vector-based signals (due to ChannelType 269 equal to 1 in CSID fields 154 and 154B) and an empty one (due to ChannelType 269 equal to 3 in fields CSID 154C). Due to the preceding HOAconfig portion 25 OH, the audio decoding device 24 can determine that all 16 V vector elements are encoded. Accordingly, VVectorData 156 and 156B each include all 16 vector elements, each of which is uniformly quantized to 8 bits. As noted by footnote 1, the number and indices of encoded VVectorData elements are specified by the CodedVVecLength=0 parameter. Also, as verified by the single asterisk (*), the encoding scheme is signaled by NbitsQ = 5 in the CSID field for the corresponding transport channel.

[0603] No quadro 249B, o campo CSID 154 e 154B são os mesmos que aqueles no quadro 249, enquanto o campo CSID 154C do quadro 249B é comutado para um ChannelType de um. O campo CSID 154C do quadro 249B, portanto, inclui o Cbflag 267, o Pflag 267 (que indica codificação de Huffman) e Nbits 261 (igual a doze). Como resultado, o quadro 249B inclui um terceiro campo VVectorData 156C que inclui 16 elementos de vetor V, cada um dos quais é quantizado de modo uniforme com 12 bits e codificado por Huffman. Conforme verificado acima, o número e índices dos elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength = 0, enquanto o esquema de codificação de Huffman é sinalizado pelo NbitsQ = 12, CbFlag = 0 e Pflag = 0 no campo CSID 154C para esse canal de transporte particular (por exemplo, canal de transporte no 3) .[0603] In frame 249B, the CSID field 154 and 154B are the same as those in frame 249, while the CSID field 154C of frame 249B is switched to a ChannelType of one. The CSID field 154C of frame 249B therefore includes Cbflag 267, Pflag 267 (which indicates Huffman encoding), and Nbits 261 (equals twelve). As a result, frame 249B includes a third VVectorData field 156C that includes 16 V vector elements, each of which is uniformly quantized to 12 bits and Huffman encoded. As seen above, the number and indices of encoded VVectorData elements are specified by the parameter CodedVVecLength = 0, while the Huffman encoding scheme is signaled by NbitsQ = 12, CbFlag = 0, and Pflag = 0 in the CSID field 154C for that channel. private transport (eg transport channel #3) .

[0604] O exemplo das Figuras 10I(i) e 10I(ii) ilustra um segundo fluxo de bits exemplificativo 2481 e porção de configuração de HOA anexa 2501 que foram gerados para corresponder ao caso 0 acima no pseudocódigo acima. No exemplo da Figura 10I(i), a porção HOAconfig 2501 inclui um elemento de sintaxe CodedVVecLength 256 estabelecido para indicar que todos os elementos de um vetor V são codificados, por exemplo, todos os 16 elementos de vetor V. A porção HOAconfig 2501 também inclui um elemento de sintaxe SpatiallnterpolationMethod 255 estabelecido para indicar que a função de interpolação da interpolação espaço-temporal é um cosseno elevado. A porção HOAconfig 2501, além disso, inclui um CodedSpatiallnterpolationTime 254 estabelecido para indicar uma duração de amostra interpolada de 256.[0604] The example of Figures 10I(i) and 10I(ii) illustrates a second exemplary bit stream 2481 and attached HOA configuration portion 2501 that were generated to correspond to case 0 above in the above pseudocode. In the example of Figure 10I(i), the HOAconfig portion 2501 includes a CodedVVecLength syntax element 256 set to indicate that all elements of a V vector are encoded, for example, all 16 elements of a V vector. The HOAconfig portion 2501 also includes a SpatiallnterpolationMethod 255 syntax element established to indicate that the spatiotemporal interpolation interpolation function is a raised cosine. The HOAconfig portion 2501, in addition, includes a CodedSpatiallnterpolationTime 254 set to indicate an interpolated sample duration of 256.

[0605] A porção HOAconfig 2501 inclui adicionalmente um elemento de sintaxe MinAmbHoaOrder 150 estabelecido para indicar que a ordem MinimumHOA do conteúdo de HOA de ambiente é uma, em que o dispositivo de decodificação de áudio 24 pode derivar de um elemento de sintaxe MinNumofCoeffsForAmbHOA que seja igual a (1+1)2 ou quatro. O dispositivo de decodificação de áudio 24 também pode derivar de um elemento de sintaxe MaxNoofAddActiveAmbCoeffs conforme estabelecido para uma diferença entre o elemento de sintaxe NumOfHoaCoeff e o MmNumOfCoeffsForAmbHOA, que se assume nesse exemplo ser igual a 16-4 ou 12. O dispositivo de decodificação de áudio 24 também pode derivar de um elemento de sintaxe AmbAsignmBits conforme estabelecido para ceil (log2(MaxNoOfAddActiveAmbCoeffs)) = ceil(log2(12)) = 4. A porção HOAconfig 25 inclui um elemento de sintaxe HoaOrder 152 estabelecido para indicar a ordem de HOA do conteúdo é igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar de um NumOfHoaCoeffs para ser igual a (N+ 1)2 ou 16.[0605] HOAconfig portion 2501 additionally includes a MinAmbHoaOrder syntax element 150 established to indicate that the MinimumHOA order of the ambient HOA content is one, where the audio decoding device 24 may derive from a MinNumofCoeffsForAmbHOA syntax element that is equals (1+1)2 or four. The audio decoding device 24 can also derive from a MaxNoofAddActiveAmbCoeffs syntax element as established for a difference between the NumOfHoaCoeff syntax element and the MmNumOfCoeffsForAmbHOA, which is assumed in this example to be equal to 16-4 or 12. audio 24 can also derive from an AmbAsignmBits syntax element as established for ceil (log2(MaxNoOfAddActiveAmbCoeffs)) = ceil(log2(12)) = 4. The HOAconfig 25 portion includes a HoaOrder syntax element 152 set to indicate the HOA order of content is equal to three (or, in other words, N = 3), where the audio decoding device 24 can derive a NumOfHoaCoeffs to be equal to (N+ 1)2 or 16.

[0606] Conforme adicionalmente mostrado no exemplo da Figura 10I(i), a porção 248H inclui um quadro de áudio de USAC-3D no qual dois quadros de HOA 249C e 249D são armazenados em uma carga útil de extensão de USAC devido àqueles dois quadros de áudio serem armazenados dentro de um quadro de USAC-3D a quando replicação de banda espectral (SBR) for habilitada. O dispositivo de decodificação de áudio 24 pode derivar de diversos canais de transporte flexíveis como uma função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MinNumOfCoeffsForAmbHOA. Nos exemplos a seguir, é presumido que o elemento de sintaxe numHOATransportChannels é igual a 7 e o elemento de sintaxe MinNumOfCoeffsForAmbHOA é igual a quatro, em que o número de canais de transporte flexíveis é igual ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MinNumOfCoeffsForAmbHOA (ou três).[0606] As further shown in the example of Figure 10I(i), portion 248H includes a USAC-3D audio frame in which two HOA frames 249C and 249D are stored in a USAC extension payload due to those two frames audio files to be stored within a USAC-3D frame when spectral band replication (SBR) is enabled. The audio decoding device 24 may derive from several flexible transport channels as a function of a numHOATransportChannels syntax element and a MinNumOfCoeffsForAmbHOA syntax element. In the following examples, it is assumed that the numHOATransportChannels syntax element is equal to 7 and the MinNumOfCoeffsForAmbHOA syntax element is equal to four, where the number of flexible transport channels is equal to the numHOATransportChannels syntax element minus the MinNumOfCoeffsForAmbHOA syntax element (or three).

[0607] A Figura 10I(ii) ilustra os quadros 249C e 249D em maiores detalhes. Conforme mostrado no exemplo da Figura 10I(ii), o quadro 249C inclui campos CSID 154-154C e campos de VVectorData 156. O campo CSID 154 inclui o CodedAmbCoeffldx 246, o AmbCoeffldxTransition 247 (em que o asterisco duplo (**) indica que, para canal de transporte de flexível no 1, assume-se que o estado interno do decodificador seja no presente documento AmbCoeffldxTransitionState = 2, que resulta no campo de bits CodedAmbCoeffldx é sinalizado ou especificado de outro modo no fluxo de bits) e o ChannelType 269 (que é igual a dois, sinalizando que a carga útil correspondente é um coeficiente HOA ambiente adicional). O dispositivo de decodificação de áudio 24 pode derivar do AmbCoeffldx como igual ao CodedAmbCoeffldx+l+MinNumOfCoeffsForAmbHOA ou 5, nesse exemplo. O campo CSID 154B inclui unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10I(ii). O campo CSID 154C inclui o campo ChannelType 269 que tem um valor de 3.[0607] Figure 10I(ii) illustrates frames 249C and 249D in greater detail. As shown in the example of Figure 10I(ii), frame 249C includes CSID fields 154-154C and VVectorData fields 156. CSID field 154 includes CodedAmbCoeffldx 246, AmbCoeffldxTransition 247 (where the double asterisk (**) indicates that , for flexible transport channel #1, the internal state of the decoder is assumed in this document to be AmbCoeffldxTransitionState = 2, which results in the bitfield CodedAmbCoeffldx being signaled or otherwise specified in the bitstream) and the ChannelType 269 (which is equal to two, signaling that the corresponding payload is an additional ambient HOA coefficient). Audio decoding device 24 can derive from AmbCoeffldx as equal to CodedAmbCoeffldx+l+MinNumOfCoeffsForAmbHOA or 5 in this example. CSID field 154B includes C unit 267, bb 266 and ba265 along with ChannelType 269, each of which are set to the corresponding values 01, 1, 0 and 01 shown in the example of Figure 10I(ii). The CSID field 154C includes the ChannelType field 269 which has a value of 3.

[0608] No exemplo da Figura 10I(ii), o quadro 249C inclui um único sinal com base em vetor (devido ao ChannelType 269 igual a 1 nos campos CSID 154B) e um vazio (devido ao ChannelType 269 igual a 3 nos campos CSID 154C). Devido à porção anterior HOAconfig 2501, o dispositivo de decodificação de áudio 24 pode determinar que todos os 16 elementos de vetor V são codificados. Em conformidade, o VVectorData 156 inclui todos os 16 elementos de vetor, cada um dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e índices de elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength=0. Além disso, conforme verificado pela nota de rodapé 2, o esquema de codificação é sinalizado por NbitsQ = 5 no campo CSID para o canal de transporte correspondente.[0608] In the example of Figure 10I(ii), frame 249C includes a single vector-based signal (due to ChannelType 269 equals 1 in CSID fields 154B) and an empty one (due to ChannelType 269 equals 3 in CSID fields 154C). Due to the preceding HOAconfig portion 2501, the audio decoding device 24 can determine that all 16 V-vector elements are encoded. Accordingly, the VVectorData 156 includes all 16 vector elements, each of which is uniformly quantized to 8 bits. As noted by footnote 1, the number and indices of encoded VVectorData elements are specified by the CodedVVecLength=0 parameter. Also, as verified by footnote 2, the encoding scheme is signaled by NbitsQ = 5 in the CSID field for the corresponding transport channel.

[0609] No quadro 249D, o campo CSID 154 inclui um AmbCoeffldxTransition 247 que indica que nenhuma transição ocorreu e, portanto, o CodedAmbCoeffldx 246 pode ser implícito a partir do quadro anterior e não precisa ser sinalizado ou especificado de outro modo novamente. Os campos CSID 154B e 154C do quadro 249D são os mesmos que aqueles para o quadro 249C e, desse modo, semelhante ao quadro 249C, o quadro 249D inclui um único campo VVectorData 156, que inclui todos os 16 elementos de vetor, cada um dos quais quantizados de modo uniforme com 8 bits.[0609] In frame 249D, field CSID 154 includes an AmbCoeffldxTransition 247 which indicates that no transition has taken place and therefore CodedAmbCoeffldx 246 can be implied from the previous frame and need not be signaled or otherwise specified again. The CSID fields 154B and 154C of frame 249D are the same as those for frame 249C, and thus, similar to frame 249C, frame 249D includes a single VVectorData field 156, which includes all 16 vector elements, each of which are uniformly quantized with 8 bits.

[0610] As Figuras 10J(i) e 10J(ii) ilustram um primeiro fluxo de bits exemplificativo 248 J e porção de configuração A de HO anexa 250 J que foi gerado para corresponder ao caso 1 no pseudocódigo acima. No exemplo da Figura s10J(i), a porção HOAconfig 250J inclui um elemento de sintaxe CodedVVecLength 256 estabelecido para indicar que todos os elementos de um vetor V são codificados, exceto pelos elementos 1 a um elemento de sintaxe MmNumOfCoeffsForAmbHOA e aqueles elementos especificados em um elemento de sintaxe ContAddAmbHoaChan (presumido como zero, nesse exemplo). A porção HOAconfig 250J também inclui um elemento de sintaxe SpatiallnterpolationMethod 255 estabelecido para indicar que a função de interpolação da interpolação espaço-temporal é um cosseno elevado. A porção HOAconfig 250 J, além disso, inclui um CodedSpatiallnterpolationTime 254 estabelecido para indicar uma duração de amostra interpolada de 256. A porção HOAconfig 250J inclui adicionalmente um elemento de sintaxe MinAmbHoaOrder 150 estabelecido para indicar que a ordem MinimumHOA do conteúdo de HOA de ambiente é um, em que o dispositivo de decodificação de áudio 24 pode derivar de um elemento de sintaxe MinNumofCoeffsForAmbHOA que seja igual a (1+1)2 ou quatro. A porção HOAconfig 250J inclui um elemento de sintaxe HoaOrder 152 estabelecido para indicar a ordem de HOA do conteúdo para ser igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar de um NumOfHoaCoeffs para ser igual a (N + 1)2 ou 16.[0610] Figures 10J(i) and 10J(ii) illustrate a first exemplary bit stream 248 J and HO configuration portion A append 250 J that was generated to correspond to case 1 in the above pseudocode. In the example of Figure s10J(i), the HOAconfig 250J portion includes a CodedVVecLength 256 syntax element set to indicate that all elements of a V array are encoded, except for elements 1 to an MmNumOfCoeffsForAmbHOA syntax element and those elements specified in a ContAddAmbHoaChan syntax element (assumed to be zero in this example). The HOAconfig portion 250J also includes a SpatiallnterpolationMethod 255 syntax element established to indicate that the interpolation function of the spatiotemporal interpolation is a raised cosine. The HOAconfig portion 250J further includes a CodedSpatiallnterpolationTime 254 set to indicate an interpolated sample duration of 256. The HOAconfig portion 250J additionally includes a MinAmbHoaOrder syntax element 150 set to indicate that the MinimumHOA order of the ambient HOA content is one, where the audio decoding device 24 can derive a MinNumofCoeffsForAmbHOA syntax element that is equal to (1+1)2 or four. The HOAconfig portion 250J includes a HoaOrder syntax element 152 set to indicate the HOA order of the content to be equal to three (or, in other words, N = 3), where the audio decoding device 24 can derive from a NumOfHoaCoeffs to be equal to (N + 1)2 or 16.

[0611] Conforme adicionalmente mostrado no exemplo da Figura 10J(i), a porção 248 J inclui um quadro de áudio de USAC-3D no qual dois quadros de HOA 249E e 249F são armazenados em uma carga útil de extensão de USAC devido àqueles dois quadros de áudio que são armazenados dentro de um quadro de USAC-3D quando a replicação de banda espectral (SBR) é habilitada. O dispositivo de decodificação de áudio 24 pode derivar de diversos canais de transporte flexíveis como uma função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MmNumOfCoeffsForAmbHOA. Nos exemplos a seguir, é presumido que o elemento de sintaxe numHOATransportChannels é igual a 7 e o elemento de sintaxe MinNumOfCoeffsForAmbHOA é igual a quatro, em que o número de canais de transporte flexíveis é igual ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MinNumOfCoeffsForAmbHOA (ou três).[0611] As further shown in the example of Figure 10J(i), portion 248J includes a USAC-3D audio frame in which two HOA frames 249E and 249F are stored in a USAC extension payload due to those two audio frames that are stored within a USAC-3D frame when spectral band replication (SBR) is enabled. The audio decoding device 24 may derive from several flexible transport channels as a function of a numHOATransportChannels syntax element and an MmNumOfCoeffsForAmbHOA syntax element. In the following examples, it is assumed that the numHOATransportChannels syntax element is equal to 7 and the MinNumOfCoeffsForAmbHOA syntax element is equal to four, where the number of flexible transport channels is equal to the numHOATransportChannels syntax element minus the MinNumOfCoeffsForAmbHOA syntax element (or three).

[0612] A Figura 10J(ii) ilustra os quadros 249E e 249F em maiores detalhes. Conforme mostrado no exemplo da Figura 10J(ii), o quadro 249E inclui campos CSID 154-154C e campos de VVectorData 156 e 156B. O campo CSID 154 inclui a unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10J). O campo CSID 154B inclui a unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10J). O campo CSID 154C inclui o campo ChannelType 269 que tem um valor de 3. Cada um dos campos CSID 154 a 154C corresponde àqueles respectivos dos canais de transporte 1, 2 e 3.[0612] Figure 10J(ii) illustrates frames 249E and 249F in greater detail. As shown in the example of Figure 10J(ii), frame 249E includes CSID fields 154-154C and VVectorData fields 156 and 156B. The CSID field 154 includes the C unit 267, bb 266 and ba265 along with the ChannelType 269, each of which are set to the corresponding values 01, 1, 0 and 01 shown in the example of Figure 10J). The CSID field 154B includes the C unit 267, bb 266 and ba265 along with the ChannelType 269, each of which are set to the corresponding values 01, 1, 0 and 01 shown in the example of Figure 10J). The CSID field 154C includes the ChannelType field 269 which has a value of 3. Each of the CSID fields 154 to 154C correspond to those of the respective transport channels 1, 2 and 3.

[0613] No exemplo da Figura 10J(ii), o quadro 249E inclui dois sinais com base em vetor (devido ao ChannelType 269 igual a 1 nos campos CSID 154 e 154B) e um vazio (devido ao ChannelType 269 igual a 3 nos campos CSID 154C). Devido à porção anterior HOAconfig 25 OH, o dispositivo de decodificação de áudio 24 pode determinar que todos os 12 elementos de vetor V são codificados (em que 12 é derivado como (HoaOrder + 1)2 - (MinNumOfCoeffsForAmbHOA) - (ContAddAmbHoaChan) = 16-4-0 = 12). Em conformidade, os VVectorData 156 e 156B, cada um, incluem todos os 12 elementos de vetor, cada um dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e índices de elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength=0. Além disso, conforme verificado pelo único asterisco (*), o esquema de codificação é sinalizado por NbitsQ = 5 no campo CSID para o canal de transporte correspondente.[0613] In the example of Figure 10J(ii), frame 249E includes two vector-based signals (due to ChannelType 269 equal to 1 in CSID fields 154 and 154B) and an empty one (due to ChannelType 269 equal to 3 in fields CSID 154C). Due to the preceding HOAconfig 25 OH portion, the audio decoding device 24 can determine that all 12 V vector elements are encoded (where 12 is derived as (HoaOrder + 1)2 - (MinNumOfCoeffsForAmbHOA) - (ContAddAmbHoaChan) = 16 -4-0 = 12). Accordingly, VVectorData 156 and 156B each include all 12 vector elements, each of which is uniformly quantized to 8 bits. As noted by footnote 1, the number and indices of encoded VVectorData elements are specified by the CodedVVecLength=0 parameter. Also, as verified by the single asterisk (*), the encoding scheme is signaled by NbitsQ = 5 in the CSID field for the corresponding transport channel.

[0614] No quadro 249F, o campo CSID 154 e 154B são os mesmos que aqueles no quadro 249E, enquanto o campo CSID 154C do quadro 249F é comutado para um ChannelType de um. O campo CSID 154C do quadro 249B, portanto, inclui o Cbflag 267, o Pflag 267 (que indica codificação de Huffman) e Nbits 261 (igual a doze). Como resultado, o quadro 249F inclui um terceiro campo VVectorData 156C que inclui 12 elementos de vetor V, cada um dos quais é quantizado de modo uniforme com 12 bits e codificado por Huffman. Conforme verificado acima, o número e índices dos elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength = 0, enquanto o esquema de codificação de Huffman é sinalizado pelo NbitsQ = 12, CbFlag = 0 e Pflag = 0 no campo CSID 154C para esse canal de transporte particular (por exemplo, canal de transporte no 3) .[0614] In frame 249F, the CSID field 154 and 154B are the same as those in frame 249E, while the CSID field 154C of frame 249F is switched to a ChannelType of one. The CSID field 154C of frame 249B therefore includes Cbflag 267, Pflag 267 (which indicates Huffman encoding), and Nbits 261 (equals twelve). As a result, frame 249F includes a third VVectorData field 156C that includes 12 V vector elements, each of which is uniformly quantized to 12 bits and Huffman encoded. As seen above, the number and indices of encoded VVectorData elements are specified by the parameter CodedVVecLength = 0, while the Huffman encoding scheme is signaled by NbitsQ = 12, CbFlag = 0, and Pflag = 0 in the CSID field 154C for that channel. private transport (eg transport channel #3) .

[0615] O exemplo das Figuras 10K(i) e 10K(ii) ilustra um segundo fluxo de bits exemplificativo 248K e porção de configuração de HOA anexa 250K que foram gerados para corresponder ao caso 1 no pseudocódigo acima. No exemplo da Figura s10J(i), as porções HOAconfig 25 OK inclui um elemento de sintaxe CodedVVecLength 256 estabelecido para indicar que todos os elementos de um vetor V são codificados, exceto pelos elementos 1 a um elemento de sintaxe MmNumOfCoeffsForAmbHOA e aqueles elementos especificados em um elemento de sintaxe ContAddAmbHoaChan (presumido como um, nesse exemplo). A porção HOAconfig 250K também inclui um elemento de sintaxe SpatiallnterpolationMethod 255 estabelecido para indicar que a função de interpolação da interpolação espaço- temporal é um cosseno elevado. A porção HOAconfig 250K, além disso, inclui um CodedSpatiallnterpolationTime 254 estabelecido para indicar uma duração de amostra interpolada de 256.[0615] The example of Figures 10K(i) and 10K(ii) illustrates a second example bit stream 248K and HOA configuration portion appended 250K that were generated to correspond to case 1 in the above pseudocode. In the example of Figure s10J(i), the HOAconfig 25 OK portions include a CodedVVecLength 256 syntax element set to indicate that all elements of a V array are encoded, except for elements 1 to an MmNumOfCoeffsForAmbHOA syntax element and those elements specified in a ContAddAmbHoaChan syntax element (assumed to be one in this example). The HOAconfig 250K portion also includes a SpatiallnterpolationMethod 255 syntax element established to indicate that the spatiotemporal interpolation interpolation function is a high cosine. The HOAconfig 250K portion furthermore includes a CodedSpatiallnterpolationTime of 254 set to indicate an interpolated sample duration of 256.

[0616] A porção HOAconfig 25 OK inclui adicionalmente um elemento de sintaxe MinAmbHoaOrder 150 estabelecido para indicar que a ordem MinimumHOA do conteúdo de HOA de ambiente é uma, em que o dispositivo de decodificação de áudio 24 pode derivar de um elemento de sintaxe MinNumofCoeffsForAmbHOA que seja igual a (1+1)2 ou quatro. O dispositivo de decodificação de áudio 24 também pode derivar de um elemento de sintaxe MaxNoOfAddActiveAmbCoeffs conforme estabelecido para uma diferença entre o elemento de sintaxe NumOfHoaCoeff e o MmNumOfCoeffsForAmbHOA, que se assume nesse exemplo ser igual a 16-4 ou 12. O dispositivo de decodificação de áudio 24 também pode derivar de um elemento de sintaxe AmbAsignmBits conforme estabelecido para ceil (log2(MaxNoOfAddActiveAmbCoeffs)) = ceil(log2(12)) = 4. A porção HOAconfig 250K inclui um elemento de sintaxe HoaOrder 152 estabelecido para indicar a ordem de HOA do conteúdo para ser igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar de um NumOfHoaCoeffs para ser igual a (N + 1)2 ou 16.[0616] The HOAconfig 25 OK portion additionally includes a MinAmbHoaOrder syntax element 150 set to indicate that the MinimumHOA order of the ambient HOA content is one, where the audio decoding device 24 may derive from a MinNumofCoeffsForAmbHOA syntax element that is equal to (1+1)2 or four. The audio decoding device 24 can also derive from a MaxNoOfAddActiveAmbCoeffs syntax element as established for a difference between the NumOfHoaCoeff syntax element and the MmNumOfCoeffsForAmbHOA, which is assumed in this example to be equal to 16-4 or 12. audio 24 can also be derived from an AmbAsignmBits syntax element as established for ceil (log2(MaxNoOfAddActiveAmbCoeffs)) = ceil(log2(12)) = 4. The HOAconfig 250K portion includes a HoaOrder 152 syntax element set to indicate the HOA order of the content to be equal to three (or, in other words, N = 3), where the audio decoding device 24 can derive a NumOfHoaCoeffs to be equal to (N + 1)2 or 16.

[0617] Conforme adicionalmente mostrado no exemplo da Figura 10K(i), a porção 248K inclui um quadro de áudio de USAC-3D no qual dois quadros de HOA 249G e 249H são armazenados em uma carga útil de extensão de USAC devido àqueles dois quadros de áudio que são armazenados dentro de um quadro de USAC-3D quando a replicação de banda espectral (SBR) é habilitada. O dispositivo de decodificação de áudio 24 pode derivar de diversos canais de transporte flexíveis como uma função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MmNumOfCoeffsForAmbHOA. Nos exemplos a seguir, é presumido que o elemento de sintaxe numHOATransportChannels é igual a 7 e o elemento de sintaxe MmNumOfCoeffsForAmbHOA é igual a quatro, em que o número de canais de transporte flexíveis é igual ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MinNumOfCoeffsForAmbHOA (ou três).[0617] As further shown in the example of Figure 10K(i), the 248K portion includes a USAC-3D audio frame in which two HOA frames 249G and 249H are stored in a USAC extension payload due to those two frames audio that are stored within a USAC-3D frame when spectral band replication (SBR) is enabled. The audio decoding device 24 may derive from several flexible transport channels as a function of a numHOATransportChannels syntax element and an MmNumOfCoeffsForAmbHOA syntax element. In the following examples, it is assumed that the numHOATransportChannels syntax element is equal to 7 and the MmNumOfCoeffsForAmbHOA syntax element is equal to four, where the number of flexible transport channels is equal to the numHOATransportChannels syntax element minus the MinNumOfCoeffsForAmbHOA syntax element (or three).

[0618] A Figura 10K(ii) ilustra os quadros 249G e 249H em maiores detalhes. Conforme mostrado no exemplo da Figura 10K(ii), o quadro 249G inclui campos CSID 154-154C e campos de VVectorData 156. O campo CSID 154 inclui o CodedAmbCoeffldx 246, o AmbCoeffldxTransition 247 (em que o asterisco duplo (**) indica que, para canal de transporte de flexível no 1, assume-se que o estado interno do decodificador seja no presente documento AmbCoeffldxTransitionState = 2, que resulta no campo de bits CodedAmbCoeffldx é sinalizado ou especificado de outro modo no fluxo de bits) e o ChannelType 269 (que é igual a dois, sinalizando que a carga útil correspondente é um coeficiente HOA ambiente adicional). O dispositivo de decodificação de áudio 24 pode derivar do AmbCoeffldx como igual ao CodedAmbCoeffldx+l+MinNumOfCoeffsForAmbHOA ou 5, nesse exemplo. O campo CSID 154B inclui unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10K). O campo CSID 154C inclui o campo ChannelType 269 que tem um valor de 3.[0618] Figure 10K(ii) illustrates frames 249G and 249H in greater detail. As shown in the example in Figure 10K(ii), frame 249G includes CSID fields 154-154C and VVectorData fields 156. CSID field 154 includes CodedAmbCoeffldx 246, AmbCoeffldxTransition 247 (where the double asterisk (**) indicates that , for flexible transport channel #1, the internal state of the decoder is assumed in this document to be AmbCoeffldxTransitionState = 2, which results in the bitfield CodedAmbCoeffldx being signaled or otherwise specified in the bitstream) and the ChannelType 269 (which is equal to two, signaling that the corresponding payload is an additional ambient HOA coefficient). Audio decoding device 24 can derive from AmbCoeffldx as equal to CodedAmbCoeffldx+l+MinNumOfCoeffsForAmbHOA or 5 in this example. CSID field 154B includes C unit 267, bb 266 and ba265 along with ChannelType 269, each of which are set to the corresponding values 01, 1, 0 and 01 shown in the example of Figure 10K). The CSID field 154C includes the ChannelType field 269 which has a value of 3.

[0619] No exemplo da Figura 10K(ii), o quadro 249G inclui um único sinal com base em vetor (devido ao ChannelType 269 igual a 1 nos campos CSID 154B) e um vazio (devido ao ChannelType 269 igual a 3 nos campos CSID 154C). Devido à porção anterior HOAconfig 25 OK, o dispositivo de decodificação de áudio 24 pode determinar que os 11 elementos de vetor V são codificados (em que 11 é derivado como (HoaOrder + 1)2 -(MinNumOfCoeffsForAmbHOA) - (ContAddAmbHoaChan) = 16-4-1 = 12). Em conformidade, o VVectorData 156 inclui todos os 11 elementos de vetor, cada um dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e índices de elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength=0. Além disso, conforme verificado pela nota de rodapé 2, o esquema de codificação é sinalizado por NbitsQ = 5 no campo CSID para o canal de transporte correspondente.[0619] In the example of Figure 10K(ii), the 249G frame includes a single vector-based signal (due to ChannelType 269 equals 1 in CSID 154B fields) and an empty one (due to ChannelType 269 equals 3 in CSID fields 154C). Due to the preceding portion HOAconfig 25 OK, the audio decoding device 24 can determine that the 11 V vector elements are encoded (where 11 is derived as (HoaOrder + 1)2 -(MinNumOfCoeffsForAmbHOA) - (ContAddAmbHoaChan) = 16- 4-1 = 12). Accordingly, the VVectorData 156 includes all 11 vector elements, each of which is uniformly quantized to 8 bits. As noted by footnote 1, the number and indices of encoded VVectorData elements are specified by the CodedVVecLength=0 parameter. Also, as verified by footnote 2, the encoding scheme is signaled by NbitsQ = 5 in the CSID field for the corresponding transport channel.

[0620] No quadro 249H, o campo CSID 154 inclui um AmbCoeffldxTransition 247 que indica que nenhuma transição ocorreu e, portanto, o CodedAmbCoeffldx 246 pode ser implícito a partir do quadro anterior e não precisa ser sinalizado ou especificado de outro modo novamente. Os campos CSID 154B e 154C do quadro 249H são os mesmos que aqueles para o quadro 249G e, desse modo, semelhante ao quadro 249G, o quadro 249H inclui um único campo VVectorData 156, que inclui 11 elementos de vetor, cada um dos quais quantizados de modo uniforme com 8 bits.[0620] In frame 249H, field CSID 154 includes an AmbCoeffldxTransition 247 which indicates that no transition has taken place and therefore CodedAmbCoeffldx 246 can be implied from the previous frame and need not be signaled or otherwise specified again. The CSID fields 154B and 154C of frame 249H are the same as those for frame 249G, and thus, similar to frame 249G, frame 249H includes a single VVectorData field 156, which includes 11 vector elements, each of which is quantized. uniformly with 8 bits.

[0621] As Figuras 10L(i) e 10L(ii) ilustram um primeiro fluxo de bits exemplificativo 248L e porção de configuração de HOA anexa 25 OL que foram gerados para corresponder ao caso 2 no pseudocódigo acima. No exemplo da Figura 10L(i), a porção HOAconfig 25 OL inclui um elemento de sintaxe CodedVVecLength 256 estabelecido para indicar que todos os elementos de um vetor V são codificados, exceto aqueles elementos da ordem zero até a ordem especificada pelo elemento de sintaxe MinAmbHoaOrder 150 (que é igual a (HoaOrder + 1)2 - (MinAmbHoaOrder + 1)2 = 16 - 4 = 12, nesse exemplo). A porção HOAconfig 250L também inclui um elemento de sintaxe SpatiallnterpolationMethod 255 estabelecido para indicar que a função de interpolação da interpolação espaço-temporal é um cosseno elevado. A porção HOAconfig 250L, além disso, inclui um CodedSpatiallnterpolationTime 254 estabelecido para indicar uma duração de amostra interpolada de 256. A porção HOAconfig 250L inclui adicionalmente um elemento de sintaxe MinAmbHoaOrder 150 estabelecido para indicar que a ordem MinimumHOA do conteúdo de HOA de ambiente é um, em que o dispositivo de decodificação de áudio 24 pode derivar de um elemento de sintaxe MinNumofCoeffsForAmbHOA que seja igual a (1+1)2 ou quatro. A porção HOAconfig 250L inclui um elemento de sintaxe HoaOrder 152 estabelecido para indicar a ordem de HOA do conteúdo para ser igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar de um NumOfHoaCoeffs para ser igual a (N + 1)2 ou 16.[0621] Figures 10L(i) and 10L(ii) illustrate a first exemplary bit stream 248L and attached HOA configuration portion 25 OL that were generated to correspond to case 2 in the above pseudocode. In the example in Figure 10L(i), the HOAconfig 25 OL portion includes a CodedVVecLength 256 syntax element set to indicate that all elements of an array V are encoded, except those elements from zero order through the order specified by the MinAmbHoaOrder syntax element. 150 (which is equal to (HoaOrder + 1)2 - (MinAmbHoaOrder + 1)2 = 16 - 4 = 12, in this example). The HOAconfig 250L portion also includes a SpatiallnterpolationMethod 255 syntax element established to indicate that the spatiotemporal interpolation interpolation function is a raised cosine. The HOAconfig portion 250L further includes a CodedSpatiallnterpolationTime 254 set to indicate an interpolated sample duration of 256. The HOAconfig portion 250L additionally includes a MinAmbHoaOrder syntax element 150 set to indicate that the MinimumHOA order of the ambient HOA content is a , wherein the audio decoding device 24 can derive a MinNumofCoeffsForAmbHOA syntax element that is equal to (1+1)2 or four. The HOAconfig portion 250L includes a HoaOrder syntax element 152 set to indicate the HOA order of the content to be equal to three (or, in other words, N = 3), where the audio decoding device 24 may derive from a NumOfHoaCoeffs to be equal to (N + 1)2 or 16.

[0622] Conforme adicionalmente mostrado no exemplo da Figura 10L(i), a porção 248L inclui um quadro de áudio de USAC-3D no qual dois quadros de HOA 2491 e 249J são armazenados em uma carga útil de extensão de USAC devido àqueles dois quadros de áudio serem armazenados dentro de um quadro de USAC-3D a quando replicação de banda espectral (SBR) for habilitada. O dispositivo de decodificação de áudio 24 pode derivar de diversos canais de transporte flexíveis como uma função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MinNumOfCoeffsForAmbHOA. Nos exemplos a seguir, é presumido que o elemento de sintaxe numHOATransportChannels é igual a 7 e o elemento de sintaxe MinNumOfCoeffsForAmbHOA é igual a quatro, em que o número de canais de transporte flexíveis é igual ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MinNumOfCoeffsForAmbHOA (ou três).[0622] As further shown in the example of Figure 10L(i), portion 248L includes a USAC-3D audio frame in which two HOA frames 2491 and 249J are stored in a USAC extension payload due to those two frames audio files to be stored within a USAC-3D frame when spectral band replication (SBR) is enabled. The audio decoding device 24 may derive from several flexible transport channels as a function of a numHOATransportChannels syntax element and a MinNumOfCoeffsForAmbHOA syntax element. In the following examples, it is assumed that the numHOATransportChannels syntax element is equal to 7 and the MinNumOfCoeffsForAmbHOA syntax element is equal to four, where the number of flexible transport channels is equal to the numHOATransportChannels syntax element minus the MinNumOfCoeffsForAmbHOA syntax element (or three).

[0623] A Figura 10L(ii) ilustra os quadros 2491 e 249J em maiores detalhes. Conforme mostrado no exemplo da Figura 10L(ii), o quadro 2491 inclui campos CSID 154-154C e campos de VVectorData 156 e 156B. O campo CSID 154 inclui a unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10J). O campo CSID 154B inclui a unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10L(ii). O campo CSID 154C inclui o campo ChannelType 269 que tem um valor de 3. Cada um dos campos CSID 154 a 154C corresponde àqueles respectivos dos canais de transporte 1, 2 e 3.[0623] Figure 10L(ii) illustrates frames 2491 and 249J in greater detail. As shown in the example of Figure 10L(ii), frame 2491 includes CSID fields 154-154C and VVectorData fields 156 and 156B. The CSID field 154 includes the C unit 267, bb 266 and ba265 along with the ChannelType 269, each of which are set to the corresponding values 01, 1, 0 and 01 shown in the example of Figure 10J). The CSID field 154B includes the C unit 267, bb 266 and ba265 along with the ChannelType 269, each of which are set to the corresponding values 01, 1, 0 and 01 shown in the example of Figure 10L(ii). The CSID field 154C includes the ChannelType field 269 which has a value of 3. Each of the CSID fields 154 to 154C correspond to those of the respective transport channels 1, 2 and 3.

[0624] No exemplo da Figura 10L(ii), o quadro 2491inclui dois sinais com base em vetor (devido ao ChannelType 269 igual a 1 nos campos CSID 154 e 154B) e um vazio (devido ao ChannelType 269 igual a 3 nos campos CSID 154C). Devido à porção anterior HOAconfig 25 OH, o dispositivo de decodificação de áudio 24 pode determinar que 12 elementos de vetor V são codificados. Em conformidade, os VVectorData 156 e 156B, cada um, incluem 12 elementos de vetor, cada dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e índices de elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength=0. Além disso, conforme verificado pelo único asterisco (*), o esquema de codificação é sinalizado por NbitsQ = 5 no campo CSID para o canal de transporte correspondente.[0624] In the example of Figure 10L(ii), frame 2491 includes two vector-based signals (due to ChannelType 269 equal to 1 in CSID fields 154 and 154B) and an empty one (due to ChannelType 269 equal to 3 in CSID fields 154C). Due to the preceding HOAconfig portion 25 OH, the audio decoding device 24 can determine that 12 V vector elements are encoded. Accordingly, VVectorData 156 and 156B each include 12 vector elements, each of which is uniformly quantized to 8 bits. As noted by footnote 1, the number and indices of encoded VVectorData elements are specified by the CodedVVecLength=0 parameter. Also, as verified by the single asterisk (*), the encoding scheme is signaled by NbitsQ = 5 in the CSID field for the corresponding transport channel.

[0625] No quadro 249 J, o campo CSID 154 e 154B são os mesmos que aqueles no quadro 2491, enquanto o campo CSID 154C do quadro 249F é comutado para um ChannelType de um. O campo CSID 154C do quadro 249B, portanto, inclui o Cbflag 267, o Pflag 267 (que indica codificação de Huffman) e Nbits 261 (igual a doze). Como resultado, o quadro 249F inclui um terceiro campo VVectorData 156C que inclui 12 elementos de vetor V, cada um dos quais é quantizado de modo uniforme com 12 bits e codificado por Huffman. Conforme verificado acima, o número e índices dos elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength = 0, enquanto o esquema de codificação de Huffman é sinalizado pelo NbitsQ = 12, CbFlag = 0 e Pflag = 0 no campo CSID 154C para esse canal de transporte particular (por exemplo, canal de transporte no 3) .[0625] In frame 249J, the CSID field 154 and 154B are the same as those in frame 2491, while the CSID field 154C of frame 249F is switched to a ChannelType of one. The CSID field 154C of frame 249B therefore includes Cbflag 267, Pflag 267 (which indicates Huffman encoding), and Nbits 261 (equals twelve). As a result, frame 249F includes a third VVectorData field 156C that includes 12 V vector elements, each of which is uniformly quantized to 12 bits and Huffman encoded. As seen above, the number and indices of encoded VVectorData elements are specified by the parameter CodedVVecLength = 0, while the Huffman encoding scheme is signaled by NbitsQ = 12, CbFlag = 0, and Pflag = 0 in the CSID field 154C for that channel. private transport (eg transport channel #3) .

[0626] O exemplo das Figuras 10M(i) e 10M(ii) ilustra um segundo fluxo de bits exemplificativo 248M e porção de configuração de HOA anexa 250M que foram gerados para corresponder ao caso 2 no pseudocódigo acima. No exemplo da Figura 10M(i), a porção HOAconfig 25OM inclui um elemento de sintaxe CodedVVecLength 256 estabelecido para indicar que todos os elementos de um vetor V são codificados, exceto aqueles elementos da ordem zero até a ordem especificada pelo elemento de sintaxe MinAmbHoaOrder 150 (que é igual a (HoaOrder + 1)2 - (MinAmbHoaOrder + 1)2 = 16 - 4 = 12, nesse exemplo). A porção HOAconfig 250M também inclui um elemento de sintaxe SpatiallnterpolationMethod 255 estabelecido para indicar que a função de interpolação da interpolação espaço- temporal é um cosseno elevado. A porção HOAconfig 250M, além disso, inclui um CodedSpatiallnterpolationTime 254 estabelecido para indicar uma duração de amostra interpolada de 256.[0626] The example of Figures 10M(i) and 10M(ii) illustrates a second exemplary bit stream 248M and appended HOA configuration portion 250M that were generated to correspond to case 2 in the above pseudocode. In the example of Figure 10M(i), the HOAconfig 25OM portion includes a CodedVVecLength 256 syntax element set to indicate that all elements of an array V are encoded, except those elements from zero order through the order specified by the MinAmbHoaOrder syntax element 150 (which is equal to (HoaOrder + 1)2 - (MinAmbHoaOrder + 1)2 = 16 - 4 = 12, in this example). The HOAconfig 250M portion also includes a SpatiallnterpolationMethod 255 syntax element established to indicate that the interpolation function of the spatiotemporal interpolation is high cosine. The HOAconfig 250M portion furthermore includes a CodedSpatiallnterpolationTime of 254 set to indicate an interpolated sample duration of 256.

[0627] A porção HOAconfig 250M inclui adicionalmente um elemento de sintaxe MinAmbHoaOrder 150 estabelecido para indicar que a ordem MinimumHOA do conteúdo de HOA de ambiente é um, em que o dispositivo de decodificação de áudio 24 pode derivar de um elemento de sintaxe MinNumofCoeffsForAmbHOA que seja igual a (1+1)2 ou quatro. O dispositivo de decodificação de áudio 24 também pode derivar de um elemento de sintaxe MaxNoOfAddActiveAmbCoeffs conforme estabelecido para uma diferença entre o elemento de sintaxe NumOfHoaCoeff e o MinNumofCoeffsForAmbHOA, que se assume nesse exemplo ser igual a 16-4 ou 12. O dispositivo de decodificação de áudio 24 também pode derivar de um elemento de sintaxe AmbAsignmBits conforme estabelecido para ceil (log2(MaxNoOfAddActiveAmbCoeffs)) = ceil(log2(12)) = 4. A porção HOAconfig 250M inclui um elemento de sintaxe HoaOrder 152 estabelecido para indicar a ordem de HOA do conteúdo para ser igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar de um NumOfHoaCoeffs para ser igual a (N + 1)2 ou 16.[0627] Portion HOAconfig 250M additionally includes a MinAmbHoaOrder syntax element 150 set to indicate that the MinimumHOA order of the ambient HOA content is one, where the audio decoding device 24 may derive from a MinNumofCoeffsForAmbHOA syntax element that is equals (1+1)2 or four. The audio decoding device 24 can also derive from a MaxNoOfAddActiveAmbCoeffs syntax element as established for a difference between the NumOfHoaCoeff syntax element and the MinNumofCoeffsForAmbHOA, which is assumed in this example to be equal to 16-4 or 12. audio 24 can also be derived from an AmbAsignmBits syntax element as established for ceil (log2(MaxNoOfAddActiveAmbCoeffs)) = ceil(log2(12)) = 4. The HOAconfig 250M portion includes a HoaOrder 152 syntax element set to indicate the HOA order of the content to be equal to three (or, in other words, N = 3), where the audio decoding device 24 can derive a NumOfHoaCoeffs to be equal to (N + 1)2 or 16.

[0628] Conforme adicionalmente mostrado no exemplo da Figura 10M(i), a porção 248M inclui um quadro de áudio de USAC-3D no qual dois quadros de HOA 249K e 249L são armazenados em uma carga útil de extensão de USAC devido àqueles dois quadros de áudio serem armazenados dentro de um quadro de USAC-3D a quando replicação de banda espectral (SBR) for habilitada. O dispositivo de decodificação de áudio 24 pode derivar de diversos canais de transporte flexíveis como uma função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MinNumofCoeffsForAmbHOA. Nos exemplos a seguir, é presumido que o elemento de sintaxe numHOATransportChannels é igual a 7 e o elemento de sintaxe MinNumofCoeffsForAmbHOA é igual a quatro, em que o número de canais de transporte flexíveis é igual ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MinNumofCoeffsForAmbHOA (ou três).[0628] As further shown in the example of Figure 10M(i), portion 248M includes a USAC-3D audio frame in which two HOA frames 249K and 249L are stored in a USAC extension payload due to those two frames audio to be stored within a USAC-3D frame when spectral band replication (SBR) is enabled. The audio decoding device 24 may derive from several flexible transport channels as a function of a numHOATransportChannels syntax element and a MinNumofCoeffsForAmbHOA syntax element. In the following examples, it is assumed that the numHOATransportChannels syntax element is equal to 7 and the MinNumofCoeffsForAmbHOA syntax element is equal to four, where the number of flexible transport channels is equal to the numHOATransportChannels syntax element minus the MinNumofCoeffsForAmbHOA syntax element (or three).

[0629] A Figura 10M(ii) ilustra os quadros 249K e 249L em maiores detalhes. Conforme mostrado no exemplo da Figura 10M(ii), o quadro 249K inclui campos CSID 154-154C e um campo VVectorData 156. O campo CSID 154 inclui o CodedAmbCoeffldx 246, o AmbCoeffldxTransition 247 (em que o asterisco duplo (**) indica que, para canal de transporte de flexível no 1, assume-se que o estado interno do decodificador seja no presente documento AmbCoeffldxTransitionState = 2, que resulta no campo de bits CodedAmbCoeffldx é sinalizado ou especificado de outro modo no fluxo de bits) e o ChannelType 269 (que é igual a dois, sinalizando que a carga útil correspondente é um coeficiente HOA ambiente adicional). O dispositivo de decodificação de áudio 24 pode derivar do AmbCoeffldx como igual ao CodedAmbCoeffldx+l+MinNumOfCoeffsForAmbHOA ou 5, nesse exemplo. O campo CSID 154B inclui unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10M(ii). O campo CSID 154C inclui o campo ChannelType 269 que tem um valor de 3.[0629] Figure 10M(ii) illustrates frames 249K and 249L in greater detail. As shown in the example in Figure 10M(ii), frame 249K includes CSID fields 154-154C and a VVectorData field 156. CSID field 154 includes CodedAmbCoeffldx 246, AmbCoeffldxTransition 247 (where the double asterisk (**) indicates that , for flexible transport channel #1, the internal state of the decoder is assumed in this document to be AmbCoeffldxTransitionState = 2, which results in the bitfield CodedAmbCoeffldx being signaled or otherwise specified in the bitstream) and the ChannelType 269 (which is equal to two, signaling that the corresponding payload is an additional ambient HOA coefficient). Audio decoding device 24 can derive from AmbCoeffldx as equal to CodedAmbCoeffldx+l+MinNumOfCoeffsForAmbHOA or 5 in this example. The CSID field 154B includes C unit 267, bb 266 and ba265 along with the ChannelType 269, each of which are set to the corresponding values 01, 1, 0 and 01 shown in the example of Figure 10M(ii). The CSID field 154C includes the ChannelType field 269 which has a value of 3.

[0630] No exemplo da Figura 10M(ii), o quadro 249K inclui um único sinal com base em vetor (devido ao ChannelType 269 igual a 1 nos campos CSID 154B) e um vazio (devido ao ChannelType 269 igual a 3 nos campos CSID 154C). Devido à porção anterior HOAconfig 250M, o dispositivo de decodificação de áudio 24 pode determinar que 12 elementos de vetor V são codificados. Em conformidade, o VVectorData 156 inclui 12 elementos de vetor, cada um dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e índices de elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength=0. Além disso, conforme verificado pela nota de rodapé 2, o esquema de codificação é sinalizado por NbitsQ = 5 no campo CSID para o canal de transporte correspondente.[0630] In the example in Figure 10M(ii), the 249K frame includes a single vector-based signal (due to ChannelType 269 equals 1 in CSID 154B fields) and an empty one (due to ChannelType 269 equals 3 in CSID fields 154C). Due to the preceding HOAconfig portion 250M, the audio decoding device 24 can determine that 12 V vector elements are encoded. Accordingly, the VVectorData 156 includes 12 vector elements, each of which is uniformly quantized to 8 bits. As noted by footnote 1, the number and indices of encoded VVectorData elements are specified by the CodedVVecLength=0 parameter. Also, as verified by footnote 2, the encoding scheme is signaled by NbitsQ = 5 in the CSID field for the corresponding transport channel.

[0631] No quadro 249L, o campo CSID 154 inclui um AmbCoeffldxTransition 247 que indica que nenhuma transição ocorreu e, portanto, o CodedAmbCoeffldx 246 pode ser implícito a partir do quadro anterior e não precisa ser sinalizado ou especificado de outro modo novamente. Os campos CSID 154B e 154C do quadro 249l são os mesmos que aqueles para o quadro 249k e, desse modo, semelhante ao quadro 249k, o quadro 249l inclui um único campo VVectorData 156, que inclui 12 elementos de vetor, cada um dos quais quantizados de modo uniforme com 8 bits.[0631] In frame 249L, field CSID 154 includes an AmbCoeffldxTransition 247 which indicates that no transition has taken place and therefore CodedAmbCoeffldx 246 can be implied from the previous frame and need not be signaled or otherwise specified again. The CSID fields 154B and 154C of frame 249l are the same as those for frame 249k, and thus, similar to frame 249k, frame 249l includes a single VVectorData field 156, which includes 12 vector elements, each of which is quantized. uniformly with 8 bits.

[0632] As Figuras 10N(i) e 10N(ii) ilustram um primeiro fluxo de bits exemplificativo 248N e porção de configuração A de HO anexa 250N que foi gerado para corresponder ao caso 3 no pseudocódigo acima. No exemplo da Figura 10N(i), a porção HOAconfig 250N inclui um elemento de sintaxe CodedVVecLength 256 estabelecido para indicar que todos os elementos de um vetor V são codificados, exceto aqueles elementos especificados em um elemento de sintaxe ContAddAmbHoaChan (que assume-se ser zero, nesse exemplo). A porção HOAconfig 250N também inclui um elemento de sintaxe SpatiallnterpolationMethod 255 estabelecido para indicar que a função de interpolação da interpolação espaço-temporal é um cosseno elevado. A porção HOAconfig 250N, além disso, inclui um CodedSpatiallnterpolationTime 254 estabelecido para indicar uma duração de amostra interpolada de 256. A porção HOAconfig 250N inclui adicionalmente um elemento de sintaxe MinAmbHoaOrder 150 estabelecido para indicar que a ordem MinimumHOA do conteúdo de A de ambiente HO é um, em que o dispositivo de decodificação de áudio 24 pode derivar de um elemento de sintaxe MinNumOfCoeffsForAmbHOA para ser igual a (1+1)2 ou quatro. A porção HOAconfig 250N inclui um elemento de sintaxe HoaOrder 152 estabelecido para indicar a ordem de HOA do conteúdo é igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar de um NumOfHoaCoeffs para ser igual a (N+ se ou 16).[0632] Figures 10N(i) and 10N(ii) illustrate a first exemplary bit stream 248N and HO configuration portion A append 250N that was generated to correspond to case 3 in the above pseudocode. In the example of Figure 10N(i), the HOAconfig 250N portion includes a CodedVVecLength 256 syntax element set to indicate that all elements of a V array are encoded, except those elements specified in a ContAddAmbHoaChan syntax element (which is assumed to be zero in this example). The HOAconfig 250N portion also includes a SpatiallnterpolationMethod 255 syntax element established to indicate that the spatiotemporal interpolation interpolation function is a raised cosine. The HOAconfig portion 250N further includes a CodedSpatiallnterpolationTime 254 set to indicate an interpolated sample duration of 256. The HOAconfig portion 250N additionally includes a MinAmbHoaOrder 150 syntax element set to indicate that the MinimumHOA order of the HO environment A content is one, wherein the audio decoding device 24 can derive a MinNumOfCoeffsForAmbHOA syntax element to be equal to (1+1)2 or four. The HOAconfig portion 250N includes a HoaOrder syntax element 152 set to indicate the HOA order of the content is equal to three (or, in other words, N = 3), where the audio decoding device 24 can derive from a NumOfHoaCoeffs to be equal to (N+ if or 16).

[0633] Conforme adicionalmente mostrado no exemplo da Figura 10N(i), a porção 248N inclui um quadro de áudio de USAC-3D no qual dois quadros de HOA 249M e 249N são armazenados em uma carga útil de extensão de USAC devido àqueles dois quadros de áudio que são armazenados dentro de um quadro de USAC-3D quando a replicação de banda espectral (SBR) é habilitada. O dispositivo de decodificação de áudio 24 pode derivar de diversos canais de transporte flexíveis como uma função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MinNumOfCoeffsForAmbHOA. Nos exemplos a seguir, é presumido que o elemento de sintaxe numHOATransportChannels é igual a 7 e o elemento de sintaxe MinNumOfCoeffsForAmbHOA é igual a quatro, em que o número de canais de transporte flexíveis é igual ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MinNumOfCoeffsForAmbHOA (ou três).[0633] As further shown in the example of Figure 10N(i), portion 248N includes a USAC-3D audio frame in which two HOA frames 249M and 249N are stored in a USAC extension payload due to those two frames audio that are stored within a USAC-3D frame when spectral band replication (SBR) is enabled. The audio decoding device 24 may derive from several flexible transport channels as a function of a numHOATransportChannels syntax element and a MinNumOfCoeffsForAmbHOA syntax element. In the following examples, it is assumed that the numHOATransportChannels syntax element is equal to 7 and the MinNumOfCoeffsForAmbHOA syntax element is equal to four, where the number of flexible transport channels is equal to the numHOATransportChannels syntax element minus the MinNumOfCoeffsForAmbHOA syntax element (or three).

[0634] A Figura 10N(ii) ilustra os quadros 249M e 249N em maiores detalhes. Conforme mostrado no exemplo da Figura 10N(ii), o quadro 249M inclui campos CSID 154-154C e campos de VVectorData 156 e 156B. O campo CSID 154 inclui a unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10J). O campo CSID 154B inclui a unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10N). O campo CSID 154C inclui o campo ChannelType 269 que tem um valor de 3. Cada um dos campos CSID 154 a 154C corresponde àqueles respectivos dos canais de transporte 1, 2 e 3.[0634] Figure 10N(ii) illustrates frames 249M and 249N in greater detail. As shown in the example of Figure 10N(ii), frame 249M includes CSID fields 154-154C and VVectorData fields 156 and 156B. The CSID field 154 includes the C unit 267, bb 266 and ba265 along with the ChannelType 269, each of which are set to the corresponding values 01, 1, 0 and 01 shown in the example of Figure 10J). The CSID field 154B includes the C unit 267, bb 266 and ba265 along with the ChannelType 269, each of which are set to the corresponding values 01, 1, 0 and 01 shown in the example of Figure 10N). The CSID field 154C includes the ChannelType field 269 which has a value of 3. Each of the CSID fields 154 to 154C correspond to those of the respective transport channels 1, 2 and 3.

[0635] No exemplo da Figura 10N(ii), o quadro 249M inclui dois sinais com base em vetor (devido ao ChannelType 269 igual a 1 nos campos CSID 154 e 154B) e um vazio (devido ao ChannelType 269 igual a 3 nos campos CSID 154C). Devido à porção anterior HOAconfig 250M, o dispositivo de decodificação de áudio 24 pode determinar que 16 elementos de vetor V são codificados. Em conformidade, os VVectorData 156 e 156B, cada um, incluem 16 elementos de vetor, cada dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e índices de elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength=0. Além disso, conforme verificado pelo único asterisco (*), o esquema de codificação é sinalizado por NbitsQ = 5 no campo CSID para o canal de transporte correspondente.[0635] In the example of Figure 10N(ii), frame 249M includes two vector-based signals (due to ChannelType 269 equal to 1 in CSID fields 154 and 154B) and an empty one (due to ChannelType 269 equal to 3 in fields CSID 154C). Due to the preceding HOAconfig portion 250M, the audio decoding device 24 can determine that 16 V vector elements are encoded. Accordingly, VVectorData 156 and 156B each include 16 vector elements, each of which is uniformly quantized to 8 bits. As noted by footnote 1, the number and indices of encoded VVectorData elements are specified by the CodedVVecLength=0 parameter. Also, as verified by the single asterisk (*), the encoding scheme is signaled by NbitsQ = 5 in the CSID field for the corresponding transport channel.

[0636] No quadro 249N, o campo CSID 154 e o 154B são os mesmos que aqueles no quadro 249M, enquanto o campo CSID 154C do quadro 249F comutado para um ChannelType de um. O campo CSID 154C do quadro 249B, portanto, inclui o Cbflag 267, o Pflag 267 (que indica codificação de Huffman) e Nbits 261 (igual a doze). Como resultado, o quadro 249F inclui um terceiro campo VVectorData 156C que inclui 16 elementos de vetor V, cada um dos quais é quantizado de modo uniforme com 12 bits e codificado por Huffman. Conforme verificado acima, o número e índices dos elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength = 0, enquanto o esquema de codificação de Huffman é sinalizado pelo NbitsQ = 12, CbFlag = 0 e Pflag = 0 no campo CSID 154C para esse canal de transporte particular (por exemplo, canal de transporte no 3) .[0636] In frame 249N, the CSID field 154 and 154B are the same as those in frame 249M, while the CSID field 154C of frame 249F is switched to a ChannelType of one. The CSID field 154C of frame 249B therefore includes Cbflag 267, Pflag 267 (which indicates Huffman encoding), and Nbits 261 (equals twelve). As a result, frame 249F includes a third VVectorData field 156C that includes 16 V vector elements, each of which is uniformly quantized to 12 bits and Huffman encoded. As seen above, the number and indices of encoded VVectorData elements are specified by the parameter CodedVVecLength = 0, while the Huffman encoding scheme is signaled by NbitsQ = 12, CbFlag = 0, and Pflag = 0 in the CSID field 154C for that channel. private transport (eg transport channel #3) .

[0637] O exemplo das Figuras 100(i) e 100(ii) ilustra um segundo fluxo de bits exemplificativo 2480 e a porção de configuração de HOA anexa 250O que foram gerados para corresponder ao caso 3 no pseudocódigo acima. No exemplo da Figura 100(i), a porção HOAconfig 250O inclui um elemento de sintaxe CodedVVecLength 256 estabelecido para indicar que todos os elementos de um vetor V são codificados, exceto aqueles elementos especificados em um elemento de sintaxe ContAddAmbHoaChan (que assume-se ser um, nesse exemplo). A porção HOAconfig 250O também inclui um elemento de sintaxe SpatiallnterpolationMethod 255 estabelecido para indicar que a função de interpolação da interpolação espaço-temporal é um cosseno elevado. A porção HOAconfig 250O, além disso, inclui um CodedSpatiallnterpolationTime 254 estabelecido para indicar uma duração de amostra interpolada de 256.[0637] The example of Figures 100(i) and 100(ii) illustrates a second exemplary bit stream 2480 and appended HOA configuration portion 2500 that were generated to correspond to case 3 in the above pseudocode. In the example in Figure 100(i), the HOAconfig portion 250O includes a CodedVVecLength 256 syntax element set to indicate that all elements of an array V are encoded, except those elements specified in a ContAddAmbHoaChan syntax element (which is assumed to be one in this example). The HOAconfig portion 250O also includes a SpatiallnterpolationMethod 255 syntax element established to indicate that the spatiotemporal interpolation interpolation function is a raised cosine. The HOAconfig 250O portion furthermore includes a CodedSpatiallnterpolationTime 254 set to indicate an interpolated sample duration of 256.

[0638] A porção HOAconfig 250O inclui adicionalmente um elemento de sintaxe MinAmbHoaOrder 150 estabelecido para indicar que a ordem MinimumHOA do conteúdo de HOA de ambiente é um, em que o dispositivo de decodificação de áudio 24 pode derivar de um elemento de sintaxe MinNumofCoeffsForAmbHOA que seja igual a (1+1)2 ou quatro. O dispositivo de decodificação de áudio 24 também pode derivar de um elemento de sintaxe MaxNoOfAddActiveAmbCoeffs conforme estabelecido para uma diferença entre o elemento de sintaxe NumOfHoaCoeff e o MinNumofCoeffsForAmbHOA, que se assume nesse exemplo ser igual a 16-4 ou 12. O dispositivo de decodificação de áudio 24 também pode derivar de um elemento de sintaxe AmbAsignmBits conforme estabelecido para ceil (log2(MaxNoOfAddActiveAmbCoeffs)) = ceil(log2(12)) = 4. A porção HOAconfig 250O inclui um elemento de sintaxe HoaOrder 152 estabelecido para indicar a ordem de HOA do conteúdo para ser igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar de um NumOfHoaCoeffs para ser igual a (N + 1)2 ou 16.[0638] The HOAconfig portion 250O additionally includes a MinAmbHoaOrder syntax element 150 set to indicate that the MinimumHOA order of the ambient HOA content is one, where the audio decoding device 24 may derive from a MinNumofCoeffsForAmbHOA syntax element that is equals (1+1)2 or four. The audio decoding device 24 can also derive from a MaxNoOfAddActiveAmbCoeffs syntax element as established for a difference between the NumOfHoaCoeff syntax element and the MinNumofCoeffsForAmbHOA, which is assumed in this example to be equal to 16-4 or 12. audio 24 can also be derived from an AmbAsignmBits syntax element as established for ceil (log2(MaxNoOfAddActiveAmbCoeffs)) = ceil(log2(12)) = 4. The HOAconfig 250O portion includes a HoaOrder 152 syntax element set to indicate the HOA order of the content to be equal to three (or, in other words, N = 3), where the audio decoding device 24 can derive a NumOfHoaCoeffs to be equal to (N + 1)2 or 16.

[0639] Conforme adicionalmente mostrado no exemplo da Figura 100(i), a porção 248O inclui um quadro de áudio de USAC-3D no qual dois quadros de HOA 2491 e 249P são armazenados em uma carga útil de extensão de USAC devido àqueles dois quadros de áudio serem armazenados dentro de um quadro de USAC-3D a quando replicação de banda espectral (SBR) for habilitada. O dispositivo de decodificação de áudio 24 pode derivar de diversos canais de transporte flexíveis como uma função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MinNumOfCoeffsForAmbHOA. Nos exemplos a seguir, é presumido que o elemento de sintaxe numHOATransportChannels é igual a 7 e o elemento de sintaxe MinNumOfCoeffsForAmbHOA é igual a quatro, em que o número de canais de transporte flexíveis é igual ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MinNumOfCoeffsForAmbHOA (ou três).[0639] As further shown in the example of Figure 100(i), portion 248O includes a USAC-3D audio frame in which two HOA frames 2491 and 249P are stored in a USAC extension payload due to those two frames audio files to be stored within a USAC-3D frame when spectral band replication (SBR) is enabled. The audio decoding device 24 may derive from several flexible transport channels as a function of a numHOATransportChannels syntax element and a MinNumOfCoeffsForAmbHOA syntax element. In the following examples, it is assumed that the numHOATransportChannels syntax element is equal to 7 and the MinNumOfCoeffsForAmbHOA syntax element is equal to four, where the number of flexible transport channels is equal to the numHOATransportChannels syntax element minus the MinNumOfCoeffsForAmbHOA syntax element (or three).

[0640] A Figura 100(ii) ilustra os quadros 2490 e 249P em maiores detalhes. Conforme mostrado no exemplo da Figura 100(ii), o quadro 2490 inclui os campos CSID 154-154C e um campo VVectorData 156. O campo CSID 154 inclui o CodedAmbCoeffldx 246, o AmbCoeffldxTransition 247 (em que o asterisco duplo (**) indica que, para canal de transporte de flexível no 1, assume-se que o estado interno do decodificador seja no presente documento AmbCoeffldxTransitionState = 2, que resulta no campo de bits CodedAmbCoeffldx é sinalizado ou especificado de outro modo no fluxo de bits) e o ChannelType 269 (que é igual a dois, sinalizando que a carga útil correspondente é um coeficiente HOA ambiente adicional). O dispositivo de decodificação de áudio 24 pode derivar do AmbCoeffldx como igual ao CodedAmbCoeffldx+l+MinNumOfCoeffsForAmbHOA ou 5, nesse exemplo. O campo CSID 154B inclui unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 100 (ii). O campo CSID 154C inclui o campo ChannelType 269 que tem um valor de 3.[0640] Figure 100(ii) illustrates frames 2490 and 249P in greater detail. As shown in the example in Figure 100(ii), frame 2490 includes CSID fields 154-154C and a VVectorData field 156. CSID field 154 includes CodedAmbCoeffldx 246, AmbCoeffldxTransition 247 (where the double asterisk (**) indicates which, for flexible transport channel #1, the internal state of the decoder is assumed in this document to be AmbCoeffldxTransitionState = 2, which results in the bitfield CodedAmbCoeffldx being signaled or otherwise specified in the bitstream) and the ChannelType 269 (which equals two, signaling that the corresponding payload is an additional ambient HOA coefficient). Audio decoding device 24 can derive from AmbCoeffldx as equal to CodedAmbCoeffldx+l+MinNumOfCoeffsForAmbHOA or 5 in this example. CSID field 154B includes C unit 267, bb 266 and ba265 along with ChannelType 269, each of which are set to the corresponding values 01, 1, 0 and 01 shown in the example of Figure 100(ii). The CSID field 154C includes the ChannelType field 269 which has a value of 3.

[0641] No exemplo da Figura 100(ii), o quadro 2490 inclui um único sinal com base em vetor (devido ao ChannelType 269 igual a 1 nos campos CSID 154B) e um vazio (devido ao ChannelType 269 igual a 3 nos campos CSID 154C). Devido à porção anterior HOAconfig 250O, o dispositivo de decodificação de áudio 24 pode determinar que 16 menos aquele especificado pelos elementos de sintaxe ContAddAmbHoaChan (por exemplo, em que o elemento de vetor associado a um índice de 6 é especificado como o elemento de sintaxe ContAddAmbHoaChan) ou 15 elementos de vetor V são codificados. Em conformidade, o VVectorData 156 inclui 15 elementos de vetor, cada um dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e índices de elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength=0. Além disso, conforme verificado pela nota de rodapé 2, o esquema de codificação é sinalizado por NbitsQ = 5 no campo CSID para o canal de transporte correspondente.[0641] In the example in Figure 100(ii), frame 2490 includes a single vector-based signal (due to ChannelType 269 equals 1 in CSID fields 154B) and an empty one (due to ChannelType 269 equals 3 in CSID fields 154C). Due to the preceding portion HOAconfig 250O, the audio decoding device 24 may determine that 16 minus the one specified by the ContAddAmbHoaChan syntax elements (for example, where the vector element associated with an index of 6 is specified as the ContAddAmbHoaChan syntax element ) or 15 V vector elements are encoded. Accordingly, the VVectorData 156 includes 15 vector elements, each of which is uniformly quantized to 8 bits. As noted by footnote 1, the number and indices of encoded VVectorData elements are specified by the CodedVVecLength=0 parameter. Also, as verified by footnote 2, the encoding scheme is signaled by NbitsQ = 5 in the CSID field for the corresponding transport channel.

[0642] No quadro 249P, o campo CSID 154 inclui um AmbCoeffldxTransition 247 que indica que nenhuma transição ocorreu e, portanto, o CodedAmbCoeffldx 246 pode ser implícito a partir do quadro anterior e não precisa ser sinalizado ou especificado de outro modo novamente. Os campos CSID 154B e 154C do quadro 249P são os mesmos que aqueles para o quadro 2490 e, desse modo, silimares ao quadro 2490, o quadro 249P inclui um único campo VVectorData 156, que inclui 15 elementos de vetor, cada um dos quais é quantizado de modo uniforme com 8 bits.[0642] In frame 249P, field CSID 154 includes an AmbCoeffldxTransition 247 which indicates that no transition has taken place and therefore CodedAmbCoeffldx 246 can be implied from the previous frame and need not be signaled or otherwise specified again. The CSID fields 154B and 154C of frame 249P are the same as those for frame 2490 and thus similar to frame 2490, frame 249P includes a single VVectorData field 156, which includes 15 vector elements, each of which is uniformly quantized with 8 bits.

[0643] As Figuras 11A a 11G são diagramas de bloco que ilustram, em maiores detalhes, diversas unidades do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5. A Figura 11A é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de extração 72 do dispositivo de decodificação de áudio 24. Conforme mostrado no exemplo da Figura 11 A, a unidade de extração 72 pode incluir uma unidade de análise de modo 270, uma unidade de configuração de modo 272 (“unidade de config de modo 272”) e uma unidade de extração configurável 274.[0643] Figures 11A to 11G are block diagrams illustrating, in greater detail, various units of the audio decoding device 24 shown in the example of Figure 5. Figure 11A is a block diagram illustrating, in greater detail, the extraction unit 72 of the audio decoding device 24. As shown in the example of Figure 11A, the extraction unit 72 may include a 270-mode analysis unit, a 272-mode configuration unit ("default configuration unit"). mode 272”) and a configurable extraction unit 274.

[0644] A unidade de análise de modo 270 pode representar uma unidade configurada para analisar o elemento de sintaxe verificado acima indicativo de um modo de codificação (por exemplo, o elemento de sintaxe ChannelType mostrado no exemplo da Figura 10E) usado para codificar os coeficientes A de HO 11 de modo a formar fluxo de bits 21. A unidade de análise de modo 270 pode passar o elemento de sintaxe determinado para a unidade de configuração de modo 272. A unidade de configuração de modo 272 pode representar uma unidade configurada para configurar a unidade de extração configurável 274 com base no elemento de sintaxe analisado. A unidade de configuração de modo 272 pode configurar a unidade de extração configurável 274 para extrair uma representação codificada com base em direção dos coeficientes HOA 11 do fluxo de bits 21 ou extrair uma representação codificada com base em vetor dos coeficientes HOA 11 do fluxo de bits 21 com base nos elementos de sintaxe analisado.[0644] Mode parsing unit 270 may represent a unit configured to parse the syntax element checked above indicative of an encoding mode (e.g., the ChannelType syntax element shown in the example in Figure 10E) used to encode the coefficients A of HO 11 to form bit stream 21. Mode parsing unit 270 may pass the determined syntax element to mode setting unit 272. Mode setting unit 272 may represent a unit configured to configure the configurable extraction unit 274 based on parsed syntax element. Mode setting unit 272 may configure configurable extraction unit 274 to extract a direction-based encoded representation of HOA coefficients 11 from bitstream 21 or extract a vector-based encoded representation of HOA coefficients 11 from bitstream 21 based on the parsed syntax elements.

[0645] Quando uma codificação com base em direção foi realizada, a unidade de extração configurável 274 pode extrair a versão com base em direção dos coeficientes HOA 11 e os elementos de sintaxe associados a essa versão codificada (que é indicada como informações com base em direção 91 no exemplo da Figura 11 A). Essas informações com base em direção 91 podem incluir as informações direcionais 253 mostradas no exemplo da Figura 10D e SideChannellnfoData com base em direção mostrado no exemplo da Figura 10E conforme definido por um ChannelType igual a zero.[0645] When a direction-based encoding has been performed, the configurable extraction unit 274 can extract the direction-based version of the HOA coefficients 11 and the syntax elements associated with that encoded version (which is indicated as information based on direction 91 in the example of Figure 11 A). This direction-based information 91 may include the direction-based information 253 shown in the example of Figure 10D and the direction-based SideChannellnfoData shown in the example of Figure 10E as defined by a ChannelType of zero.

[0646] Quando o elemento de sintaxe indica que os coeficientes HOA 11 foram codificados com o uso de uma síntese com base em vetor (por exemplo, quando o elemento de sintaxe ChannelType é igual a um), a unidade de extração configurável 274 pode extrair os vetores V[k] de primeiro plano codificados 57, os coeficientes HOA de ambiente codificado 59 e os sinais de nFG codificados 59. A unidade de extração configurável 274 também pode, mediante determinação de que o elemento de sintaxe indica que os coeficientes HOA 11 foram codificados com o uso de uma síntese com base em vetor, extrair o elemento de sintaxe de CodedSpatiallnterpolationTime 254 e o elemento de sintaxe SpatiallnterpolationMethod 255 do fluxo de bits 21, analisando esses elementos de sintaxe 254 e 255 para a unidade de interpolação espaço-temporal 76.[0646] When the syntax element indicates that the HOA 11 coefficients were encoded using vector-based synthesis (e.g. when the ChannelType syntax element is equal to one), the configurable extraction unit 274 can extract the coded foreground V[k] vectors 57, the coded environment HOA coefficients 59 and the coded nFG signals 59. The configurable extraction unit 274 can also, upon determining that the syntax element indicates that the HOA coefficients 11 were encoded using a vector-based synthesis, extract the CodedSpatiallnterpolationTime syntax element 254 and the SpatiallnterpolationMethod 255 syntax element from bitstream 21, parsing these syntax elements 254 and 255 for the spatiotemporal interpolation unit 76.

[0647] A Figura 11B é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de quantização 74 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5. A unidade de quantização 74 pode representar uma unidade configurada para operar de uma maneira recíproca à unidade de quantização 52 mostrada no exemplo da Figura 4 de modo a decodificar e desquantizar a entropia dos vetores V[k] de primeiro plano codificados 57 e, desse modo, gerar vetores 55k V[k] de primeiro plano reduzidos. A unidade de dequantização escalar/de entropia 984 pode incluir uma unidade de decodificação de categoria/residual 276, uma unidade de previsão 278 e uma unidade de dequantização uniforme 280.[0647] Figure 11B is a block diagram illustrating, in greater detail, the quantization unit 74 of the audio decoding device 24 shown in the example of Figure 5. The quantization unit 74 may represent a unit configured to operate in a different manner. a reciprocal way to the quantization unit 52 shown in the example of Figure 4 so as to decode and dequantize the entropy of the coded foreground vectors V[k] 57 and thereby generate reduced foreground 55k V[k] vectors. The scalar/entropy dequantization unit 984 may include a category/residual decoding unit 276, a prediction unit 278, and a uniform dequantization unit 280.

[0648] A unidade de decodificação de categoria/residual 276 pode representar uma unidade configurada para realizar a decodificação de Huffman em relação aos vetores V[k] de primeiro plano codificados 57 com o uso da tabela Huffman identificada pelas informações de tabela Huffman 241 (que é, conforme verificado acima, expressadas como um elemento de sintaxe no fluxo de bits 21). A unidade de decodificação de categoria/residual 276 pode emitir vetores V[k] de primeiro plano quantizados para a unidade de previsão 278. A unidade de previsão 278 pode representar uma unidade configurada para realizar previsão em relação aos vetores V[k] de primeiro plano quantizados com base no modo de previsão 237, emitir vetores V[k] de primeiro plano quantizados aumentados para a unidade de dequantização uniforme 280. A unidade de dequantização uniforme 280 pode representar uma unidade configurada para realizar dequantização em relação aos vetores V[k] de primeiro plano quantizados aumentados com base no valor de nbits 233, que emite os vetores V[k] 55k de primeiro plano reduzidos.[0648] Category/residual decoding unit 276 may represent a unit configured to perform Huffman decoding against encoded foreground V[k] vectors 57 using the Huffman table identified by the Huffman table information 241 ( which is, as noted above, expressed as a syntax element in bitstream 21). The category/residual decoding unit 276 may output quantized foreground vectors V[k] to the prediction unit 278. The prediction unit 278 may represent a unit configured to perform prediction with respect to the foreground vectors V[k] plane quantized based on prediction mode 237, output quantized foreground vectors V[k] augmented to uniform dequantization unit 280. Uniform dequantization unit 280 may represent a unit configured to perform dequantization with respect to vectors V[k quantized foreground ] augmented based on the value of nbits 233, which outputs the reduced foreground V[k] 55k vectors.

[0649] A Figura 11C é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de decodificação psicoacústica 80 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5. Conforme verificado acima, a unidade de decodificação psicoacústica 80 pode operar de uma maneira recíproca para a unidade de codificação de áudio psicoacústica 40 mostrada no exemplo da Figura 4 de modo a decodificar os coeficientes HOA de ambiente codificado 59 e os sinais de nFG codificados 61 e, desse modo, gerar coeficientes HOA de ambiente compensados por energia 47’ e os sinais de nFG interpolados 49’ (que também pode ser chamado de objetos de áudio de nFG interpolados 49’). A unidade de decodificação psicoacústica 80 pode passar os coeficientes HOA de ambiente compensados por energia 47’ para unidade de formulação de coeficiente de HOA 82 e os sinais de nFG 49’ para a reordenação 84. A unidade de decodificação psicoacústica 80 pode incluir uma pluralidade de decodificadores de áudio 80-80N similares à unidade de codificação de áudio psicoacústica 40. Os decodificadores de áudio 80-80N podem ser instanciados por ou incluídos de outro modo dentro da unidade de codificação de áudio psicoacústica 40 em quantidade suficiente para suportar, conforme verificado acima, decodificação simultânea de cada canal dos coeficientes HOA de segundo plano 47’ e cada sinal dos sinais de nFG 49’.[0649] Figure 11C is a block diagram illustrating, in greater detail, the psychoacoustic decoding unit 80 of the audio decoding device 24 shown in the example of Figure 5. As seen above, the psychoacoustic decoding unit 80 can operate in a reciprocal manner to the psychoacoustic audio coding unit 40 shown in the example of Figure 4 so as to decode the encoded ambient HOA coefficients 59 and the encoded nFG signals 61 and thereby generate energy compensated ambient HOA coefficients 47' and interpolated nFG signals 49' (which may also be called interpolated nFG audio objects 49'). Psychoacoustic decoding unit 80 may pass energy compensated ambient HOA coefficients 47' to HOA coefficient formulation unit 82 and nFG signals 49' to reordering 84. Psychoacoustic decoding unit 80 may include a plurality of 80-80N audio decoders similar to the psychoacoustic audio coding unit 40. The 80-80N audio decoders may be instantiated by or otherwise included within the psychoacoustic audio coding unit 40 in sufficient quantity to support, as noted above , simultaneous decoding of each channel of the background HOA coefficients 47' and each signal of the nFG signals 49'.

[0650] A Figura 11D é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de reordenação 84 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5. A unidade de reordenação 84 pode representar uma unidade configurada para operar de uma maneira recíproca similar àquela descrita acima em relação à unidade de reordenação 34. A unidade de reordenação 84 pode incluir uma unidade de reordenação de vetor 282, que pode representar uma unidade configurada para receber elementos de sintaxe 205 indicativos da ordem original dos componentes de primeiro plano dos coeficientes HOA 11. A unidade de extração 72 pode analisar esses elementos de sintaxe 205 do fluxo de bits 21 e passar o elemento de sintaxe 205 para a unidade de reordenação 84. A unidade de reordenação de vetor 282 pode, com base nesses elementos de sintaxe de reordenação 205, reorganizar os sinais de nFG interpolados 49’ e os vetores 55k V[k] de primeiro plano reduzidos para gerar sinais de nFG 49” reordenados e vetores 55k’V[k] de primeiro plano reordenados. A unidade de reordenação 84 pode emitir os sinais de nFG 49” reordenados para a unidade de formulação de primeiro plano 78 e os vetores 55k’ V[k] de primeiro plano reordenados para a unidade de interpolação espaço-temporal 76.[0650] Figure 11D is a block diagram illustrating, in greater detail, the reordering unit 84 of the audio decoding device 24 shown in the example of Figure 5. The reordering unit 84 may represent a unit configured to operate in reverse order. a reciprocal manner similar to that described above with respect to the reordering unit 34. The reordering unit 84 may include a vector reordering unit 282, which may represent a unit configured to receive syntax elements 205 indicative of the original order of the first components. plane of HOA coefficients 11. The extractor unit 72 can parse these syntax elements 205 of the bit stream 21 and pass the syntax element 205 to the reorder unit 84. The vector reorder unit 282 can, based on these elements reorder syntax 205, rearrange the interpolated nFG signals 49' and the reduced foreground 55k V[k] vectors to generate 49” re nFG signals ordinates and reordered foreground 55k'V[k] vectors. The reordering unit 84 may output the reordered nFG signals 49" to the foreground formulation unit 78 and the reordered foreground vectors 55k' V[k] to the spatiotemporal interpolation unit 76.

[0651] A Figura HE é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de interpolação espaço-temporal 76 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5. A unidade de interpolação espaço-temporal 76 pode operar de uma maneira similar àquela descrita acima em relação à unidade de interpolação espaço-temporal 50. A unidade de interpolação espaço-temporal 76 pode incluir uma unidade de interpolação V 284, que pode representar uma unidade configurada para receber os vetores 55k’ V[k] de primeiro plano reordenados e realizar a interpolação espaço-temporal em relação aos vetores 55k’ V[k] de primeiro plano reordenados e vetores 55k-i‘ V[k-1] de primeiro plano reordenados para gerar vetores 55k” V[k] de primeiro plano interpolados. A unidade de interpolação V 284 podem realizar interpolação com base em no elemento de sintaxe CodedSpatiallnterpolationTime 254 e no elemento de sintaxe SpatiallnterpolationMethod 255. Em alguns exemplos, a unidade de interpolação V 285 pode interpolar os vetores V durante a duração especificada pelo elemento de sintaxe CodedSpatiallnterpolationTime 254 com o uso do tipo de interpolação identificada pelo elemento de sintaxe SpatiallnterpolationMethod 255. A unidade de interpolação espaço-temporal 76 pode transmitir os vetores 55k” V[k] de primeiro plano interpolados para a unidade de formulação de primeiro plano 78.[0651] Figure HE is a block diagram illustrating in greater detail the spatiotemporal interpolation unit 76 of the audio decoding device 24 shown in the example of Figure 5. The spatiotemporal interpolation unit 76 may operate in a manner similar to that described above with respect to the spatiotemporal interpolation unit 50. The spatiotemporal interpolation unit 76 may include a V interpolation unit 284, which may represent a unit configured to receive vectors 55k' V[k ] reordered foreground vectors and perform spatiotemporal interpolation against the reordered foreground 55k' V[k] and reordered foreground 55k-i' V[k-1] vectors to generate 55k” V[k] ] interpolated foreground. The V interpolation unit 284 can perform interpolation based on the CodedSpatiallnterpolationTime syntax element 254 and the SpatiallnterpolationMethod syntax element 255. In some examples, the V interpolation unit 285 can interpolate the V vectors for the duration specified by the CodedSpatiallnterpolationTime syntax element. 254 using the interpolation type identified by the SpatiallnterpolationMethod syntax element 255. The spatiotemporal interpolation unit 76 can transmit the interpolated foreground 55k” V[k] vectors to the foreground formulation unit 78.

[0652] A Figura 1 IF é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de formulação de primeiro plano 78 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5. A unidade de formulação de primeiro plano 78 pode incluir uma unidade de multiplicação 286, que pode representar uma unidade configurada para realizar multiplicação de matriz em relação aos vetores 55A” V[k] de primeiro plano interpolados e aos sinais de nFG 49” reordenados para gerar os coeficientes HOA de primeiro plano 65.[0652] Figure 1 IF is a block diagram illustrating in greater detail the foreground formulation unit 78 of the audio decoding device 24 shown in the example of Figure 5. The foreground formulation unit 78 may include a multiplication unit 286, which may represent a unit configured to perform matrix multiplication with respect to interpolated foreground vectors 55A"V[k] and reordered nFG signals 49" to generate foreground HOA coefficients 65.

[0653] A Figura 11G é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de formulação de coeficiente de HOA 82 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5. A unidade de formulação de coeficiente de HOA 82 pode incluir uma unidade de adição 288, que pode representar uma unidade configurada para adicionar os coeficientes HOA de primeiro plano 65 aos canais de HOA de ambiente 47’ de modo a obter os coeficientes HOA 11 ‘.[0653] Figure 11G is a block diagram illustrating in greater detail the HOA coefficient formulation unit 82 of the audio decoding device 24 shown in the example of Figure 5. The HOA coefficient formulation unit 82 may include an addition unit 288, which may represent a unit configured to add foreground HOA coefficients 65 to room HOA channels 47' in order to obtain HOA coefficients 11'.

[0654] A Figura 12 é um diagrama que ilustra um ecossistema de áudio exemplificativo que pode realizar diversos aspectos das técnicas descritas nessa revelação. Conforme ilustrado na Figura 12, o ecossistema de áudio 300 pode incluir aquisição 301, edição 302, codificação 303, transmissão 304 e reprodução 305.[0654] Figure 12 is a diagram illustrating an exemplary audio ecosystem that can perform various aspects of the techniques described in this disclosure. As illustrated in Figure 12, the audio ecosystem 300 may include acquisition 301, editing 302, encoding 303, transmission 304, and playback 305.

[0655] A aquisição 301 pode representar as técnicas de ecossistema de áudio 300, em que o conteúdo de áudio é adquirido. Exemplos de aquisição 301 incluem, porém, sem limitação, som de gravação (por exemplo, som ao vivo), geração de áudio (por exemplo, objetos de áudio, produção de foley, síntese de som, simulações) e similares. Em alguns exemplos, o som pode ser gravado em espetáculos, eventos esportivos e quando conduz vigilância. Em alguns exemplos, o áudio pode ser gerado quando realiza simulações e criação/mixagem (por exemplo, filmes, jogos). Os objetos de áudio podem ser usados em Hollywood (por exemplo, estúdios IMAX). Em alguns exemplos, a aquisição 301 pode ser realizada por um criador de conteúdo, como criador de conteúdo 12 da Figura 3.[0655] Acquisition 301 may represent audio ecosystem techniques 300 where audio content is acquired. Examples of acquisition 301 include, but are not limited to, recording sound (e.g., live sound), audio generation (e.g., audio objects, foley production, sound synthesis, simulations), and the like. In some examples, the sound may be recorded at shows, sporting events and when conducting surveillance. In some examples, audio may be generated when performing simulations and creation/mixing (eg movies, games). Audio objects can be used in Hollywood (eg IMAX studios). In some examples, acquisition 301 may be performed by a content creator, such as content creator 12 in Figure 3.

[0656] A edição 302 pode representar as técnicas de ecossistema de áudio 300, em que o conteúdo de áudio é editado e/ou modificado. Como um exemplo, o conteúdo de áudio pode ser editado combinando-se múltiplas unidades de conteúdo de áudio em uma única unidade de conteúdo de áudio. Como outro exemplo, o conteúdo de áudio pode ser editado ajustando-se o conteúdo de áudio real (por exemplo, ajustar os níveis de um ou mais componentes de frequência do conteúdo de áudio). Em alguns exemplos, a edição 302 pode ser realizada por um sistema de edição de áudio, como sistema de edição de áudio 18 da Figura 3. Em alguns exemplos, a edição 302 pode ser realizada em um dispositivo móvel, como um ou mais dos dispositivos móveis ilustrados na Figura 29.[0656] Edit 302 may represent audio ecosystem techniques 300, where audio content is edited and/or modified. As an example, audio content can be edited by combining multiple units of audio content into a single unit of audio content. As another example, audio content can be edited by adjusting the actual audio content (for example, adjusting the levels of one or more frequency components of the audio content). In some examples, 302 editing can be performed by an audio editing system, such as audio editing system 18 of Figure 3. In some examples, 302 editing can be performed on a mobile device, such as one or more of the devices furniture illustrated in Figure 29.

[0657] A codificação 303 pode representar as técnicas de ecossistema de áudio 300, em que o conteúdo de áudio é codificado em uma representação do conteúdo de áudio. Em alguns exemplos, a representação do conteúdo de áudio pode ser um fluxo de bits, como fluxo de bits 21 da Figura 3. Em alguns exemplos, a codificação 302 pode ser realizada por um dispositivo de codificação de áudio, como dispositivo de codificação de áudio 20 da Figura 3.[0657] Encoding 303 may represent audio ecosystem techniques 300, where audio content is encoded into a representation of audio content. In some examples, the representation of the audio content may be a bitstream, such as bitstream 21 in Figure 3. In some examples, encoding 302 may be performed by an audio encoding device, such as an audio encoding device. 20 of Figure 3.

[0658] A transmissão 304 pode representar os elementos de ecossistema de áudio 300, em que o conteúdo de áudio é transportado de um criador de conteúdo para um consumidor de conteúdo. Em alguns exemplos, o conteúdo de áudio pode ser transportado em tempo real ou tempo próximo ao real. Por exemplo, o conteúdo de áudio pode ser transmitido de modo contínuo para o consumidor de conteúdo. Em alguns exemplos, o conteúdo de áudio pode ser transportado por codificação do conteúdo de áudio em uma mídia, como um meio de armazenamento legível por computador. Por exemplo, o conteúdo de áudio pode ser armazenado em um disco, unidade e similares (por exemplo, um disco Blu-ray, um cartão de memória, um disco rígido, etc.)[0658] The stream 304 may represent the audio ecosystem elements 300, where audio content is transported from a content creator to a content consumer. In some examples, the audio content may be transported in real-time or near-real time. For example, audio content can be streamed continuously to the content consumer. In some examples, audio content can be transported by encoding the audio content onto a medium, such as a computer-readable storage medium. For example, audio content can be stored on a disc, drive and the like (e.g. Blu-ray disc, memory card, hard drive, etc.)

[0659] A reprodução 305 pode representar as técnicas de ecossistema de áudio 300, em que o conteúdo de áudio é processado e reproduzido novamente para o consumidor de conteúdo. Em alguns exemplos, a reprodução 305 pode incluir processar um campo sonoro em 3D com base em um ou mais aspectos de um ambiente de reprodução. Em outras palavras, a reprodução 305 pode ter como base um ambiente acústico local.[0659] Playback 305 may represent audio ecosystem techniques 300 where audio content is processed and played back to the content consumer. In some examples, playback 305 may include processing a 3D sound field based on one or more aspects of a playback environment. In other words, playback 305 can be based on a local acoustic environment.

[0660] A Figura 13 é um diagrama que ilustra um exemplo do ecossistema de áudio da Figura 12 em maiores detalhes. Conforme ilustrado na Figura 13, o ecossistema de áudio 300 pode incluir conteúdo de áudio 308, estúdios cinematográficos 310, estúdios de música 311, estúdios de áudio de jogos 312, conteúdo de áudio com base em canal 313, mecanismos de codificação 314, troncos de áudio de jogos 315, mecanismos de codificação/renderização de áudio de jogos 316 e sistemas de entrega 317. Um estúdio de áudio de jogos exemplificativo 312 é ilustrado na Figura 26. Alguns mecanismos de codificação/renderização de áudio de jogos 316 exemplificativos são ilustrados na Figura 27.[0660] Figure 13 is a diagram illustrating an example of the audio ecosystem of Figure 12 in greater detail. As illustrated in Figure 13, the audio ecosystem 300 may include audio content 308, movie studios 310, music studios 311, game audio studios 312, channel-based audio content 313, encoding engines 314, game audio 315, game audio encoding/rendering mechanisms 316, and delivery systems 317. An exemplary game audio studio 312 is illustrated in Figure 26. Some exemplary game audio encoding/rendering mechanisms 316 are illustrated in Fig. Figure 27.

[0661] Conforme ilustrado pela Figura 13, estúdios cinematográficos 310, estúdios de música 311 e estúdios de áudio de jogos 312 podem receber conteúdo de áudio 308. Em alguns exemplos, o conteúdo de áudio 308 pode representar a emissão de aquisição 301 da Figura 12. Os estúdios cinematográficos 310 podem emitir conteúdo de áudio com base em canal 313 (por exemplo, em 2,0, 5,1 e 7,1) como usando-se uma estação de trabalho de áudio digital (DAW). Os estúdios de música 310 podem emitir conteúdo de áudio com base em canal 313 (por exemplo, em 2,0 e 5,1) como usando-se uma DAW. De qualquer modo, mecanismos de codificação 314 podem receber e codificar o conteúdo de áudio com base em canal 313 com base em um ou mais codecs (por exemplo, AAC, AC3, Dolby True HD, Dolby Digital Plus e DTS Master Audio) para emissão por sistemas de entrega 317. Dessa maneira, os mecanismos de codificação 314 podem ser um exemplo de codificação 303 da Figura 12. Os estúdios de áudio de jogos 312 podem emitir uma ou mais troncos de áudio de jogos 315, como usando-se uma DAW. Os mecanismos de codificação/renderização de áudio de jogos 316 pode codificar e/ou renderizar os troncos de áudio 315 em conteúdo de áudio com base em canal para emissão por sistemas de entrega 317. Em alguns exemplos, a emissão de estúdios cinematográficos 310, estúdios de música 311 e estúdios de áudio de jogos 312 podem representar a emissão de edição 302 da Figura 12. Em alguns exemplos, a emissão de mecanismos de codificação 314 e/ou mecanismos de codificação/renderização de áudio de jogos 316 podem ser transportados para sistemas de entrega 317 por meio das técnicas de transmissão 304 da Figura 12.[0661] As illustrated by Figure 13, movie studios 310, music studios 311, and game audio studios 312 may receive audio content 308. In some examples, audio content 308 may represent acquisition broadcast 301 of Figure 12 Film studios 310 can output audio content based on channel 313 (eg, 2.0, 5.1, and 7.1) as using a digital audio workstation (DAW). Music studios 310 can output audio content based on channel 313 (eg, 2.0 and 5.1) as using a DAW. However, encoding engines 314 can receive and encode channel-based audio content 313 based on one or more codecs (e.g., AAC, AC3, Dolby True HD, Dolby Digital Plus, and DTS Master Audio) for output by delivery systems 317. Thus, encoding mechanisms 314 may be an example of encoding 303 of Figure 12. Game audio studios 312 may output one or more game audio trunks 315, as using a DAW . Game audio encoding/rendering engines 316 can encode and/or render audio trunks 315 into channel-based audio content for broadcast by delivery systems 317. In some examples, broadcast movie studios 310, studios 311 and game audio studios 312 may represent broadcast edition 302 of Figure 12. In some examples, broadcast 314 encoding mechanisms and/or game audio encoding/rendering mechanisms 316 may be ported to systems delivery 317 via the transmission techniques 304 of Figure 12.

[0662] A Figura 14 é um diagrama que ilustra outro exemplo do ecossistema de áudio da Figura 12 em maiores detalhes. Conforme ilustrado na Figura 14, o ecossistema de áudio 300B pode incluir objetos de áudio de gravação de difusão 319, sistemas de áudio profissionais 320, captura do dispositivo de consumidor 322, formato de áudio de HOA 323, renderização no dispositivo 324, áudio de consumidor, TV e acessórios 325 e sistemas de áudio de carro 326.[0662] Figure 14 is a diagram illustrating another example of the audio ecosystem of Figure 12 in greater detail. As illustrated in Figure 14, the audio ecosystem 300B may include broadcast recording audio objects 319, professional audio systems 320, consumer device capture 322, HOA audio format 323, on-device rendering 324, consumer audio , TV and accessories 325 and car audio systems 326.

[0663] Conforme ilustrado na Figura 14, os objetos de áudio de gravação de difusão 319, os sistemas de áudio profissionais 320 e a captura do dispositivo de consumidor 322 todos podem codificar sua emissão com o uso de formato de áudio de HOA 323. Dessa maneira, o conteúdo de áudio pode ser codificado com o uso de formato de áudio de HOA 323 em uma única representação que pode ser reproduzida novamente com o uso de renderização no dispositivo 324, áudio de consumidor, TV e acessórios 325 e sistemas de áudio de carro 326. Em outras palavras, a única representação do conteúdo de áudio pode ser reproduzida novamente em um sistema de reprodução de áudio genérico (isto é, conforme oposto à exigência de uma configuração particular como 5,1, 7,1, etc.).[0663] As illustrated in Figure 14, broadcast recording audio objects 319, professional audio systems 320, and consumer device capture 322 can all encode their broadcast using HOA 323 audio format. In this way, audio content can be encoded using HOA 323 audio format into a single replayable representation using on-device 324 rendering, consumer audio, 325 TV and accessories, and 325 audio systems. car 326. In other words, the single representation of the audio content can be played back on a generic audio playback system (that is, as opposed to requiring a particular setting like 5.1, 7.1, etc.) .

[0664] As Figuras 15A e 15B são diagramas que ilustram outros exemplos do ecossistema de áudio da Figura 12 em maiores detalhes. Conforme ilustrado na Figura 15A, o ecossistema de áudio 300C pode incluir elementos de aquisição 331 e elementos de reprodução 336. Os elementos de aquisição 331 podem incluir dispositivo de aquisição com fio e/ou sem fio 332 (por exemplo, microfones Eigen), captura de som surround no dispositivo 334 e dispositivos móveis 335 (por exemplo, telefones inteligentes e computadores do tipo tablet). Em alguns exemplos, dispositivo de aquisição com fio e/ou sem fio 332 pode ser acoplado ao dispositivo móvel 335 por meio de canal(is) de comunicação com fio e/ou sem fio 333.[0664] Figures 15A and 15B are diagrams illustrating other examples of the audio ecosystem of Figure 12 in greater detail. As illustrated in Figure 15A, the audio ecosystem 300C may include acquisition elements 331 and playback elements 336. Acquisition elements 331 may include wired and/or wireless acquisition device 332 (e.g., Eigen microphones), capture surround sound on device 334 and mobile devices 335 (e.g. smart phones and tablet computers). In some examples, wired and/or wireless acquisition device 332 may be coupled to mobile device 335 via wired and/or wireless communication channel(s) 333.

[0665] De acordo com um ou mais técnicas dessa revelação, dispositivo móvel 335 pode ser usado para adquirir um campo sonoro. Por exemplo, o dispositivo móvel 335 pode adquirir um campo sonoro por meio de dispositivo de aquisição com fio e/ou sem fio 332 e/ou captura de som surround no dispositivo 334 (por exemplo, uma pluralidade de microfones integrados no dispositivo móvel 335). O dispositivo móvel 335 pode, então, codificar o campo sonoro adquirido em HO As 337 para reprodução por um ou mais de elementos de reprodução 336. Por exemplo, um usuário de dispositivo móvel 335 pode gravar (adquirir um campo sonoro de) um evento ao vivo (por exemplo, um encontro, uma conferência, um jogo, um espetáculo, etc.) e codificar a gravação em HOAs.[0665] According to one or more techniques of this disclosure, mobile device 335 can be used to acquire a sound field. For example, mobile device 335 may acquire a sound field via wired and/or wireless acquisition device 332 and/or capture surround sound on device 334 (e.g., a plurality of microphones integrated into mobile device 335) . Mobile device 335 may then encode the acquired sound field at HO As 337 for playback by one or more of playback elements 336. For example, a user of mobile device 335 may record (acquire a sound field of) an event at a time. (eg, a meeting, conference, game, show, etc.) and encode the recording into HOAs.

[0666] O dispositivo móvel 335 também pode utilizar um ou mais de elementos de reprodução 336 para reproduzir o campo sonoro codificado HOA. Por exemplo, O dispositivo móvel 335 pode decodificar o campo sonoro codificado de HOA e emitir um sinal para um ou mais de elementos de reprodução 336 que fazem com que o um ou mais de elementos de reprodução 336 recriem o campo sonoro. Como um exemplo, o dispositivo móvel 335 pode utilizar canais de comunicação sem fio e/ou com fio 338 para emitir o sinal para um ou mais alto-falantes (por exemplo, matrizes de alto-falante, barras de som, etc.). Como outro exemplo, o dispositivo móvel 335 pode utilizar soluções de encaixe 339 para emitir o sinal para uma ou mais estações de encaixe e/ou um ou mais alto-falantes encaixados (por exemplo, sistemas de som em carros inteligentes e/ou domicílios). Como outro exemplo, o dispositivo móvel 335 pode utilizar renderização de fone de ouvido 340 para emitir o sinal para um conjunto de fones de ouvido, por exemplo, para criar som binaural realista.[0666] Mobile device 335 may also utilize one or more of playback elements 336 to reproduce the HOA encoded sound field. For example, mobile device 335 may decode the HOA encoded sound field and output a signal to one or more of the playback elements 336 which causes the one or more of the playback elements 336 to recreate the sound field. As an example, mobile device 335 may utilize wireless and/or wired communication channels 338 to output the signal to one or more speakers (e.g., speaker arrays, soundbars, etc.). As another example, mobile device 335 may utilize docking solutions 339 to output the signal to one or more docking stations and/or one or more docking speakers (e.g., sound systems in smart cars and/or homes) . As another example, mobile device 335 may use headphone rendering 340 to output the signal to a set of headphones, for example, to create realistic binaural sound.

[0667] Em alguns exemplos, um dispositivo móvel particular 335 pode tanto adquirir um campo sonoro em 3D e reproduzir o mesmo campo sonoro em 3D em um tempo posterior. Em alguns exemplos, o dispositivo móvel 335 pode adquirir um campo sonoro em 3D, codificar o campo sonoro em 3D em HOA e transmitir o campo sonoro em 3D codificado para um ou mais outros dispositivos (por exemplo, outros dispositivos móveis e/ou outros dispositivos não móveis) para reprodução.[0667] In some examples, a particular mobile device 335 can both acquire a 3D sound field and reproduce the same 3D sound field at a later time. In some examples, mobile device 335 may acquire a 3D sound field, encode the 3D sound field in HOA, and transmit the encoded 3D sound field to one or more other devices (e.g., other mobile devices and/or other devices). non-mobile) for playback.

[0668] Conforme ilustrado na Figura 15B, o ecossistema de áudio 300D pode incluir conteúdo de áudio 343, estúdios de jogos 344, conteúdo de áudio codificado 345, mecanismos de renderização 346 e sistemas de entrega 347. Em alguns exemplos, os estúdios de jogos 344 podem incluir uma ou mais DAWs que podem suportar edição de sinais de HOA. Por exemplo, a uma ou mais DAWs podem incluir HOA plug-ins e/ou ferramentas que podem ser configuradas para operar com (por exemplo, trabalhar com) um ou mais sistemas de áudio de jogos. Em alguns exemplos, os estúdios de jogos 344 podem emitir novos formatos de tronco que suportam HOA. Em qualquer caso, os estúdios de jogos 344 podem emitir conteúdo de áudio codificado 345 para renderizar mecanismos 346 que podem renderizar um campo sonoro para reprodução por sistemas de entrega 347.[0668] As illustrated in Figure 15B, the 300D audio ecosystem may include 343 audio content, 344 game studios, 345 encoded audio content, 345 rendering engines, and 347 delivery systems. In some examples, game studios 344 modules may include one or more DAWs that can support HOA signal editing. For example, one or more DAWs may include HOA plug-ins and/or tools that can be configured to operate with (eg work with) one or more game audio systems. In some examples, 344 game studios may issue new trunk formats that support HOA. In either case, game studios 344 can output encoded audio content 345 to render engines 346 that can render a sound field for playback by delivery systems 347.

[0669] A Figura 16 é um diagrama que ilustra um dispositivo de codificação de áudio exemplificativo que pode realizar diversos aspectos das técnicas descritas nessa revelação. Conforme ilustrado na Figura 16, o ecossistema de áudio 300E pode incluir conteúdo de áudio em 3D original 351, codificador 352, fluxo de bits 353, decodificador 354, renderizador 355 e elementos de reprodução 356. Conforme adicionalmente ilustrado pela Figura 16, o codificador 352 pode incluir análise de campo sonoro e decomposição 357, extração de segundo plano 358, determinação de saliência de segundo plano 359, codificação de áudio 360, extração de áudio de segundo plano/distinto 361 e codificação de áudio 362. Em alguns exemplos, o codificador 352 pode ser configurado para realizar operações similares ao dispositivo de codificação de áudio 20 3das Figuras 3 e 4. Em alguns exemplos, a análise de campo sonoro e decomposição 357 pode ser configurada para realizar operações similares à unidade de análise de campo sonoro 44 da Figura 4. Em alguns exemplos, a extração de segundo plano 358 e a determinação de saliência de segundo plano 359 podem ser configuradas para realizar operações similares à unidade de seleção de BG 48 da Figura 4. Em alguns exemplos, a codificação de áudio 360 e a codificação de áudio 362 podem ser configuradas para realizar operações similares à unidade de codificador de áudio psicoacústico 40 da Figura 4. Em alguns exemplos, a extração de áudio de segundo plano/distinto 361 pode ser configurada para realizar operações similares à unidade de seleção de segundo plano 36 da Figura 4.[0669] Figure 16 is a diagram illustrating an exemplary audio encoding device that can perform various aspects of the techniques described in that disclosure. As illustrated in Figure 16, the audio ecosystem 300E may include original 3D audio content 351, encoder 352, bitstream 353, decoder 354, renderer 355, and playback elements 356. As further illustrated by Figure 16, encoder 352 may include sound field analysis and decomposition 357, background extraction 358, background saliency determination 359, audio encoding 360, background/distinctive audio extraction 361, and audio encoding 362. In some examples, the encoder 352 may be configured to perform similar operations to the audio encoding device 20 3of Figures 3 and 4. In some examples, sound field analysis and decomposition 357 may be configured to perform similar operations to the sound field analysis unit 44 of Figure 4. In some examples, background extraction 358 and background bump determination 359 can be configured to perform s similar to the BG selection unit 48 of Figure 4. In some examples, the audio encoding 360 and the audio encoding 362 can be configured to perform similar operations to the psychoacoustic audio encoder unit 40 of Figure 4. In some examples, background/distinctive audio extraction 361 can be configured to perform similar operations to background selection unit 36 in Figure 4.

[0670] Em alguns exemplos, a extração de áudio de segundo plano/distinto 361 pode analisar o conteúdo de áudio que corresponde ao quadro de vídeo 390 da Figura 33. Por exemplo, a extração de áudio de segundo plano/distinto 361 pode determinar que o conteúdo de áudio que corresponde às regiões 391 A-391 C é áudio de primeiro plano.[0670] In some examples, background/distinctive 361 audio extraction may parse audio content that corresponds to video frame 390 in Figure 33. For example, background/distinctive 361 audio extraction may determine that audio content that corresponds to regions 391 A-391 C is foreground audio.

[0671] Conforme ilustrado na Figura 16, o codificar 352 pode ser configurado para codificar conteúdo original 351, que pode ter uma taxa de bit de 25 a 75 Mbps, em fluxo de bits 353, que pode ter uma taxa de bit de 256kbps a 1,2 Mbps. A Figura 17 é um diagrama que ilustra um exemplo do dispositivo de codificação de áudio da Figura 16 em maiores detalhes.[0671] As illustrated in Figure 16, encoder 352 can be configured to encode original content 351, which can have a bit rate of 25 to 75 Mbps, into bitstream 353, which can have a bit rate of 256kbps at 1.2 Mbps. Figure 17 is a diagram illustrating an example of the audio encoding device of Figure 16 in greater detail.

[0672] A Figura 18 é um diagrama que ilustra um dispositivo de codificação de áudio exemplificativo que pode realizar diversos aspectos das técnicas descritas nessa revelação. Conforme ilustrado na Figura 18, o ecossistema de áudio 300E pode incluir conteúdo de áudio em 3D original 351, codificador 352, fluxo de bits 353, decodificador 354, renderizador 355 e elementos de reprodução 356. Conforme adicionalmente ilustrado pela Figura 16, o codificador 354 pode incluir decodificador de áudio 363, decodificador de áudio 364, reconstrução de primeiro plano 365 e mixagem 366. Em alguns exemplos, o decodificador 354 pode ser configurado para realizar operações similares ao dispositivo de decodificação de áudio 24 das Figuras 3 e 5. Em alguns exemplos, o decodificador de áudio 363, o decodificador de áudio 364 podem ser configurados para realizar operações similares à unidade de decodificação psicoacústica 80 da Figura 5. Em alguns exemplos, a reconstrução de primeiro plano 365 pode ser configurada para realizar operações similares à unidade de formulação de primeiro plano 78 da Figura 5.[0672] Figure 18 is a diagram illustrating an exemplary audio encoding device that can perform various aspects of the techniques described in that disclosure. As illustrated in Figure 18, the audio ecosystem 300E may include original 3D audio content 351, encoder 352, bitstream 353, decoder 354, renderer 355, and playback elements 356. As further illustrated by Figure 16, encoder 354 may include audio decoder 363, audio decoder 364, foreground reconstruction 365, and mixing 366. In some instances, decoder 354 may be configured to perform similar operations to the audio decoding device 24 of Figures 3 and 5. In some For examples, audio decoder 363, audio decoder 364 can be configured to perform similar operations to psychoacoustic decoding unit 80 of Figure 5. In some examples, foreground reconstruction 365 can be configured to perform similar operations to the psychoacoustic decoding unit 80 of Figure 5. foreground formulation 78 of Figure 5.

[0673] Conforme ilustrado na Figura 16, o decodificador 354 pode ser configurado para receber e decodificar fluxo de bits 353 e emitir o campo sonoro em 3D reconstruído resultante para renderizar 355, o que pode, então, fazer com que um ou mais de elementos de reprodução 356 emitam um conteúdo de representação de original 3D 351. A Figura 19 é um diagrama que ilustra um exemplo do dispositivo de decodificação de áudio da Figura 18 em maiores detalhes.[0673] As illustrated in Figure 16, the decoder 354 can be configured to receive and decode bitstream 353 and output the resulting reconstructed 3D sound field to render 355, which can then cause one or more of the elements 356 output 3D original representation content 351. Figure 19 is a diagram illustrating an example of the audio decoding device of Figure 18 in greater detail.

[0674] As Figuras 20A a 20G são diagramas que ilustram dispositivos de aquisição de áudio exemplificativos que pode realizar diversos aspectos das técnicas descritas nessa revelação. A Figura 20A ilustra o microfone Eigen 370 que pode incluir uma pluralidade de microfones que são coletivamente configurados para gravar um campo sonoro em 3D. Em alguns exemplos, a pluralidade de microfones de microfones Eigen 370 podem estar localizados na superfície de uma bola substancialmente esférica com um raio de aproximadamente 4 cm. Em alguns exemplos, o dispositivo de codificação de áudio 20 pode ser integrado ao microfone Eigen de modo a emitir um fluxo de bits 17 diretamente do microfone 370.[0674] Figures 20A through 20G are diagrams illustrating exemplary audio acquisition devices that can perform various aspects of the techniques described in this disclosure. Figure 20A illustrates the Eigen 370 microphone which may include a plurality of microphones that are collectively configured to record a 3D sound field. In some examples, the plurality of microphones of Eigen 370 microphones may be located on the surface of a substantially spherical ball with a radius of approximately 4 cm. In some examples, the audio encoding device 20 can be integrated into the Eigen microphone so as to output a stream of bits 17 directly from the microphone 370.

[0675] A Figura 20B ilustra um caminhão de produção 372 que pode ser configurado para receber um sinal de um ou mais microfones, como um ou mais microfones Eigen 370. O caminhão de produção 372 também pode incluir um codificador de áudio, como codificador de áudio 20 da Figura 3.[0675] Figure 20B illustrates a production truck 372 that can be configured to receive a signal from one or more microphones, such as one or more Eigen 370 microphones. The production truck 372 may also include an audio encoder, such as an audio encoder. audio 20 of Figure 3.

[0676] As Figuras 20C a 20E ilustram dispositivo móvel 374 que pode incluir uma pluralidade de microfones que são coletivamente configurados para gravar um campo sonoro em 3D. Em outras palavras, a pluralidade de microfones pode ter diversidade X, Y, Z. Em alguns exemplos, o dispositivo móvel 374 pode incluir microfone 376 que pode ser girado para fornecer diversidade X, Y, Z em relação a um ou mais outros microfones de dispositivo móvel 374. O dispositivo móvel 374 também pode incluir um codificador de áudio, como codificador de áudio 20 da Figura 3.[0676] Figures 20C to 20E illustrate mobile device 374 that may include a plurality of microphones that are collectively configured to record a 3D sound field. In other words, the plurality of microphones may have X, Y, Z diversity. In some examples, mobile device 374 may include microphone 376 which may be rotated to provide X, Y, Z diversity with respect to one or more other microphones of mobile device 374. Mobile device 374 may also include an audio encoder, such as audio encoder 20 of Figure 3.

[0677] A Figura 20F ilustra um dispositivo de captura de vídeo robustecido 378 que pode ser configurado para gravar um campo sonoro em 3D. Em alguns exemplos, o dispositivo de captura de vídeo robustecido 378 pode ser fixado a um capacete de um usuário que realiza uma atividade. Por exemplo, o dispositivo de captura de vídeo robustecido 378 pode ser fixado a um capacete de um usuário rafting em águas claras. Dessa maneira, o dispositivo de captura de vídeo robustecido 378 pode capturar um campo sonoro em 3D que representa a ação toda ao redor do usuário (por exemplo, queda de água atrás do usuário, outro rafter falando na frente do usuário, etc...).[0677] Figure 20F illustrates a ruggedized video capture device 378 that can be configured to record a 3D sound field. In some examples, the ruggedized video capture device 378 may be attached to a helmet of a user performing an activity. For example, the ruggedized video capture device 378 can be attached to a white water rafting user's helmet. In this way, the 378 rugged video capture device can capture a 3D sound field that represents the action all around the user (e.g. water falling behind the user, another rafter speaking in front of the user, etc... ).

[0678] A Figura 20G ilustra dispositivo móvel aprimorado auxiliar 380 que pode ser configurado para gravar um campo sonoro em 3D. Em alguns exemplos, o dispositivo móvel 380 pode ser similar ao dispositivo móvel 335 da Figura 15, com a adição de um ou mais acessórios. Por exemplo, um microfone Eigen pode ser fixado ao dispositivo móvel 335 da Figura 15 para formar o dispositivo móvel aprimorado auxiliar 380. Dessa maneira, o dispositivo móvel aprimorado auxiliar 380 pode capturar uma versão de qualidade superior do campo sonoro em 3D do que apenas com o uso de componentes de captura de som integrados ao dispositivo móvel aprimorado auxiliar 380.[0678] Figure 20G illustrates enhanced mobile auxiliary device 380 that can be configured to record a 3D sound field. In some examples, mobile device 380 may be similar to mobile device 335 of Figure 15, with the addition of one or more accessories. For example, an Eigen microphone can be attached to the mobile device 335 of Figure 15 to form the Mobile Enhanced Auxiliary 380. In this way, the Mobile Enhanced Auxiliary 380 can capture a higher quality version of the 3D sound field than with just the use of sound capture components built into the mobile device Enhanced Auxiliary 380.

[0679] As Figuras 21A a 21E são diagramas que ilustram dispositivos de reprodução de áudio exemplificativos que podem realizar diversos aspectos das técnicas descritas nessa revelação. As Figuras 21 A e 2 IB ilustram uma pluralidade de alto-falantes 382 e barras de som 384. De acordo com uma ou mais técnicas dessa revelação, os alto-falantes 382 e/ou barras de som 384 podem ser dispostas em qualquer configuração arbitrária enquanto ainda reproduzem novamente um campo sonoro em 3D. As Figuras 21C a 21E ilustram uma pluralidade de dispositivos de reprodução de fone de ouvido 386 a 386C. Os dispositivos de reprodução de fone de ouvido 386 a 386C podem ser acoplados a um decodificador tanto por meio de uma conexão com fio quanto por meio de uma conexão sem fio. De acordo com uma ou mais técnicas dessa revelação, uma única representação genérica de um campo sonoro pode ser utilizada para renderizar o campo sonoro em qualquer combinação de alto-falantes 382, barras de som 384 e dispositivos de reprodução de fone de ouvido 386 a 386C.[0679] Figures 21A through 21E are diagrams illustrating exemplary audio reproduction devices that may perform various aspects of the techniques described in that disclosure. Figures 21A and 2IB illustrate a plurality of speakers 382 and soundbars 384. In accordance with one or more techniques of this disclosure, speakers 382 and/or soundbars 384 may be arranged in any arbitrary configuration. while still reproducing a 3D sound field. Figures 21C to 21E illustrate a plurality of headphone playback devices 386 to 386C. Headphone playback devices 386 to 386C can be attached to a set top box either through a wired connection or through a wireless connection. According to one or more techniques of this disclosure, a single generic representation of a sound field can be used to render the sound field in any combination of 382 speakers, 384 soundbars, and 386 to 386C headphone playback devices. .

[0680] As Figuras 22A a 22H são diagramas que ilustram ambientes de reprodução de áudio exemplificativos de acordo com um ou mais técnicas descritas nessa revelação. Por exemplo, a Figura 22A ilustra um ambiente de reprodução de alto-falante 5,1, a Figura 22B ilustra um ambiente de reprodução de alto-falante 2,0 (por exemplo, estéreo), a Figura 22C ilustra um ambiente de reprodução de alto-falante 9,1 com alto-falantes acústicos anteriores de altura máxima, as Figuras 22D e 22E, cada uma, ilustram um ambiente de reprodução de alto-falante 22,2, a Figura 22F ilustra um ambiente de reprodução de alto-falante 16,0, a Figura 22G ilustra um ambiente de reprodução de alto- falante automotivo e a Figura 22H ilustra um dispositivo móvel com ambiente de reprodução de protetor auricular.[0680] Figures 22A to 22H are diagrams illustrating exemplary audio playback environments in accordance with one or more techniques described in that disclosure. For example, Figure 22A illustrates a 5.1 speaker playback environment, Figure 22B illustrates a 2.0 (e.g. stereo) speaker playback environment, Figure 22C illustrates a 2.0 speaker playback environment. 9.1 speaker with full-height anterior acoustic speakers, Figures 22D and 22E each illustrate a 22.2 speaker playback environment, Figure 22F illustrates a speaker playback environment 16.0, Figure 22G illustrates an automotive speaker playback environment, and Figure 22H illustrates a mobile device with earplug playback environment.

[0681] De acordo com uma ou mais técnicas dessa revelação, uma única representação genérica de um campo sonoro pode ser utilizada para renderizar o campo sonoro em qualquer um dos ambientes de reprodução ilustrados nas Figuras 22A a 22H. Adicionalmente, as técnicas dessa revelação habilitam uma renderização para renderizar um campo sonoro de uma representação genérica para reprodução nos ambientes de reprodução além daqueles ilustrados nas Figuras 22A a 22H. Por exemplo, se considerações de projeto proibirem colocação apropriada de alto-falantes de acordo com o ambiente de reprodução de alto-falante 7,1 (por exemplo, se não é possível colocar um alto-falante surround direito), as técnicas dessa revelação habilitam uma renderização para compensar com os outros 6 alto-falantes para que a reprodução possa ser alcançada em um ambiente de reprodução de alto-falante 6,1.[0681] According to one or more techniques of this disclosure, a single generic representation of a sound field can be used to render the sound field in any of the playback environments illustrated in Figures 22A to 22H. Additionally, the techniques of this disclosure enable a rendering to render a sound field of a generic representation for playback in playback environments other than those illustrated in Figures 22A through 22H. For example, if design considerations prohibit proper placement of speakers according to the 7.1 speaker playback environment (for example, if it is not possible to place a right surround speaker), the techniques of this disclosure enable a rendering to compensate with the other 6 speakers so that playback can be achieved in a 6.1 speaker playback environment.

[0682] Conforme ilustrado na Figura 23, um usuário pode assistir a um jogo esportivo enquanto usa fones de ouvido 386. De acordo com uma ou mais técnicas dessa revelação, o campo sonoro em 3D do jogo esportivo pode ser adquirido (por exemplo, um ou mais microfones Eigen podem ser colocados em e/ou ao redor do estádio de baseball ilustrado na Figura 24), os coeficientes HOA que correspondem ao campo sonoro em 3D podem ser obtidos e transmitidos para um decodificador, em que o decodificador pode determinar a reconstrução do campo sonoro em 3D com base nos coeficientes HOA e emitir o reconstruído ao campo sonoro em 3D para um renderizador, em que o renderizador por obter uma indicação quanto ao tipo de ambiente de reprodução (por exemplo, fones de ouvido) e renderizar o reconstruído ao campo sonoro em 3D em sinais que fazem com que os fones de ouvido emitam uma representação do campo sonoro em 3D do jogo esportivo. Em alguns exemplos, o renderizador pode obter uma indicação quanto ao tipo de ambiente de reprodução de acordo com as técnicas da Figura 25. Dessa maneira, o renderizador pode “adaptar” for diversas localizações de alto-falante, tipo de números, tamanho e também equalizar de modo ideal para o ambiente local.[0682] As illustrated in Figure 23, a user can watch a sports game while wearing 386 headphones. According to one or more techniques of this revelation, the 3D sound field of the sports game can be acquired (for example, a or more Eigen microphones can be placed in and/or around the baseball stadium illustrated in Figure 24), the HOA coefficients corresponding to the 3D sound field can be obtained and transmitted to a decoder, where the decoder can determine the reconstruction of the 3D sound field based on the HOA coefficients and output the reconstructed to the 3D sound field to a renderer, where the renderer can obtain an indication as to the type of playback environment (e.g. headphones) and render the reconstructed to the 3D sound field in signals that cause the headphones to emit a 3D sound field representation of the sports game. In some examples, the renderer can get an indication as to the type of playback environment according to the techniques in Figure 25. In this way, the renderer can “adapt” for various speaker locations, type of numbers, size and also optimally equalize to the local environment.

[0683] A Figura 28 é um diagrama que ilustra uma configuração de alto-falante que pode ser simulada através de fones de ouvido de acordo com uma ou mais técnicas descritas nesta revelação. Conforme ilustrado pela Figura 28, as técnicas dessa revelação podem habilitar um usuário que usa fones de ouvido 389 a experimentar um campo sonoro como se o campo sonoro fosse reproduzido novamente por alto-falantes 388. Dessa maneira, um usuário pode escutar um campo sonoro em 3D sem som ser emitido para uma área grande.[0683] Figure 28 is a diagram illustrating a speaker configuration that can be simulated through headphones in accordance with one or more of the techniques described in this disclosure. As illustrated by Figure 28, the techniques of such disclosure can enable a user who wears headphones 389 to experience a sound field as if the sound field were reproduced again by speakers 388. In this way, a user can hear a sound field in 3D without sound being output to a large area.

[0684] A Figura 30 é um diagrama que ilustra um quadro de vídeo associado a um campo sonoro em 3D que pode ser processado de acordo com uma ou mais técnicas descritas nessa revelação.[0684] Figure 30 is a diagram illustrating a video frame associated with a 3D sound field that can be processed according to one or more techniques described in this disclosure.

[0685] As Figuras 31A a 31M são diagramas que ilustram gráficos 400A a 400M que mostram vários resultados de simulação de desempenhar a categorização sintética ou gravada do campo sonoro de acordo com vários aspectos das técnicas descritas nesta revelação. Nos exemplos da Figura 31A a 31M, cada um dos gráficos 400A a 400M inclui um limite 402 que é indicado por uma linha tracejada e um respectivo objeto de áudio 404A a 404M (coletivamente, “os objetos de áudio 404”) indicado por uma linha tracejada.[0685] Figures 31A to 31M are diagrams illustrating graphs 400A to 400M showing various simulation results of performing synthetic or recorded sound field categorization in accordance with various aspects of the techniques described in this disclosure. In the examples in Figure 31A through 31M, each of the graphs 400A through 400M includes a boundary 402 that is indicated by a dashed line and a respective audio object 404A through 404M (collectively, “the audio objects 404”) indicated by a line dashed.

[0686] Quando os objetos de áudio 404 através das análises descritas acima em relação à unidade de análise de conteúdo 26 são determinadas para estar abaixo do limite 402, a unidade de análise de conteúdo 26 determina que aquela correspondente dos objetos de áudio 404 representa um objeto de áudio que foi gravado. Conforme mostrado nos exemplos das Figuras 3 IB, 31D-31H e 31J-31L, a unidade de análise de conteúdo 26 determina que os objetos de áudio 404B, 404D-404H, 404J-404L estão abaixo do limite 402 (pelo menos +90% do tempo e, geralmente, 100% do tempo) e, portanto, representa objetos de áudio gravados. Conforme mostrado nos exemplos das Figuras 31A, 31C e 311, a unidade de análise de conteúdo 26 determina que os objetos de áudio 404 A, 404C e 4041 excedem o limite 402 e, portanto, representa objetos de áudio sintéticos.[0686] When the audio objects 404 through the analyzes described above in relation to the content analysis unit 26 are determined to be below the threshold 402, the content analysis unit 26 determines that the corresponding one of the audio objects 404 represents a audio object that was recorded. As shown in the examples of Figures 3IB, 31D-31H and 31J-31L, the content analysis unit 26 determines that the audio objects 404B, 404D-404H, 404J-404L are below threshold 402 (at least +90% of time and usually 100% of the time) and therefore represents recorded audio objects. As shown in the examples of Figures 31A, 31C and 311, the content analysis unit 26 determines that the audio objects 404A, 404C and 4041 exceed the threshold 402 and therefore represent synthetic audio objects.

[0687] No exemplo da Figura 31M, o objeto de áudio 404M representa um objeto de áudio sintético/gravado mixado, que tem algumas porções sintéticas (por exemplo, acima do limite 402) e algumas porções sintéticas (por exemplo, abaixo do limite 402). A unidade de análise de conteúdo 26, nesse exemplo, identifica as porções sintéticas e gravadas do objeto de áudio 404M com o resultado de que o dispositivo de codificação de áudio 20 gera o fluxo de bits 21 para incluir tanto dados de áudio codificados com base em direcionalidade quanto dados de áudio codificados com base em vetor.[0687] In the example in Figure 31M, the audio object 404M represents a mixed synthetic/recorded audio object, which has some synthetic portions (e.g. above threshold 402) and some synthetic portions (e.g. below threshold 402 ). The content analysis unit 26, in this example, identifies the synthetic and recorded portions of the audio object 404M with the result that the audio encoding device 20 generates the bit stream 21 to include both audio data encoded based on directionality and vector-based encoded audio data.

[0688] A Figura 32 é um diagrama que ilustra um gráfico 406 de valores únicos a partir de uma matriz S decomposta a partir de coeficientes ambisonic de ordem superior de acordo com as técnicas descritas nesta revelação. Conforme mostrado na Figura 32, os valores singulares diferentes de zero que têm valores grandes são poucos. A unidade de análise de campo sonoro 44 da Figura 4 pode analisar esses valores singulares para determinar os componentes (ou, em outras palavras, predominante) de segundo plano de nFG (geralmente, representados por vetores) dos vetores 33’ XJS[k] reordenados e os vetores 35’ V[k] reordenados.[0688] Figure 32 is a diagram illustrating a graph 406 of single values from a matrix S decomposed from higher order ambisonic coefficients in accordance with the techniques described in this disclosure. As shown in Figure 32, nonzero singular values that have large values are few. The sound field analysis unit 44 of Figure 4 can analyze these singular values to determine the background (or, in other words, predominant) components of nFG (generally represented by vectors) of the reordered vectors 33' XJS[k] and the reordered 35' V[k] vectors.

[0689] As Figuras 33 A e 33B são diagramas que ilustram os respectivos gráficos 410A e 410B que mostram um impacto potencial que a reordenação tem quando codifica os vetores que descrevem componentes de primeiro plano do campo sonoro de acordo com as técnicas descritas nesta revelação. O gráfico 410A mostra o resultado de codificar pelo menos alguns dos vetores (ou, em outras palavras, o original) vetores 33 XJS[k] não ordenados, enquanto o gráfico 410B mostra o resultado de codificar aqueles correspondentes dos vetores 33‘ XJS[k] ordenados. A plotagem de topo em cada um dos gráficos 410A e 410B mostra o erro na codificação, em que há provavelmente apenas erro perceptível no gráfico 410B em limites de quadro. Em conformidade, as técnicas de reordenação descritas nessa revelação podem facilitar ou promover de outro modo a codificação de objetos de áudio mono com o uso de um codificador de áudio de legado.[0689] Figures 33A and 33B are diagrams illustrating respective graphs 410A and 410B showing a potential impact that reordering has when encoding vectors describing foreground components of the sound field in accordance with the techniques described in this disclosure. Graph 410A shows the result of encoding at least some of the vectors (or, in other words, the original) unordered 33 XJS[k] vectors, while graph 410B shows the result of encoding those corresponding to the 33' XJS[k] vectors ] ordered. The top plot on each of the 410A and 410B graphs shows the error in encoding, where there is probably only noticeable error in the 410B graph at frame boundaries. Accordingly, the reordering techniques described in that disclosure may facilitate or otherwise promote the encoding of mono audio objects using a legacy audio encoder.

[0690] As Figuras 34 e 35 são diagramas conceituais que ilustram diferenças entre identificação somente com base em energia e com base em direcionalidade de objetos de áudio distintos, de acordo com esta revelação. No exemplo da Figura 34, os vetores que exibem energia maior são identificados como sendo objetos de áudio distintos, independentemente da direcionalidade. Conforme mostrado na Figura 34, os objetos de áudio que são posicionados de acordo com valores de energia maiores (plotados em um eixo geométrico y) são determinados para estar “no primeiro plano”, independentemente da direcionalidade (por exemplo, representado por quocientes de direcionalidade plotados em um eixo geométrico x).[0690] Figures 34 and 35 are conceptual diagrams illustrating differences between energy-only and directionality-based identification of distinct audio objects, in accordance with this disclosure. In the example in Figure 34, vectors that exhibit higher energy are identified as being distinct audio objects, regardless of directionality. As shown in Figure 34, audio objects that are positioned according to higher energy values (plotted on a y-axis) are determined to be “in the foreground”, regardless of directionality (e.g. represented by directionality quotients). plotted on an x-axis).

[0691] A Figura 35 ilustra a identificação de objetos de áudio distintos com base tanto na direcionalidade quanto na energia, como de acordo com as técnicas implantadas pela unidade de análise de campo sonoro 44 da Figura 4. Conforme mostrado na Figura 35, quocientes de direcionalidade maiores são plotados direcionados para a esquerda do eixo geométrico x e níveis de energia maiores são plotados direcionados para o topo do eixo geométrico y. Nesse exemplo, a unidade de análise de campo sonoro 44 pode determinar que os objetos de áudio distintos (por exemplo, que estão “no primeiro plano”) são associados aos dados de vetor plotados relativamente direcionados para a esquerda de topo do gráfico. Como um exemplo, a unidade de análise de campo sonoro 44 pode determinar que aqueles vetores que são plotados no quadrante esquerdo de topo do gráfico são associados aos objetos de áudio distintos.[0691] Figure 35 illustrates the identification of distinct audio objects based on both directionality and energy, as well as according to the techniques implemented by the sound field analysis unit 44 of Figure 4. As shown in Figure 35, quotients of greater directionality are plotted heading to the left of the x-axis, and higher energy levels are plotted heading toward the top of the y-axis. In this example, the sound field analysis unit 44 can determine that distinct audio objects (e.g., that are "in the foreground") are associated with plotted vector data relatively to the top left of the graph. As an example, the sound field analysis unit 44 can determine that those vectors that are plotted in the top left quadrant of the graph are associated with distinct audio objects.

[0692] As Figuras 36A a 36F são diagramas que ilustram projeções de pelo menos uma porção da versão decomposta de coeficientes harmônicos esféricos para o domínio espacial de modo a desempenhar a interpolação de acordo com vários aspectos das técnicas descritas nesta revelação. A Figura 36A é um diagrama que ilustra projeção de um ou mais dos vetores 35 V[k] em uma esfera 412. No exemplo da Figura 36A, cada número identifica um coeficiente harmônico esférico diferente projetado na esfera (possivelmente associado a uma fileira e/ou coluna da matriz V 19’). As cores diferentes sugerem uma direção de um componente de áudio distinto, em que as cores mais claras (e, progressivamente, mais escuras) indicam a direção primária do componente distinto. A unidade de interpolação espaço-temporal 50 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4 pode realizar interpolação espaço-temporal entre cada um dos pontos vermelhos para gerar a esfera mostrada no exemplo da Figura 36A.[0692] Figures 36A to 36F are diagrams illustrating projections of at least a portion of the decomposed version of spherical harmonic coefficients into the spatial domain in order to perform interpolation in accordance with various aspects of the techniques described in this disclosure. Figure 36A is a diagram illustrating projection of one or more of the 35 V[k] vectors onto a sphere 412. In the example of Figure 36A, each number identifies a different spherical harmonic coefficient projected onto the sphere (possibly associated with a row e/ or column of matrix V 19'). Different colors suggest a direction of a distinct audio component, where lighter (and progressively darker) colors indicate the primary direction of the distinct component. The spatiotemporal interpolation unit 50 of the audio encoding device 20 shown in the example of Figure 4 can perform spatiotemporal interpolation between each of the red dots to generate the sphere shown in the example of Figure 36A.

[0693] A Figura 36B é um diagrama que ilustra projeção de um ou mais dos vetores V[k] 35 em um feixe. A unidade de interpolação espaço-temporal 50 pode projetar uma fileira e/ou coluna dos vetores V[k] 35 ou múltiplas fileiras e/ou colunas dos vetores V[k] 35 para gerar o feixe 414 mostrado no exemplo da Figura 36B.[0693] Figure 36B is a diagram illustrating projection of one or more of the vectors V[k] 35 onto a beam. The spatiotemporal interpolation unit 50 can project a row and/or column of vectors V[k] 35 or multiple rows and/or columns of vectors V[k] 35 to generate the beam 414 shown in the example of Figure 36B.

[0694] A Figura 36C é um diagrama que ilustra um corte transversal de uma projeção de um ou mais vetores de um ou mais dos vetores V[k] 35 em uma esfera, como a esfera 412 mostrada no exemplo da Figura 36.[0694] Figure 36C is a diagram illustrating a cross-section of a projection of one or more vectors of one or more of the vectors V[k] 35 onto a sphere, such as sphere 412 shown in the example of Figure 36.

[0695] Mostrados nas Figuras 36D a 36G são exemplos de capturas instantâneas de tempo (através de 1 quadro de cerca de 20 milissegundos) quando fontes de som diferentes (abelha, helicóptero, música eletrônica e pessoas em um estádio) podem ser ilustradas em um espaço tridimensional.[0695] Shown in Figures 36D to 36G are examples of snapshots of time (through 1 frame of about 20 milliseconds) when different sound sources (bee, helicopter, electronic music and people in a stadium) can be illustrated in a three-dimensional space.

[0696] As técnicas descritas nessa revelação permitem a representação dessas fontes de som diferentes a serem identificadas e representadas com o uso de um único vetor U.S.[k] e um único vetor V[k]. A variabilidade temporal das fontes de som é representada no vetor U.S.[k] enquanto a distribuição espacial de cada fonte de som é representada pelo único vetor V[k]. Um vetor V[k] pode representar a larguras, localização e tamanho da fonte de som. Além disso, o único vetor V[k] pode ser representado como uma combinação linear de funções de base harmônica esféricas. Nas plotagens das Figuras 36D a 36G, a representação das fontes de som tem como base transformar o único vetor V em um sistema de coordenada espacial. Métodos similares de ilustrar fontes de som são usados nas Figuras 36 a 36C.[0696] The techniques described in this disclosure allow the representation of these different sound sources to be identified and represented using a single U.S.[k] vector and a single V[k] vector. The temporal variability of sound sources is represented by the vector U.S.[k] while the spatial distribution of each sound source is represented by the unique vector V[k]. A vector V[k] can represent the widths, location and size of the sound source. Furthermore, the single vector V[k] can be represented as a linear combination of spherical harmonic basis functions. In the plots of Figures 36D to 36G, the representation of sound sources is based on transforming the single vector V into a spatial coordinate system. Similar methods of illustrating sound sources are used in Figures 36 to 36C.

[0697] A Figura 37 ilustra uma representação de técnicas para obter uma interpolação espaço-temporal conforme descrito no presente documento. A unidade de interpolação espaço-temporal 50 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4 pode realizar a interpolação espaço-temporal descrita abaixo em maiores detalhes. A interpolação espaço-temporal pode incluir obter componentes espaciais de resolução superior tanto na dimensão espacial quanto na dimensão temporal. Os componentes espaciais podem ter como base uma decomposição ortogonal de um sinal de múltiplas dimensões compreendido em coeficientes ambisonic de ordem superior (HOA) (ou, como coeficientes HOA também podem ser chamados, “coeficientes harmônicos esféricos”).[0697] Figure 37 illustrates a representation of techniques to obtain a spatiotemporal interpolation as described in this document. The spatiotemporal interpolation unit 50 of the audio encoding device 20 shown in the example of Figure 4 can perform the spatiotemporal interpolation described below in greater detail. Spatio-temporal interpolation can include obtaining higher resolution spatial components in both the spatial and temporal dimensions. Spatial components can be based on an orthogonal decomposition of a multidimensional signal comprised of higher-order ambisonic (HOA) coefficients (or, as HOA coefficients can also be called, “spherical harmonic coefficients”).

[0698] No gráfico ilustrado, os vetores V1 e V2 representam vetores correspondentes de dois componentes espaciais diferentes de um sinal de múltiplas dimensões. Os componentes espaciais podem ser obtidos por uma decomposição em blocos do sinal de múltiplas dimensões. Em alguns exemplos, os componentes espaciais resultam da realização de uma forma em blocos de SVD em relação a cada bloco (que pode se referir a um quadro) de dados de áudio ambisonics de ordem superior (HOA) (em que esses dados de áudio ambisonics incluem blocos, amostras ou qualquer outra forma de dados de áudio de múltiplos canais). Uma variável M pode ser usada para indicar o comprimento de um quadro de áudio em amostras.[0698] In the illustrated graph, vectors V1 and V2 represent corresponding vectors of two different spatial components of a multidimensional signal. The spatial components can be obtained by a block decomposition of the multidimensional signal. In some examples, the spatial components result from making a SVD block shape with respect to each block (which may refer to a frame) of higher order ambisonics audio data (HOA) (where that ambisonics audio data include blocks, samples, or any other form of multichannel audio data). A variable M can be used to indicate the length of an audio frame in samples.

[0699] Em conformidade, V1 e V2 pode representar vetores correspondentes dos vetores 51k-1 V[k] de primeiro plano e os vetores 51k V[k-1] de primeiro plano para blocos sequenciais dos coeficientes HOA 11. V1 pode, por exemplo, representa um primeiro vetor dos vetores 51k V[k-1] de primeiro plano para um primeiro quadro (k-1), enquanto V2 pode representar um primeiro vetor de vetores 51k-1 V[k] de primeiro plano para um segundo e subsequente quadro (k). V1 e V2 podem representar um componente espacial para um único objeto de áudio incluído no sinal multidimensional.[0699] Accordingly, V1 and V2 can represent corresponding vectors of the foreground 51k-1 V[k] vectors and the foreground 51k V[k-1] vectors for sequential blocks of the HOA 11 coefficients. V1 can, for example, example, represents a first vector of foreground 51k V[k-1] vectors to a first frame (k-1), while V2 can represent a first vector of foreground 51k-1 V[k] vectors to a second frame and subsequent frame (k). V1 and V2 can represent a spatial component for a single audio object included in the multidimensional signal.

[0700] Os vetores interpolados Vx para cada x são obtidos ponderando-se V1 e V2 de acordo com diversos segmentos de tempo ou “amostras de tempo”, x, para um componente temporal do sinal de múltiplas dimensões as quais os vetores interpolados Vx podem ser aplicados para suavizar o componente temporal (e, consequentemente, em alguns casos, o espacial). Assumindo-se uma composição de SVD, conforme descrito acima, a suavização dos sinais de nFG 49 pode ser obtida realizando-se uma divisão de vetor de cada vetor de amostra de tempo (por exemplo, uma amostra dos coeficientes HOA 11) com o Vx interpolado correspondente. Ou seja,

Figure img0044
, em que isso representa um vetor de fileira multiplicado por um vetor de coluna produzindo, desse modo, um elemento escalar para U.S. Vx[n]-1 pode ser obtido como um pseudoinverso de Vx[n]. Em relação à ponderação de V1 e V2, V1 é ponderado proporcionalmente inferior ao longo da dimensão de tempo devido ao V2 que ocorre subsequente no tempo para Vi. Ou seja, embora os vetores 51k-1 V[k-1] de primeiro plano são componentes espaciais da decomposição, vetores 51k V[k] de primeiro plano temporariamente sequenciais representam valores diferentes do componente espacial ao longo do tempo. Em conformidade, o peso de V1 diminui enquanto o peso de V2 cresce conforme x aumenta ao longo de t. No presente documento, d1 e d2 representam pesos.[0700] The interpolated vectors Vx for each x are obtained by weighting V1 and V2 according to several time segments or “time samples”, x, for a time component of the multidimensional signal which the interpolated vectors Vx can be applied to smooth the temporal (and hence, in some cases, the spatial) component. Assuming a composite of SVD as described above, smoothing of the nFG 49 signals can be obtained by performing a vector division of each time sample vector (e.g. a sample of the HOA 11 coefficients) with the Vx corresponding interpolated. That is,
Figure img0044
, where this represents a row vector multiplied by a column vector thus yielding a scalar element for US Vx[n]-1 can be obtained as a pseudoinverse of Vx[n]. Relative to the weighting of V1 and V2, V1 is weighted proportionately lower along the time dimension due to V2 occurring subsequent in time to Vi. That is, although the foreground 51k-1 V[k-1] vectors are spatial components of the decomposition, temporarily sequential 51k-1 V[k] vectors represent different values of the spatial component over time. Accordingly, the weight of V1 decreases while the weight of V2 increases as x increases over t. In the present document, d1 and d2 represent weights.

[0701] A Figura 38 é um diagrama de blocos que ilustra matrizes U.S. artificiais, USi e US2, para blocos de SVD sequenciais para um sinal multidimensional de acordo com técnicas descritas no presente documento. Os vetores V interpolados podem ser aplicados aos vetores de fileira das matrizes U.S. artificiais para recuperar o sinal de múltiplas dimensões original. Mais especificamente, a unidade de interpolação espaço-temporal 50 pode multiplicar o pseudo-inverso dos vetores V[k] de primeiro plano interpolados 53 para o resultado de sinais de nFG de multiplicação 49 pelos vetores 51k V[k] de primeiro plano (que podem ser indicados como coeficientes HOA de primeiro plano) para obter amostras interpoladas K 2, que podem ser usadas no lugar das amostras K/2 dos sinais de nFG como as primeiras amostras K/2, conforme mostrado no exemplo da Figura 38 da matriz U2.[0701] Figure 38 is a block diagram illustrating artificial U.S. matrices, USi and US2, for sequential SVD blocks for a multidimensional signal in accordance with techniques described herein. The interpolated V vectors can be applied to the row vectors of the artificial U.S. matrices to recover the original multidimensional signal. More specifically, the spatiotemporal interpolation unit 50 can multiply the pseudo-inverse of the interpolated foreground vectors V[k] 53 to the result of multiplication nFG signals 49 by the foreground vectors 51k V[k] (which can be indicated as foreground HOA coefficients) to obtain interpolated K 2 samples, which can be used in place of the K/2 samples of the nFG signals as the first K/2 samples, as shown in the example of Figure 38 of the U2 matrix .

[0702] A Figura 39 é um diagrama de blocos que ilustra a decomposição de quadros subsequentes de um sinal de ambisonics de ordem superior (HOA) com o uso de Decomposição de Valor Único e suavização dos componentes espaço-temporais de acordo com as técnicas descritas nesta revelação. O quadro n-1 e o quadro n (que também podem ser indicados como quadro n e quadro n+1) representam quadros subsequentes em tempo, em que cada quadro compreende 1.024 segmentos de tempo e tem ordem de HOA de 4, devido aos coeficientes (4+1)2 = 25. As matrizes U.S. que são matrizes U artificialmente suavizadas no quadro n-1 e no quadro n podem ser obtidas por aplicação de vetores V interpolados conforme ilustrado. Cada fileira cinza ou vetores de coluna representam um objeto de áudio.[0702] Figure 39 is a block diagram illustrating the decomposition of subsequent frames of a higher order ambisonics (HOA) signal using Single Value Decomposition and smoothing of spatiotemporal components according to the techniques described in this revelation. Frame n-1 and frame n (which may also be denoted as frame n and frame n+1) represent subsequent frames in time, where each frame comprises 1024 time segments and has an HOA order of 4, due to the coefficients ( 4+1)2 = 25. US matrices which are artificially smoothed U matrices in frame n-1 and frame n can be obtained by applying interpolated V vectors as illustrated. Each gray row or column vectors represents an audio object.

A REPRESENTAÇÃO DE HOA DE COMPUTAÇÃO DE SINAIS COM BASE EM VETOR ATIVOHOA'S REPRESENTATION OF ACTIVE VECTOR-BASED SIGNALS

[0703] O CVECk instantâneo é criado usando-se cada um dos sinais com base em vetor representados em XVECk e multiplicando-se os mesmos com seu vetor espacial correspondente (dequantizado), WECk. Cada WECk é representado em MWECk. Desse modo, para um sinal de ordem L HOA de ordem e sinais com base em vetor M, haverá sinais com base em vetor M, cada um dos quais terá dimensão dada pelo comprimento de quadro. Esses sinais podem, desse modo, ser representados como: CVECkmn, n=0,..P-1; m=0,..M-1. De modo correspondente, haverá vetores espaciais, V ECk de dimensão (1+1)2. Isso pode ser representado como asMVECkml, 1=0,.., (1+1)2-1 ;m=0,..,M-1. A representação de HOA para cada vetor com base em sinal, CVECkm, é uma multiplicação de vetor de matriz dada por:

Figure img0045
[0703] The instantaneous CVECk is created by taking each of the vector-based signals represented in XVECk and multiplying them with their corresponding (dequantized) spatial vector, WECk. Each WECk is represented in MWECk. Thus, for an L-th order HOA signal and M-vector-based signals, there will be M-vector-based signals, each of which will have dimension given by the frame length. These signals can thus be represented as: CVECkmn, n=0,..P-1; m=0,..M-1. Correspondingly, there will be spatial vectors, V ECk of dimension (1+1)2. This can be represented as asMVECkml, 1=0,.., (1+1)2-1 ;m=0,..,M-1. The representation of HOA for each sign-based vector, CVECkm, is a matrix vector multiplication given by:
Figure img0045

[0704] que produz uma matriz de (1+1)2 por P. A representação de HOA completa se deve à soma da contribuição de cada vetor com base em sinal como a seguir:

Figure img0046
[0704] which produces a matrix of (1+1)2 by P. The complete HOA representation is due to the sum of each vector's contribution based on sign as follows:
Figure img0046

INTERPOLAÇÃO ESPAÇO-TEMPORAL DE VETORES VSPACE-TEMPORAL INTERPOLATION OF VECTORS V

[0705] No entanto, a fim de manter continuidade espaço-temporal suave, a computação acima é apenas realizada para parte do comprimento de quadro, -5. As primeiras amostras de uma matriz de HOA são, em vez disso, realizadas usando-se um conjunto interpolado de MVECkml, m=0,..,M-1, =0,.., (1+1)2, derivado do MVECkm atual e MWECk-lm de valores anteriores. Isso resulta em um vetor espacial de densidade de tempo superior conforme se deriva um vetor para cada amostra de tempo p ,como a seguir:

Figure img0047
[0705] However, in order to maintain smooth spatiotemporal continuity, the above computation is only performed for part of the frame length, -5. The first samples of an HOA matrix are instead performed using an interpolated set of MVECkml, m=0,..,M-1, =0,.., (1+1)2, derived from the Current MVECkm and MWECk-lm from previous values. This results in a higher time density space vector as a vector is derived for each time sample p , as follows:
Figure img0047

[0706] Para cada amostra de tempo p, um novo vetor de HOA de dimensão (L+1)2é computado como:

Figure img0048
[0706] For each time sample p, a new HOA vector of dimension (L+1)2 is computed as:
Figure img0048

[0707] Essas primeiras amostras são aumentadas com as amostras P-B da seção anterior para resultar na representação de HOA completa, CVECkm, do menésimo vetor com base em sinal.[0707] These first samples are augmented with the P-B samples from the previous section to result in the complete HOA representation, CVECkm, of the nth vector based on signal.

[0708] No decodificador (por exemplo, o dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5), para certo som distinto, de primeiro plano ou predominante com base em vetor, o vetor V do quadro anterior e o vetor V do quadro atual podem ser interpolados com o uso de interpolação linear (ou não linear) para produzir um vetor V interpolado em resolução superior (em tempo) através de um segmento de tempo particular. A unidade de interpolação espaço-temporal 76 pode realizar essa interpolação, em que a unidade de interpolação espaço-temporal 76 pode, então, multiplicar o vetor U.S. no quadro atual com o vetor V interpolado de resolução superior para produzir a matriz de HOA através daquele segmento de tempo particular.[0708] In the decoder (e.g. the audio decoding device 24 shown in the example of Figure 5), for certain distinct, foreground or predominant vector-based sound, the vector V of the previous frame and the vector V of the current frame can be interpolated using linear (or non-linear) interpolation to produce a higher resolution (in time) interpolated vector V over a particular time segment. The spatiotemporal interpolation unit 76 may perform such interpolation, wherein the spatiotemporal interpolation unit 76 may then multiply the vector US in the current frame with the interpolated vector V of higher resolution to produce the HOA matrix through that particular time segment.

[0709] De modo alternativo, a unidade de interpolação espaço-temporal 76 pode multiplicar o vetor U.S. com o vetor V do quadro atual para criar uma primeira matriz de HOA. O decodificador pode adicionalmente multiplicar o vetor U.S. com o vetor V do quadro anterior para criar uma segunda matriz de HOA. A unidade de interpolação espaço-temporal 76 pode, então, aplicar interpolação linear (ou não linear) à primeira e à segunda matrizes de HOA através de um segmento de tempo particular. A emissão dessa interpolação pode corresponder àquela da multiplicação do vetor U.S. com um vetor V interpolado, devido a matrizes/vetores de inserção comuns.[0709] Alternatively, the spatiotemporal interpolation unit 76 can multiply the U.S. vector with the current frame V vector to create a first HOA matrix. The decoder may additionally multiply the U.S. vector with the V vector from the previous frame to create a second HOA matrix. The spatiotemporal interpolation unit 76 can then apply linear (or non-linear) interpolation to the first and second HOA matrices over a particular time segment. The output of this interpolation may correspond to that of multiplying the U.S. vector with an interpolated V vector, due to common insertion matrices/vectors.

[0710] A esse respeito, as técnicas podem habilitar o dispositivo de codificação de áudio 20 e/ou o dispositivo de decodificação de áudio 24 para serem configurados para operar de acordo com as cláusulas a seguir.[0710] In this regard, the techniques may enable the audio encoding device 20 and/or the audio decoding device 24 to be configured to operate in accordance with the following clauses.

[0711] Cláusula 135054-1C. Um dispositivo, como o dispositivo de codificação de áudio 20 ou o dispositivo de decodificação de áudio 24, que compreende: um ou mais processadores configurados para obter uma pluralidade de componentes espaciais de resolução superior tanto em espaço quanto em tempo, em que os componentes espaciais têm como base uma decomposição ortogonal de um sinal de múltiplas dimensões que compreende coeficientes harmônicos esféricos.[0711] Clause 135054-1C. A device, such as audio encoding device 20 or audio decoding device 24, comprising: one or more processors configured to obtain a plurality of spatial components of higher resolution in both space and time, wherein the spatial components are based on an orthogonal decomposition of a multidimensional signal comprising spherical harmonic coefficients.

[0712] Cláusula 135054-1D. Um dispositivo, como o dispositivo de codificação de áudio 20 ou o dispositivo de decodificação de áudio 24, que compreende: um ou mais processadores configurados para suavizar pelo menos um dos componentes espaciais e componentes de tempo da primeira pluralidade de coeficientes harmônicos esféricos e da segunda pluralidade de coeficientes harmônicos esféricos.[0712] Clause 135054-1D. A device, such as audio encoding device 20 or audio decoding device 24, comprising: one or more processors configured to smooth at least one of the spatial components and time components of the first plurality of spherical harmonic coefficients and the second plurality of spherical harmonic coefficients.

[0713] Cláusula 135054-1E. Um dispositivo, como o dispositivo de codificação de áudio 20 ou o dispositivo de decodificação de áudio 24, que compreende: um ou mais processadores configurados para obter uma pluralidade de componentes espaciais de resolução superior tanto em espaço quanto em tempo, em que os componentes espaciais têm como base uma decomposição ortogonal de um sinal de múltiplas dimensões que compreende coeficientes harmônicos esféricos.[0713] Clause 135054-1E. A device, such as audio encoding device 20 or audio decoding device 24, comprising: one or more processors configured to obtain a plurality of spatial components of higher resolution in both space and time, wherein the spatial components are based on an orthogonal decomposition of a multidimensional signal comprising spherical harmonic coefficients.

[0714] Cláusula 135054-1G. Um dispositivo, como o dispositivo de codificação de áudio 20 ou o dispositivo de decodificação de áudio 24, que compreende: um ou mais processadores configurados para obter coeficientes harmônicos esféricos de resolução aumentada decompostos para um segmento de tempo aumentando-se, pelo menos em parte, uma resolução em relação a uma primeira decomposição de uma primeira pluralidade de coeficientes harmônicos esféricos e uma segunda decomposição de uma segunda pluralidade de coeficientes harmônicos esféricos.[0714] Clause 135054-1G. A device, such as audio encoding device 20 or audio decoding device 24, comprising: one or more processors configured to obtain increased resolution spherical harmonic coefficients decomposed for a time segment increasing, at least in part , a resolution with respect to a first decomposition of a first plurality of spherical harmonic coefficients and a second decomposition of a second plurality of spherical harmonic coefficients.

[0715] Cláusula 135054-2G. O dispositivo da cláusula 135054-1G, em que a primeira decomposição compreende uma primeira matriz V representativa de vetores singulares direitos da primeira pluralidade de coeficientes harmônicos esféricos.[0715] Clause 135054-2G. The device of clause 135054-1G, wherein the first decomposition comprises a first matrix V representative of right singular vectors of the first plurality of spherical harmonic coefficients.

[0716] Cláusula 135054-3G. O dispositivo da cláusula 135054-1G, em que a segunda decomposição compreende uma segunda matriz V representativa de vetores singulares direitos da segunda pluralidade de coeficientes harmônicos esféricos.[0716] Clause 135054-3G. The device of clause 135054-1G, wherein the second decomposition comprises a second matrix V representative of right singular vectors of the second plurality of spherical harmonic coefficients.

[0717] Cláusula 135054-4G. O dispositivo da cláusula 135054-1G, em que a primeira decomposição compreende uma primeira matriz V representativa de vetores singulares direitos da primeira pluralidade de coeficientes harmônicos esféricos e, em que a segunda decomposição compreende uma segunda matriz V representativa de vetores singulares direitos da segunda pluralidade de coeficientes harmônicos esféricos.[0717] Clause 135054-4G. The device of clause 135054-1G, wherein the first decomposition comprises a first matrix V representative of right singular vectors of the first plurality of spherical harmonic coefficients and, wherein the second decomposition comprises a second matrix V representative of right singular vectors of the second plurality of spherical harmonic coefficients.

[0718] Cláusula 135054-5G. O dispositivo da cláusula 135054-1G, em que o segmento de tempo compreende um subquadro de um quadro de áudio.[0718] Clause 135054-5G. The device of clause 135054-1G, wherein the time segment comprises a subframe of an audio frame.

[0719] Cláusula 135054-6G. O dispositivo da cláusula 135054-1G, em que o segmento de tempo compreende uma amostra de tempo de um quadro de áudio.[0719] Clause 135054-6G. The device of clause 135054-1G, wherein the time segment comprises a time sample of an audio frame.

[0720] Cláusula 135054-7G. O dispositivo da cláusula 135054-1G, em que o um ou mais processadores são configurados para obter uma decomposição interpolada da primeira decomposição e da segunda decomposição para um coeficiente harmônico esférico da primeira pluralidade de coeficientes harmônicos esféricos.[0720] Clause 135054-7G. The device of clause 135054-1G, wherein the one or more processors are configured to obtain an interpolated decomposition of the first decomposition and the second decomposition to a spherical harmonic coefficient of the first plurality of spherical harmonic coefficients.

[0721] Cláusula 135054-8G. O dispositivo da cláusula 135054-1G, em que o um ou mais processadores são configurados para obter decomposições interpoladas da primeira decomposição para uma primeira porção da primeira pluralidade de coeficientes harmônicos esféricos incluída no primeiro quadro e a segunda decomposição para uma segunda porção da segunda pluralidade de coeficientes harmônicos esféricos incluída no segundo quadro, em que o um ou mais processadores são adicionalmente configurados para aplicar as decomposições interpoladas para um primeiro componente de tempo da primeira porção da primeira pluralidade de coeficientes harmônicos esféricos incluída no primeiro quadro para gerar um primeiro componente de tempo artificial da primeira pluralidade de coeficientes harmônicos esféricos e aplicar as respectivas decomposições interpoladas a um segundo componente de tempo da segunda porção da segunda pluralidade de coeficientes harmônicos esféricos incluída no segundo quadro para gerar um segundo componente de tempo artificial da segunda pluralidade de coeficientes harmônicos esféricos incluída.[0721] Clause 135054-8G. The device of clause 135054-1G, wherein the one or more processors are configured to obtain interpolated decompositions from the first decomposition to a first portion of the first plurality of spherical harmonic coefficients included in the first frame and the second decomposition to a second portion of the second plurality of spherical harmonic coefficients included in the second frame, wherein the one or more processors are further configured to apply the interpolated decompositions to a first time component of the first portion of the first plurality of spherical harmonic coefficients included in the first frame to generate a first time component. artificial time of the first plurality of spherical harmonic coefficients and applying the respective interpolated decompositions to a second time component of the second portion of the second plurality of spherical harmonic coefficients included in the second frame to generate a second time component artificial po of the second plurality of spherical harmonic coefficients included.

[0722] Cláusula 135054-9G. O dispositivo da cláusula 135054-8G, em que o primeiro componente de tempo é gerado realizando-se uma síntese com base em vetor em relação à primeira pluralidade de coeficientes harmônicos esféricos.[0722] Clause 135054-9G. The device of clause 135054-8G, wherein the first time component is generated by performing vector-based synthesis with respect to the first plurality of spherical harmonic coefficients.

[0723] Cláusula 135054-10G. O dispositivo da cláusula 135054-8G, em que o segundo componente de tempo é gerado realizando-se uma síntese com base em vetor em relação à segunda pluralidade de coeficientes harmônicos esféricos.[0723] Clause 135054-10G. The device of clause 135054-8G, wherein the second time component is generated by performing vector-based synthesis with respect to the second plurality of spherical harmonic coefficients.

[0724] Cláusula 135054-11G. O dispositivo da cláusula 135054-8G, em que os um ou mais processadores são configurados adicionalmente para receber o primeiro componente de tempo artificial e o segundo componente de tempo artificial, computar decomposições interpoladas da primeira decomposição para a primeira porção da primeira pluralidade de coeficientes harmônicos esféricos e a segunda decomposição para a segunda porção da segunda pluralidade de coeficientes harmônicos esféricos e aplicar inversos das decomposições interpoladas ao primeiro componente de tempo artificial para recuperar o primeiro componente de tempo e ao segundo componente de tempo artificial para recuperar o segundo componente de tempo.[0724] Clause 135054-11G. The device of clause 135054-8G, wherein the one or more processors are further configured to receive the first artificial time component and the second artificial time component, compute interpolated decompositions from the first decomposition to the first portion of the first plurality of harmonic coefficients and the second decomposition to the second portion of the second plurality of spherical harmonic coefficients and applying inverses of the interpolated decompositions to the first artificial time component to recover the first time component and to the second artificial time component to recover the second time component.

[0725] Cláusula 135054-12G. O dispositivo da cláusula 135054-1G, em que os um ou mais processadores são configurados para interpolar um primeiro componente espacial da primeira pluralidade de coeficientes harmônicos esféricos e o segundo componente espacial da segunda pluralidade de coeficientes harmônicos esféricos.[0725] Clause 135054-12G. The device of clause 135054-1G, wherein the one or more processors are configured to interpolate a first spatial component of the first plurality of spherical harmonic coefficients and the second spatial component of the second plurality of spherical harmonic coefficients.

[0726] Cláusula 135054-13G. O dispositivo da cláusula 135054-12G, em que o primeiro componente espacial compreende uma primeira matriz U representativa de vetores singulares à esquerda da primeira pluralidade de coeficientes harmônicos esféricos.[0726] Clause 135054-13G. The device of clause 135054-12G, wherein the first spatial component comprises a first matrix U representative of left singular vectors of the first plurality of spherical harmonic coefficients.

[0727] Cláusula 135054-14G. O dispositivo da cláusula 135054-12G, em que o segundo componente espacial compreende uma segunda matriz U representativa de vetores singulares à esquerda da segunda pluralidade de coeficientes harmônicos esféricos.[0727] Clause 135054-14G. The device of clause 135054-12G, wherein the second spatial component comprises a second matrix U representative of singular vectors to the left of the second plurality of spherical harmonic coefficients.

[0728] Cláusula 135054-15G. O dispositivo da cláusula 135054-12G, em que o primeiro componente espacial é representativo de segmentos de tempo M de coeficientes harmônicos esféricos para a primeira pluralidade de coeficientes harmônicos esféricos e o segundo componente espacial é representativo de segmentos de tempo M de coeficientes harmônicos esféricos para a segunda pluralidade de coeficientes harmônicos esféricos.[0728] Clause 135054-15G. The device of clause 135054-12G, wherein the first spatial component is representative of time segments M of spherical harmonic coefficients for the first plurality of spherical harmonic coefficients and the second spatial component is representative of time segments M of spherical harmonic coefficients for the second plurality of spherical harmonic coefficients.

[0729] Cláusula 135054-16G. O dispositivo da cláusula 135054-12G, em que o primeiro componente espacial é representativo de segmentos de tempo M de coeficientes harmônicos esféricos para a primeira pluralidade de coeficientes harmônicos esféricos e o segundo componente espacial é representativo de segmentos de tempo M de coeficientes harmônicos esféricos para a segunda pluralidade de coeficientes harmônicos esféricos e em que os um ou mais processadores que são configurados para obter os coeficientes harmônicos esféricos interpolados decompostos para o segmento de tempo compreendem interpolar os últimos elementos N do primeiro componente espacial e os primeiros elementos N do segundo componente espacial.[0729] Clause 135054-16G. The device of clause 135054-12G, wherein the first spatial component is representative of time segments M of spherical harmonic coefficients for the first plurality of spherical harmonic coefficients and the second spatial component is representative of time segments M of spherical harmonic coefficients for the second plurality of spherical harmonic coefficients and wherein the one or more processors which are configured to obtain the decomposed interpolated spherical harmonic coefficients for the time segment comprise interpolating the last N elements of the first spatial component and the first N elements of the second spatial component .

[0730] Cláusula 135054-17G. O dispositivo da cláusula 135054-1G, em que a segunda pluralidade de coeficientes harmônicos esféricos é subsequente à primeira pluralidade de coeficientes harmônicos esféricos no domínio de tempo.[0730] Clause 135054-17G. The device of clause 135054-1G, wherein the second plurality of spherical harmonic coefficients is subsequent to the first plurality of spherical harmonic coefficients in the time domain.

[0731] Cláusula 135054- 18G. O dispositivo da cláusula 135054- 1G, em que os um ou mais processadores são configurados adicionalmente para decompor a primeira pluralidade de coeficientes harmônicos esféricos para gerar a primeira decomposição da primeira pluralidade de coeficientes harmônicos esféricos.[0731] Clause 135054-18G. The device of clause 135054-1G, wherein the one or more processors are further configured to decompose the first plurality of spherical harmonic coefficients to generate the first decomposition of the first plurality of spherical harmonic coefficients.

[0732] Cláusula 135054- 19G. O dispositivo da cláusula 135054- 1G, em que os um ou mais processadores são configurados adicionalmente para decompor a segunda pluralidade de coeficientes harmônicos esféricos para gerar a segunda decomposição da segunda pluralidade de coeficientes harmônicos esféricos.[0732] Clause 135054-19G. The device of clause 135054-1G, wherein the one or more processors are further configured to decompose the second plurality of spherical harmonic coefficients to generate the second decomposition of the second plurality of spherical harmonic coefficients.

[0733] Cláusula 135054-20G. O dispositivo da cláusula 135054- 1G, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação à primeira pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da primeira pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da primeira pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da primeira pluralidade de coeficientes harmônicos esféricos.[0733] Clause 135054-20G. The device of clause 135054-1G, wherein the one or more processors are further configured to perform a singular value decomposition with respect to the first plurality of spherical harmonic coefficients to generate a matrix U representative of left singular vectors of the first plurality of coefficients spherical harmonics, a matrix S representative of singular values of the first plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the first plurality of spherical harmonic coefficients.

[0734] Cláusula 135054-21G. O dispositivo da cláusula 135054- 1G, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação à segunda pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da segunda pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da segunda pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da segunda pluralidade de coeficientes harmônicos esféricos.[0734] Clause 135054-21G. The device of clause 135054-1G, wherein the one or more processors are further configured to perform a singular value decomposition with respect to the second plurality of spherical harmonic coefficients to generate a matrix U representative of left singular vectors of the second plurality of coefficients spherical harmonics, a matrix S representative of singular values of the second plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the second plurality of spherical harmonic coefficients.

[0735] Cláusula 135054-22G. O dispositivo da cláusula 135054-1G, em que cada uma da primeira e segunda pluralidade de coeficientes harmônicos esféricos representa uma representação de onda plana do campo sonoro.[0735] Clause 135054-22G. The device of clause 135054-1G, wherein each of the first and second plurality of spherical harmonic coefficients represents a plane wave representation of the sound field.

[0736] Cláusula 135054-23G. O dispositivo da cláusula 135054-1G, em que cada uma da primeira e segunda pluralidade de coeficientes harmônicos esféricos representa um ou mais objetos de áudio mono misturados.[0736] Clause 135054-23G. The device of clause 135054-1G, wherein each of the first and second plurality of spherical harmonic coefficients represents one or more mixed mono audio objects.

[0737] Cláusula 135054-24G. O dispositivo da cláusula 135054-1G, em que cada uma da primeira e segunda pluralidade de coeficientes harmônicos esféricos compreende respectivos primeiro e segundo coeficientes harmônicos esféricos que representam um campo sonoro tridimensional. Cláusula 135054-25G. O dispositivo da cláusula 135054-1G, em que cada uma da primeira e segunda pluralidade de coeficientes harmônicos esféricos é associada com pelo menos uma função de base esférica que tem uma ordem maior do que um (1).[0737] Clause 135054-24G. The device of clause 135054-1G, wherein each of the first and second plurality of spherical harmonic coefficients comprises respective first and second spherical harmonic coefficients representing a three-dimensional sound field. Clause 135054-25G. The device of clause 135054-1G, wherein each of the first and second plurality of spherical harmonic coefficients is associated with at least one spherical basis function that has an order greater than one (1).

[0738] Cláusula 135054-26G. O dispositivo da cláusula 135054-1G, em que cada uma da primeira e segunda pluralidade de coeficientes harmônicos esféricos é associada com pelo menos uma função de base esférica que tem uma ordem igual a quatro.[0738] Clause 135054-26G. The device of clause 135054-1G, wherein each of the first and second plurality of spherical harmonic coefficients is associated with at least one spherical basis function having an order of four.

[0739] Cláusula 135054-27G. O dispositivo da cláusula 135054-1G, em que a interpolação é uma interpolação ponderada da primeira decomposição e segunda decomposição, em que pesos da interpolação ponderada aplicados à primeira decomposição são inversamente proporcionais a um tempo representado por vetores da primeira e segunda decomposição e em que pesos da interpolação ponderada aplicados à segunda decomposição são proporcionais a um tempo representado por vetores da primeira e da segunda decomposição.[0739] Clause 135054-27G. The provision of clause 135054-1G, where the interpolation is a weighted interpolation of the first decomposition and second decomposition, where weighted interpolation weights applied to the first decomposition are inversely proportional to a time represented by vectors of the first and second decomposition, and where weighted interpolation weights applied to the second decomposition are proportional to a time represented by vectors of the first and second decomposition.

[0740] Cláusula 135054-28G. O dispositivo da cláusula 135054-1G, em que os coeficientes harmônicos esféricos interpolados decompostos suavizam pelo menos um dentre componentes espaciais e componentes temporais da primeira pluralidade de coeficientes harmônicos esféricos e da segunda pluralidade de coeficientes harmônicos esféricos.[0740] Clause 135054-28G. The device of clause 135054-1G, wherein the decomposed interpolated spherical harmonic coefficients smooth at least one of the spatial components and temporal components of the first plurality of spherical harmonic coefficients and the second plurality of spherical harmonic coefficients.

[0741] As Figuras 40A a 40J são cada uma um diagrama de blocos que ilustra dispositivos de codificação de áudio exemplificativos 510A a 510J que podem realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descrevem campos sonoros bi ou tridimensionais. Em cada um dos exemplos das Figuras 40A a 40J, cada um dos dispositivos de codificação de áudio 510A e 510B, em alguns exemplos, representa qualquer dispositivo capaz de codificar dados de áudio, tais como um computador de mesa, um computador portátil, uma estação de trabalho, um computador tipo tablet ou slate, um dispositivo de gravação de áudio dedicado, um telefone celular (incluindo os chamados “telefones inteligentes””), um dispositivo de reprodução de mídia pessoal, um dispositivo de jogos pessoal, ou qualquer outro tipo de dispositivo capaz de codificar dados de áudio.[0741] Figures 40A to 40J are each a block diagram illustrating exemplary audio encoding devices 510A to 510J that can perform various aspects of the techniques described in this disclosure to compress spherical harmonic coefficients that describe two- or three-dimensional sound fields. In each of the examples of Figures 40A to 40J, each of the audio encoding devices 510A and 510B, in some examples, represents any device capable of encoding audio data, such as a desktop computer, a portable computer, a station desktop, a tablet or slate computer, a dedicated audio recording device, a cell phone (including so-called “smart phones”), a personal media player, a personal gaming device, or any other type device capable of encoding audio data.

[0742] Embora mostrados como um único dispositivo, isto é, os dispositivos 510A a 510J nos exemplos das Figuras 40A a 40J, os vários componentes ou unidades referenciados abaixo como incluídos dentro dos dispositivos 510A a 510J podem na realidade formar dispositivos separados que são externos dos dispositivos 510A a 510J. Em outras palavras, embora descritos nesta revelação como realizados por um único dispositivo, isto é, os dispositivos 510A a 510J nos exemplos das Figuras 40A a 40J, as técnicas podem ser implantadas ou do contrário realizadas por um sistema que compreende múltiplos dispositivos, onde cada um desses dispositivos pode incluir um ou mais dos vários componentes ou unidades descritos em mais detalhes abaixo. Em conformidade, as técnicas não devem ser limitadas aos exemplos da Figura 40A a 40J.[0742] Although shown as a single device, i.e., devices 510A to 510J in the examples of Figures 40A to 40J, the various components or units referenced below as included within devices 510A to 510J may actually form separate devices that are external of devices 510A to 510J. In other words, although described in this disclosure as performed by a single device, i.e., devices 510A to 510J in the examples of Figures 40A to 40J, the techniques may be implemented or otherwise performed by a system comprising multiple devices, where each one of these devices may include one or more of the various components or units described in more detail below. Accordingly, the techniques should not be limited to the examples in Figure 40A through 40J.

[0743] Em alguns exemplos, os dispositivos de codificação de áudio 510A a 510J representam dispositivos de codificação de áudio alternativos àqueles descritos acima com relação aos exemplos das Figuras 3 e 4. Por toda a discussão abaixo de dispositivos de codificação de áudio 510A a 510J várias similaridades em termos de operação são observadas com relação às várias unidades 30 a 52 do dispositivo de codificação de áudio 20 descrito acima com relação à Figura 4. Em muitos aspectos, os dispositivos de codificação de áudio 510A a 510J pode, conforme descrito abaixo, operar de uma maneira substancialmente similar ao dispositivo de codificação de áudio 20 embora com leves desvios ou modificações.[0743] In some examples, audio encoding devices 510A to 510J represent alternative audio encoding devices to those described above with respect to the examples in Figures 3 and 4. For the entire discussion below of audio encoding devices 510A to 510J several similarities in terms of operation are observed with respect to the various units 30 to 52 of the audio coding device 20 described above with respect to Figure 4. In many respects, the audio coding devices 510A to 510J can, as described below, operate in a substantially similar manner to the audio encoding device 20 albeit with slight deviations or modifications.

[0744] Conforme mostrado nos exemplos da Figura 40A, o dispositivo de codificação de áudio 510A compreende uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de fluxo de bits 516. A unidade de compressão de áudio 512 pode representar uma unidade que comprime coeficientes harmônicos esféricos (SHC) 511 (“SHC 511”), que podem também ser denotados como coeficientes de ambisonics de ordem superior (HO A) 511. Em alguns casos, a unidade de compressão de áudio 512 representa uma unidade que pode comprimir de modo sem perdas ou realizar compressão com perdas em relação aos SHC 511. O SHC 511 pode representar uma pluralidade de SHCs, em que pelo menos um da pluralidade de SHC corresponde a uma função de base esférica que tem uma ordem maior do que um (1) (em que SHC dessa variedade são denominados como ambisonics de ordem superior (HOA) de modo a distinguir de ambisonics de ordem inferior dos quais um exemplo é o chamado “formato B”), conforme descrito em mais detalhes acima. Embora a unidade de compressão de áudio 512 possa comprimir de modo sem perdas os SHC 511, em alguns exemplos, a unidade de compressão de áudio 512 remove os SHC 511 que não são salientes ou relevantes em descrever o campo sonoro quando reproduzidos (em que alguns podem não ser capazes de serem ouvidos pelo sistema auditor humano). Neste sentido, a natureza com perdas dessa compressão pode não impactar excessivamente a qualidade percebida do campo sonoro quando reproduzido a partir da versão comprimida dos SHC 511.[0744] As shown in the examples of Figure 40A, the audio encoding device 510A comprises an audio compression unit 512, an audio encoding unit 514 and a bit stream generation unit 516. audio 512 may represent a unit that compresses spherical harmonic coefficients (SHC) 511 (“SHC 511”), which may also be denoted as higher order ambisonics coefficients (HO A) 511. In some cases, the audio compression unit 512 represents a unit that can either losslessly compress or perform lossy compression relative to the SHC 511. The SHC 511 may represent a plurality of SHCs, wherein at least one of the plurality of SHCs corresponds to a spherical base function having an order greater than one (1) (where SHC of this variety are termed as higher-order ambisonics (HOA) in order to distinguish from lower-order ambisonics of which an example is the so-called “format B”), as rme described in more detail above. Although the audio compression unit 512 can losslessly compress the SHC 511s, in some instances the audio compression unit 512 removes the SHC 511s that are not salient or relevant in describing the sound field when played back (wherein some may not be able to be heard by the human auditor system). In this sense, the lossy nature of this compression may not overly impact the perceived quality of the sound field when played back from the compressed version of the SHC 511.

[0745] No exemplo da Figura 40A, a unidade de compressão de áudio inclui uma unidade de decomposição 518 e uma unidade de extração de componente de campo sonoro 520. A unidade de decomposição 518 pode ser similar à unidade de transformação invertível linear 30 do dispositivo de codificação de áudio 20. Isto é, a unidade de decomposição 518 pode representar uma unidade configurada para realizar uma forma de análise denominada como decomposição de valor singular. Embora descritas em relação a SVD, as técnicas podem ser realizadas em relação a qualquer transformação ou decomposição similar que forneça conjuntos de dados não corrigidos linearmente. Também, referência a “conjuntos” nesta revelação é destinada a se referir a conjuntos “diferentes de zero” a menos que afirmado especificamente o contrário e não é destinada a se referir à definição matemática clássica de conjuntos que inclui o chamado “conjunto vazio”.[0745] In the example of Figure 40A, the audio compression unit includes a decomposition unit 518 and a sound field component extraction unit 520. The decomposition unit 518 may be similar to the linear invertible transform unit 30 of the device. coding unit 20. That is, decomposition unit 518 may represent a unit configured to perform a form of analysis called singular-value decomposition. Although described in relation to SVD, the techniques can be performed in relation to any transformation or similar decomposition that yields non-linearly corrected data sets. Also, reference to "sets" in this disclosure is intended to refer to "non-zero" sets unless specifically stated otherwise and is not intended to refer to the classical mathematical definition of sets which includes the so-called "empty set".

[0746] De qualquer forma, a unidade de decomposição 518 realiza uma decomposição de valor singular (que, novamente, pode ser denotada por seu acrônimo “SVD”) para transformar os coeficientes harmônicos esféricos 511 em dois ou mais conjuntos de coeficientes harmônicos esféricos transformados. No exemplo da Figura 40, a unidade de decomposição 518 pode desempenhar a SVD em relação aos SHC 511 para gerar uma chamada matriz V 519, uma matriz S 519B e uma matriz U 519C. No exemplo da Figura 40, a unidade de decomposição 518 emite cada uma das matrizes separadamente ao invés de emitir os vetores de U.S.[k] em forma combinada conforme discutido acima em relação à unidade de transformação invertível linear 30.[0746] Anyway, the decomposition unit 518 performs a singular value decomposition (which, again, can be denoted by its acronym “SVD”) to transform the spherical harmonic coefficients 511 into two or more sets of transformed spherical harmonic coefficients . In the example of Figure 40, the decomposition unit 518 can perform SVD against the SHC 511 to generate a so-called V matrix 519, an S matrix 519B and a U matrix 519C. In the example of Figure 40, the decomposition unit 518 outputs each of the matrices separately rather than outputting the U.S.[k] vectors in combined form as discussed above with respect to the linear invertible transform unit 30.

[0747] Conforme observado acima, a matriz V* na expressão matemática de SVD referenciada acima é denotada como a transposta conjugada da matriz V para refletir que a SVD pode ser aplicada a matrizes que compreendem números complexos. Quando aplicado a matrizes que compreendem apenas números reais, o conjugado complexo da matriz V (ou, em outras palavras, a matriz V*) pode ser considerado igual à matriz V. Abaixo é presumido, para facilidade de propósitos de ilustração, que os SHC 511 compreendem números reais com o resultado de que a matriz V é emitida através de SVD ao invés da matriz V*. Embora presumidas como a matriz V, as técnicas podem ser aplicadas de uma maneira similar aos SHC 511 que têm coeficientes complexos, em que a saída da SVD é a matriz V*. Em conformidade, as técnicas não devem ser limitadas neste aspecto apenas para fornecer aplicação de SVD para gerar uma matriz V, mas podem incluir aplicação de SVD a SHC 511 que têm componentes complexos para gerar uma matriz V*.[0747] As noted above, the matrix V* in the mathematical expression of SVD referenced above is denoted as the conjugate transpose of the matrix V to reflect that the SVD can be applied to matrices comprising complex numbers. When applied to matrices that comprise only real numbers, the complex conjugate of the matrix V (or, in other words, the matrix V*) can be assumed to be equal to the matrix V. Below it is assumed, for ease of illustration purposes, that the SHC 511 comprise real numbers with the result that matrix V is output via SVD instead of matrix V*. Although assumed to be the V matrix, the techniques can be applied in a similar way to SHC 511s that have complex coefficients, where the output of the SVD is the V* matrix. Accordingly, the techniques should not be limited in this regard to just providing application of SVD to generate a matrix V, but may include application of SVD to SHC 511 which have complex components to generate a matrix V*.

[0748] De qualquer forma, a unidade de decomposição 518 pode realizar uma forma em blocos de SVD em relação a cada bloco (que podem se referir a um quadro) de dados de áudio de ambisonics de ordem superior (HOA) (em que esses dados de áudio de ambisonics incluem blocos ou amostras dos SHC 511 ou qualquer outra forma de dados de áudio de multicanal). Uma variável M pode ser usada para denotar o comprimento de um quadro de áudio em amostras. Por exemplo, quando um quadro de áudio inclui 1024 amostras de áudio, M é igual a 1024. A unidade de decomposição 518 pode, portanto, realizar uma SVD em blocos em relação a um bloco, sendo que os SHC 511 têm SHC de M-por-(N+1)2, em que N, novamente, denota a ordem dos dados de áudio de HOA. A unidade de decomposição 518 pode gerar, através da realização dessa SVD, a matriz V 519, a matriz S 519B e a matriz U 519C, em que cada uma das matrizes 519 a 519C (“matrizes 519”) pode representar as respectivas matrizes V, S e U descritas em mais detalhes acima. A unidade de decomposição 518 pode passar ou emitir essas matrizes 519A para uma unidade de extração de componente de campo sonoro 520. A matriz V 519A pode ser de tamanho (N+1)2-por-(N+1)2, a matriz S 519B pode ser de tamanho (N+1)2-por-(N+1)2 e a matriz U pode ser de tamanho M-por-(N+1)2, em que M se refere ao número de amostras em um quadro de áudio. Um valor típico para M é 1024, embora as técnicas desta revelação não devem ser limitadas a esse valor típico para matriz diagonal.[0748] In any case, the decomposition unit 518 can perform a block shape of SVD with respect to each block (which may refer to a frame) of higher order ambisonics (HOA) audio data (where these audio data from ambisonics includes blocks or samples from the SHC 511 or any other form of multichannel audio data). A variable M can be used to denote the length of an audio frame in samples. For example, when an audio frame includes 1024 audio samples, M is equal to 1024. The decomposition unit 518 can therefore perform a block SVD with respect to a block, with the SHC 511 having SHC of M- by-(N+1)2, where N, again, denotes the order of the HOA audio data. The decomposition unit 518 can generate, through the realization of this SVD, the matrix V 519, the matrix S 519B and the matrix U 519C, where each of the matrices 519 to 519C ("matrices 519") can represent the respective matrices V , S and U described in more detail above. The decomposition unit 518 can pass or output these matrices 519A to a sound field component extraction unit 520. The V matrix 519A can be of size (N+1)2-by-(N+1)2, the matrix S 519B can be of size (N+1)2-by-(N+1)2 and the matrix U can be of size M-by-(N+1)2, where M refers to the number of samples in an audio frame. A typical value for M is 1024, although the techniques of this disclosure should not be limited to this typical diagonal matrix value.

[0749] A unidade de extração de componente de campo sonoro 520 pode representar uma unidade configurada para determinar e então extrair componentes distintos do campo sonoro e componentes de segundo plano do campo sonoro, separando de modo eficaz os componentes distintos do campo sonoro dos componentes de segundo plano do campo sonoro. Nesse aspecto, a unidade de extração de componente de campo sonoro 520 pode realizar muitas das operações descritas acima em relação à unidade de análise de campo sonoro 44, a unidade de seleção de segundo plano 48 e a unidade de seleção de primeiro plano 36 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. Dado que componentes distintos do campo sonoro, em alguns exemplos, exigem funções de base de ordem superior (relativos a componentes de segundo plano do campo sonoro) (e, portanto, mais SHC) para representar precisamente a natureza distinta destes componentes, separar os componentes distintos dos componentes de segundo plano pode habilitar que mais bits sejam alocados aos componentes distintos e menos bits sejam (relativamente falando) sejam alocados aos componentes de segundo plano. Em conformidade, através da aplicação dessa transformação (na forma de SVD) ou qualquer outra forma de transformação, incluindo PCA), as técnicas descritas nesta revelação podem facilitar a alocação de bits a vários SHC e, dessa forma, a compressão dos SHC 511.[0749] Sound field component extraction unit 520 may represent a unit configured to determine and then extract discrete sound field components and background sound field components, effectively separating discrete sound field components from sound field components. background of the sound field. In this regard, the sound field component extraction unit 520 can perform many of the operations described above with respect to the sound field analysis unit 44, the background selection unit 48 and the foreground selection unit 36 of the device. of audio coding 20 shown in the example of Figure 4. Given that distinct components of the sound field, in some examples, require higher-order base functions (relating to background components of the sound field) (and therefore more SHC) to accurately represent the distinct nature of these components, separating the distinct components from the background components can enable more bits to be allocated to the distinct components and fewer bits to be (relatively speaking) allocated to the background components. Accordingly, through the application of such a transformation (in the form of SVD) or any other form of transformation, including PCA), the techniques described in this disclosure can facilitate the allocation of bits to multiple SHCs and thus the compression of the SHC 511s.

[0750] Ademais, as técnicas podem também habilitar, conforme descrito em mais detalhes abaixo em relação à Figura 40B, uma redução de ordem dos componentes de segundo plano do campo sonoro dado que funções de base de ordem superior não são, em alguns exemplos, necessárias para representar essas porções de segundo plano do campo sonoro dada a natureza difusa ou de segundo plano desses componentes. As técnicas podem, portanto, habilitar compressão de aspectos difusos ou de segundo plano do campo sonoro enquanto preservam os componentes ou aspectos distintos salientes do campo sonoro através da aplicação de SVD aos SHC 511.[0750] Furthermore, the techniques may also enable, as described in more detail below with respect to Figure 40B, an order reduction of the background components of the sound field given that higher order base functions are not, in some instances, needed to represent these background portions of the sound field given the diffuse or background nature of these components. The techniques can therefore enable compression of diffuse or background aspects of the sound field while preserving salient components or distinct aspects of the sound field by applying SVD to the SHC 511.

[0751] Conforme mostrado adicionalmente no exemplo da Figura 40, a unidade de extração de componente de campo sonoro 520 inclui uma unidade de transposta 522, uma unidade de análise de componente saliente 524 e uma unidade de matemática 526. A unidade de transposta 522 representa uma unidade configurada para transpor a matriz V 519A para gerar uma transposta da matriz V 519, que é denotada como a “matriz VT 523.” A unidade de transposta 522 pode emitir essa matriz VT 523 para a unidade de matemática 526. A matriz VT 523 pode ser de tamanho (N+1)2- por-(N+1)2.[0751] As further shown in the example of Figure 40, the sound field component extraction unit 520 includes a transpose unit 522, a salient component analysis unit 524 and a math unit 526. The transpose unit 522 represents a unit configured to transpose the V matrix 519A to generate a transpose of the V matrix 519, which is denoted as the "VT matrix 523." The transpose unit 522 can output this VT matrix 523 to the math unit 526. The VT matrix 523 can be of size (N+1)2- by-(N+1)2.

[0752] A unidade de análise de componente saliente 524 representa uma unidade configurada para realizar uma análise de saliência em relação à matriz S 519B. A unidade de análise de componente saliente 524 pode, nesse aspecto, realizar operações similares àquelas descritas acima em relação à unidade de análise de campo sonoro 44 do dispositivo de codificação de áudio 20 mostrada no exemplo da Figura 4. A unidade de análise de componente saliente 524 pode analisar os valores diagonais da matriz S 519B, selecionar um número de variável D desses componentes que tem o valor maior. Em outras palavras, a unidade de análise de componente saliente 524 pode determinar o valor D, que separa os dois subespaços (por exemplo, o subespaço de primeiro plano ou predominante e o subespaço de segundo plano ou ambiente), analisando-se o declive da curva criado pelos valores diagonais descendentes de S, em que os valores singulares grandes representam sons de primeiro plano ou distintos e os valores singulares baixos representam componentes de segundo plano do campo sonoro. Em alguns exemplos, a unidade de análise de componente saliente 524 pode usar um primeiro e um segundo derivado da curva de valor singular. A unidade de análise de componente saliente 524 pode também limitar o número D para estar entre um e cinco. Conforme outro exemplo, a unidade de análise de componente saliente 524 pode limitar o número D para estar entre um e (N+1)2. Alternativamente, a unidade de análise de componente saliente 524 pode pré-definir o número D, tal como um valor de quatro. De qualquer forma, uma vez que o número D é estimado, a unidade de análise de componente saliente 24 extrai o subespaço de primeiro plano e de segundo plano das matrizes U, V e S.[0752] The salient component analysis unit 524 represents a unit configured to perform a salience analysis with respect to the S matrix 519B. The salient component analysis unit 524 may, in this regard, perform operations similar to those described above with respect to the sound field analysis unit 44 of the audio encoding device 20 shown in the example of Figure 4. The salient component analysis unit 524 can parse the diagonal values of matrix S 519B, select a variable number D from those components which has the largest value. In other words, the salient component analysis unit 524 can determine the value D, which separates the two subspaces (e.g., the foreground or predominant subspace and the background or ambient subspace) by analyzing the slope of the curve created by descending diagonal values of S, where large singular values represent foreground or distinct sounds and low singular values represent background components of the sound field. In some examples, the salient component analysis unit 524 may use a first and a second derivative of the singular value curve. The protruding component analysis unit 524 may also limit the number D to be between one and five. As another example, the salient component analysis unit 524 can limit the number D to be between one and (N+1)2. Alternatively, the salient component analysis unit 524 may pre-set the number D, such as a value of four. Anyway, once the number D is estimated, the salient component analysis unit 24 extracts the foreground and background subspace of the matrices U, V and S.

[0753] Em alguns exemplos, a unidade de análise de componente saliente 524 pode realizar essa análise em todas as amostras M, que podem ser reafirmadas como em uma base de quadro a quadro. Nesse aspecto, D pode variar de quadro para quadro. Em outros exemplos, a unidade de análise de componente saliente 24 pode realizar essa análise mais do que uma vez por quadro, analisando duas ou mais porções do quadro. Em conformidade, as técnicas não devem ser limitadas nesse aspecto aos exemplos descritos nessa revelação.[0753] In some examples, the salient component analysis unit 524 can perform this analysis on all M samples, which can be restated as on a frame-by-frame basis. In this respect, D can vary from frame to frame. In other examples, the salient component analysis unit 24 may perform this analysis more than once per frame, analyzing two or more portions of the frame. Accordingly, the techniques should not be limited in this regard to the examples described in that disclosure.

[0754] Na realidade, a unidade de análise de componente saliente 524 pode analisar os valores singulares da diagonal matriz, que é detonada como a matriz S 519B no exemplo da Figura 40, identificando esses valores que têm um valor relativo maior do que os outros valores da matriz S 519B diagonal. A unidade de análise de componente saliente 524 pode identificar valores D, extraindo esses valores para gerar a matriz SDIST 525A e a matriz SBG 525B. A matriz SDIST 525A pode representar uma matriz diagonal que compreende colunas D que têm (N+1)2 da matriz S 519B original. Em alguns casos, a matriz SBG 525B pode representar uma matriz que tem (N+1)2-colunas D, cada uma das quais inclui (N+1)2 coeficientes harmônicos esféricos transformados da matriz S 519B original. Embora descrita como uma matriz SDIST que representa uma matriz que compreende colunas D que têm (N+1)2 valores da matriz S 519B original, a unidade de análise de componente saliente 524 pode truncar essa matriz para gerar uma matriz SDIST que tem colunas D que têm valores D da matriz S 519B original, dado que a matriz S 519B é uma matriz diagonal e os (N+1)2 valores das colunas D após o valor em cada coluna ser muitas vezes um valor de zero. Embora descrita em relação a uma matriz SDIST 525A completa e uma matriz SBG 525B completa, as técnicas podem ser implantadas em relação a versões truncadas dessa matriz SDIST 525 A e uma versão truncada dessa matriz SBG 525B. Em conformidade, as técnicas dessa revelação não devem ser limitadas nesse aspecto.[0754] In fact, the salient component analysis unit 524 can analyze the singular values of the diagonal matrix, which is detonated as the matrix S 519B in the example of Figure 40, identifying those values that have a greater relative value than the others. S 519B diagonal matrix values. The salient component analysis unit 524 can identify D values, extracting these values to generate the SDIST matrix 525A and the SBG matrix 525B. The SDIST matrix 525A can represent a diagonal matrix comprising D columns having (N+1)2 of the original S matrix 519B. In some cases, the SBG 525B matrix may represent a matrix that has (N+1)2-D columns, each of which includes (N+1)2 transformed spherical harmonic coefficients from the original S 519B matrix. Although described as an SDIST matrix representing a matrix comprising D columns having (N+1)2 values from the original S 519B matrix, the salient component parsing unit 524 can truncate this matrix to generate an SDIST matrix which has D columns which have D values from the original matrix S 519B, given that the matrix S 519B is a diagonal matrix and the (N+1)2 values of the D columns after the value in each column is many times a value of zero. Although described in relation to a full SDIST 525A matrix and a full SBG 525B matrix, the techniques can be deployed against truncated versions of this SDIST 525A matrix and a truncated version of this SBG 525B matrix. Accordingly, the techniques of such disclosure should not be limited in this regard.

[0755] Em outras palavras, a matriz SDIST 525A pode ser de um tamanho

Figure img0049
, enquanto a matriz SBG 525B pode ser de um tamanho
Figure img0050
. A matriz SDIST 525A pode incluir aqueles componentes principais ou, em outras palavras, valores singulares que são determinados como salientes em termos de serem componentes de áudio distintos (DIST) do campo sonoro, enquanto a matriz SBG 525B pode incluir aqueles valores singulares que são determinados como segundo plano (BG) ou, em outras palavras, ambiente ou componentes de áudio não distintos do campo sonoro. Embora mostradas como matrizes separadas 525A e 525B no exemplo da Figura 40, as matrizes 525A e 525B podem ser especificadas como uma única matriz com o uso da variável D para denotar o número de colunas (da esquerda para a direita) dessa única matriz que representa a matriz SDIST 525. Em alguns exemplos, a variável D pode ser definida como quatro.[0755] In other words, the SDIST 525A array can be of a size
Figure img0049
, while the SBG 525B array can be of a size
Figure img0050
. The SDIST 525A matrix can include those principal components or, in other words, singular values that are determined to be salient in terms of being distinct audio components (DIST) of the sound field, while the SBG 525B matrix can include those singular values that are determined as background (BG) or, in other words, environment or audio components not distinct from the sound field. Although shown as separate matrices 525A and 525B in the example in Figure 40, matrices 525A and 525B can be specified as a single matrix using the variable D to denote the number of columns (from left to right) of that single matrix that represents the array SDIST 525. In some examples, the variable D can be set to four.

[0756] A unidade de análise de componente saliente 524 pode também analisar a matriz U 519C para gerar a matriz UDIST 525C e a matriz UBG 525D. Muitas vezes, a unidade de análise de componente saliente 524 pode analisar a matriz S 519B para identificar a variável D, gerando a matriz UDIST 525C e a matriz UBG 525B com base na variável D. Isto é, após identificar as colunas D da matriz S 519B que são salientes, a unidade de análise de componente saliente 524 pode dividir a matriz U 519C com base nessa variável D determinada. Nesse caso, a unidade de análise de componente saliente 524 pode gerar a matriz UDIST 525C para incluir as colunas D (da esquerda para a direita) dos (N+1)2 coeficientes harmônicos esféricos transformados da matriz U 519C original e da matriz UBG 525D para incluir as (N+1)2-colunas D restantes dos (N+1)2 coeficientes harmônicos esféricos transformados da matriz U 519C original. A matriz UDIST 525C pode ser de um tamanho de M- por-D, enquanto a matriz UBG 525D pode ser de um tamanho de M-por-(N+1)2-D. Enquanto mostradas como matrizes separadas 525C e 525D no exemplo da Figura 40, as matrizes 525C e 525D podem ser especificadas como uma única matriz com o uso da variável D para denotar o número de colunas (da esquerda para a direita) dessa única matriz que representa a matriz UDIST 525B.[0756] The salient component analysis unit 524 can also analyze the U matrix 519C to generate the UDIST matrix 525C and the matrix UBG 525D. Often, the salient component analysis unit 524 can parse the matrix S 519B to identify the variable D, generating the matrix UDIST 525C and the matrix UBG 525B based on the variable D. That is, after identifying the columns D of the matrix S 519B that are protruded, the protruding component analysis unit 524 can split the U array 519C based on that determined variable D. In that case, the salient component analysis unit 524 can generate the UDIST matrix 525C to include the D columns (from left to right) of the (N+1)2 transformed spherical harmonic coefficients of the original U matrix 519C and the matrix UBG 525D to include the remaining (N+1)2-columns D of the (N+1)2 transformed spherical harmonic coefficients of the original U 519C matrix. The UDIST 525C array can be a size of M-by-D, while the UBG 525D array can be a size of M-by-(N+1)2-D. While shown as separate matrices 525C and 525D in the example of Figure 40, matrices 525C and 525D can be specified as a single matrix using the variable D to denote the number of columns (from left to right) of that single matrix that represents the UDIST 525B array.

[0757] A unidade de análise de componente saliente 524 pode também analisar a matriz VT 523 para gerar a matriz VTDIST 525E e a matriz VTBG 525F. Muitas vezes, a unidade de análise de componente saliente 524 pode analisar a matriz S 519B para identificar a variável D, gerando a matriz VTDIST 525E e a matriz VBG 525F com base na variável D. Isto é, após identificar as colunas D da matriz S 519B que são salientes, a unidade de análise de componente saliente 254 pode dividir a matriz V 519A com base nessa variável D determinada. Nesse caso, a unidade de análise de componente saliente 524 pode gerar a matriz VTDIST 525E para incluir as (N+1)2 fileiras (de cima para baixo) dos valores D da matriz VT 523 original e da matriz VTBG 525F para incluir as (N+1)2 fileiras restantes dos (N+1)2-valores D da matriz VT 523 original. A matriz VTDIST 525E pode ser de um tamanho de (N+1)2-por-D, enquanto a matriz VTBG 525D pode ser de um tamanho de (N+1)2-por- (N+1)2-D. Embora mostradas como matrizes separadas 525E e 525F no exemplo da Figura 40, as matrizes 525E e 525F podem ser especificadas como uma única matriz com o uso da variável D para denotar o número de colunas (da esquerda para a direita) dessa única matriz que representa a matriz VDIST 525e. A unidade de análise de componente saliente 524 pode emitir a matriz SDIST 525, a matriz SBG 525B, a matriz UDIST 525C, a matriz UBG 525D e a matriz VTBG 525F para a unidade de matemática 526, enquanto também emite a matriz VTDIST 525E para a unidade de geração de corrente de bits 516.[0757] The salient component analysis unit 524 can also analyze the VT matrix 523 to generate the VTDIST matrix 525E and the VTBG matrix 525F. Often, the salient component analysis unit 524 can parse matrix S 519B to identify variable D, generating matrix VTDIST 525E and matrix VBG 525F based on variable D. That is, after identifying the D columns of matrix S 519B that are protruded, the protruding component analysis unit 254 can split the V matrix 519A based on that determined variable D. In that case, the salient component analysis unit 524 can generate the VTDIST 525E matrix to include the (N+1)2 rows (from top to bottom) of the D-values of the original VT matrix 523 and the VTBG matrix 525F to include the ( N+1)2 rows remaining of the (N+1)2-D-values of the original VT 523 matrix. The VTDIST 525E matrix can be of a size of (N+1)2-by-D, while the matrix VTBG 525D can be of a size of (N+1)2-by- (N+1)2-D. Although shown as separate matrices 525E and 525F in the example in Figure 40, matrices 525E and 525F can be specified as a single matrix using the variable D to denote the number of columns (from left to right) of that single matrix that represents the VDIST 525e array. The salient component analysis unit 524 can output the SDIST matrix 525, the matrix SBG 525B, the matrix UDIST 525C, the matrix UBG 525D and the matrix VTBG 525F to the math unit 526, while also outputting the matrix VTDIST 525E to the bitstream generating unit 516.

[0758] A unidade de matemática 526 pode representar uma unidade configurada para desempenhar multiplicações de matriz ou qualquer outra operação matemática capaz de ser realizada em relação a uma ou mais matrizes (ou vetores). Mais especificamente, conforme mostrado no exemplo da Figura 40, a unidade de matemática 526 pode representar uma unidade configurada para realizar uma multiplicação de matriz para multiplicar a matriz UDIST 525C pela matriz SDIST 525A para gerar vetores UDIST * SDIST 527 de tamanho M-por-D. A unidade de matemática da matriz 526 pode também representar uma unidade configurada para realizar uma multiplicação de matriz para multiplicar a matriz UBG 525D pela matriz SBG 525B e então pela matriz VTBG 525F para gerar a matriz UBG * SBG * VTBG 525F para gerar coeficientes harmônicos esféricos de segundo plano 531 de tamanho M-por-(N+1)2 (que podem representar aqueles de coeficientes harmônicos esféricos 511 representativos de componentes de segundo plano do campo sonoro). A unidade de matemática 526 pode emitir os vetores UDIST * SDIST 527 e os coeficientes harmônicos esféricos de segundo plano 531 para a unidade de codificação de áudio 514.[0758] Math unit 526 may represent a unit configured to perform matrix multiplications or any other math operation capable of being performed with respect to one or more matrices (or vectors). More specifically, as shown in the example in Figure 40, math unit 526 can represent a unit configured to perform matrix multiplication to multiply matrix UDIST 525C by matrix SDIST 525A to generate UDIST * SDIST 527 vectors of size M-per- D. Matrix math unit 526 can also represent a unit configured to perform matrix multiplication to multiply matrix UBG 525D by matrix SBG 525B and then matrix VTBG 525F to generate matrix UBG * SBG * VTBG 525F to generate spherical harmonic coefficients background 531 of size M-per-(N+1)2 (which may represent those of spherical harmonic coefficients 511 representative of background components of the sound field). The math unit 526 can output the UDIST*SDIST vectors 527 and the spherical background harmonic coefficients 531 to the audio encoding unit 514.

[0759] O dispositivo de codificação de áudio 510, portanto, difere do dispositivo de codificação de áudio 20 em que o dispositivo de codificação de áudio 510 inclui essa unidade de matemática 526 configurada para gerar os vetores UDIST * SDIST 527 e os coeficientes harmônicos esféricos de segundo plano 531 através de multiplicação de matriz no final do processo de codificação. A unidade de transformação invertível linear 30 do dispositivo de codificação de áudio 20 realiza a multiplicação das matrizes U e S para emitir os vetores U.S.[k] 33 no início relativo do processo de codificação, que pode facilitar operações futuras, tal como renderização, não mostrada no exemplo da Figura 40. Ademais, o dispositivo de codificação de áudio 20, ao invés de recuperar os SHC de segundo plano 531 no final do processo de codificação, seleciona os coeficientes de HOA de segundo plano 47 diretamente dos coeficientes de HOA 11, evitando potencialmente, dessa forma, multiplicações de matriz para recuperar os SHC de segundo plano 531.[0759] Audio encoding device 510 therefore differs from audio encoding device 20 in that audio encoding device 510 includes that math unit 526 configured to generate UDIST*SDIST 527 vectors and spherical harmonic coefficients background 531 through matrix multiplication at the end of the encoding process. The linear invertible transform unit 30 of the audio encoding device 20 performs the multiplication of the U and S matrices to output the US[k] 33 vectors at the relative start of the encoding process, which can facilitate future operations, such as rendering, not shown in the example of Figure 40. Furthermore, the audio encoding device 20, instead of retrieving the background SHCs 531 at the end of the encoding process, selects the background HOA coefficients 47 directly from the HOA coefficients 11, thus potentially avoiding array multiplications to retrieve the background SHC 531.

[0760] A unidade de codificação de áudio 514 pode representar uma unidade que realiza uma forma de codificação para comprimir adicionalmente os vetores UDIST * SDIST 527 e os coeficientes harmônicos esféricos de segundo plano 531. A unidade de codificação de áudio 514 pode operar de uma maneira substancialmente similar à unidade de codificador de áudio psicoacústico 40 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. Em alguns casos, essa unidade de codificação de áudio 514 pode representar um ou mais casos de uma unidade que codifica codificação de áudio avançada (AAC). A unidade de codificação de áudio 514 pode codificar cada coluna ou fileira dos vetores UDIST * SDIST 527. Muitas vezes, a unidade de codificação de áudio 514 pode invocar um exemplo de uma unidade que codifica AAC para cada uma das combinações de ordem/subordem restantes nos coeficientes harmônicos esféricos de segundo plano 531. Mais informações em relação a como os coeficientes harmônicos esféricos de segundo plano 531 podem ser codificados com o uso de uma unidade que codifica AAC pode ser encontrada em um artigo de convenção por Eric Hellerud, et al., intitulado “Encoding Higher Order Ambisonics with AAC,” apresentado na 124aConvenção, 17 a 20 de maio de 2008 e disponível em: http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025&conte xt=engpapers. A unidade de codificação de áudio 14 pode emitir uma versão codificada dos vetores UDIST* SDIST 527 (denotados “vetores UDIST * SDIST codificados 515”) e uma versão codificada dos coeficientes harmônicos esféricos de segundo plano 531 (denotados “coeficientes harmônicos esféricos de segundo plano codificados 515B”) para a unidade de geração de corrente de bits 516. Em alguns casos, a unidade de codificação de áudio 514 pode codificar o áudio de coeficientes harmônicos esféricos de segundo plano 531 com o uso de uma taxa-alvo de bits inferior à usada para codificar os vetores UDIST * SDIST 527, comprimindo potencialmente, dessa forma, os coeficientes harmônicos esféricos de segundo plano 531 mais em comparação aos vetores UDIST * SDIST 527.[0760] Audio encoding unit 514 may represent a unit that performs a form of encoding to further compress UDIST*SDIST vectors 527 and spherical background harmonic coefficients 531. Audio encoding unit 514 may operate in a substantially similar to the psychoacoustic audio encoder unit 40 of the audio encoding device 20 shown in the example of Figure 4. In some cases, this audio encoding unit 514 may represent one or more instances of an audio encoding encoding unit. Advanced (AAC). Audio encoding unit 514 can encode each column or row of UDIST * SDIST 527 vectors. Often, audio encoding unit 514 may invoke an example of an AAC encoding unit for each of the remaining order/suborder combinations. in the 531 background spherical harmonic coefficients. More information regarding how the 531 background spherical harmonic coefficients can be encoded using an AAC encoding unit can be found in a convention article by Eric Hellerud, et al. , titled “Encoding Higher Order Ambisonics with AAC,” presented at the 124th Convention, May 17-20, 2008 and available at: http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025&conte xt=engpapers . The audio coding unit 14 can output an encoded version of 527 UDIST* SDIST vectors (denoted “515 coded UDIST * SDIST vectors”) and an encoded version of 531 spherical background harmonic coefficients (denoted “background spherical harmonic coefficients”). coded 515B”) to bitstream generating unit 516. In some cases, audio encoding unit 514 may encode audio from background spherical harmonic coefficients 531 using a target bit rate lower than used to encode the UDIST * SDIST 527 vectors, thus potentially compressing the 531 background spherical harmonic coefficients more compared to the UDIST * SDIST 527 vectors.

[0761] A unidade de geração de corrente de bits 516 representa uma unidade que formata dados para estarem em conformidade com um formato conhecido (que pode se referir a um formato conhecido por um dispositivo de decodificação), gerando, dessa forma, o fluxo de bits 517. A unidade de geração de corrente de bits 42 pode operar de uma maneira substancialmente similar à descrita acima em relação à unidade de geração de corrente de bits 42 do dispositivo de codificação de áudio 24 mostrada no exemplo da Figura 4. A unidade de geração de corrente de bits 516 pode incluir um multiplexador que multiplexa os vetores UDIST * SDIST codificados 515, os coeficientes harmônicos esféricos de segundo plano codificados 515B e a matriz VTDIST 525E.[0761] The bitstream generation unit 516 represents a unit that formats data to conform to a known format (which may refer to a format known by a decoding device), thereby generating the stream of data. bits 517. Bitstream generating unit 42 may operate in a manner substantially similar to that described above with respect to bitstream generating unit 42 of audio encoding device 24 shown in the example of Figure 4. bitstream generation 516 may include a multiplexer that multiplexes encoded UDIST * SDIST vectors 515, encoded background spherical harmonic coefficients 515B, and VTDIST matrix 525E.

[0762] A Figura 40B é um diagrama de blocos que ilustra um dispositivo de codificação de áudio 510B exemplificativo que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descreve campos sonoros bi ou tridimensional. O dispositivo de codificação de áudio 510B pode ser similar ao dispositivo de codificação de áudio 510 em que o dispositivo de codificação de áudio 510B inclui uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de corrente de bits 516. Ademais, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510B pode ser similar à do dispositivo de codificação de áudio 510 em que a unidade de compressão de áudio 512 includes a unidade de decomposição 518. A unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510B pode ser diferente da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510 em que a unidade de extração de componente de campo sonoro 520 inclui uma unidade adicional, denotada como unidade de redução de ordem 528A (“unidade de redução de ordem 528”). Por essa razão, a unidade de extração de componente de campo sonoro 520 do dispositivo de codificação de áudio 510B é denotada como a “unidade de extração de componente de campo sonoro 520B.”[0762] Figure 40B is a block diagram illustrating an exemplary audio encoding device 510B that can perform various aspects of the techniques described in this disclosure to compress spherical harmonic coefficients that describe two- or three-dimensional sound fields. Audio encoding device 510B may be similar to audio encoding device 510 in that audio encoding device 510B includes an audio compression unit 512, an audio encoding unit 514, and a current generating unit. bits 516. Furthermore, the audio compression unit 512 of the audio encoding device 510B may be similar to that of the audio encoding device 510 in that the audio compression unit 512 includes the decomposition unit 518. The compression unit The audio compression unit 512 of the audio encoding device 510B may be different from the audio compression unit 512 of the audio encoding device 510 wherein the sound field component extraction unit 520 includes an additional unit, denoted as a reduction unit. order 528A ("order 528 reduction unit"). For that reason, the sound field component extraction unit 520 of the audio encoding device 510B is denoted as the "sound field component extraction unit 520B."

[0763] A unidade de redução de ordem 528A representa uma unidade configurada para realizar redução de ordem adicional dos coeficientes harmônicos esféricos de segundo plano 531. Em alguns casos, a unidade de redução de ordem 528A pode girar o campo sonoro representado pelos coeficientes harmônicos esféricos de segundo plano 531 para reduzir o número de coeficientes harmônicos esféricos de segundo plano 531 necessários para representar o campo sonoro. Em alguns casos, dado que os coeficientes harmônicos esféricos de segundo plano 531 representam componentes de segundo plano do campo sonoro, a unidade de redução de ordem 528A pode remover, eliminar ou do contrário deletar (muitas vezes zerando) aqueles dentre os coeficientes harmônicos esféricos de segundo plano 531 que correspondem a funções de base esférica de ordem superior. Nesse aspecto, a unidade de redução de ordem 528A pode realizar operações similares à unidade de seleção de segundo plano 48 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. A unidade de redução de ordem 528A pode emitir uma versão reduzida dos coeficientes harmônicos esféricos de segundo plano 531 (denotados como “coeficientes harmônicos esféricos de segundo plano reduzidos 529”) para a unidade de codificação de áudio 514, que pode realizar codificação de áudio de uma maneira descrita acima para codificar os coeficientes harmônicos esféricos de segundo plano reduzidos 529 e gerar, dessa forma, os coeficientes harmônicos esféricos de segundo plano reduzidos codificados 515B.[0763] The 528A order reduction unit represents a unit configured to perform additional order reduction of the 531 background spherical harmonic coefficients. In some cases, the 528A order reduction unit may rotate the sound field represented by the spherical harmonic coefficients. background 531 to reduce the number of background spherical harmonic coefficients 531 needed to represent the sound field. In some cases, since the spherical background harmonic coefficients 531 represent background components of the sound field, the order reduction unit 528A can remove, eliminate or otherwise delete (often zeroing out) those among the spherical harmonic coefficients of background 531 that correspond to higher order spherical basis functions. In this regard, the order reduction unit 528A can perform similar operations to the background selection unit 48 of the audio encoding device 20 shown in the example of Figure 4. The order reduction unit 528A can output a reduced version of the coefficients. 531 background spherical harmonics (denoted as “reduced background spherical harmonics 529”) to the audio encoding unit 514, which can perform audio coding in a manner described above to encode the reduced background spherical harmonics 529 and thereby generate the 515B encoded reduced spherical background harmonic coefficients.

[0764] As várias cláusulas abaixo podem apresentar vários aspectos das técnicas descritas nesta revelação.[0764] The various clauses below may present various aspects of the techniques described in this disclosure.

[0765] Cláusula 132567-1. Um dispositivo, tal como o dispositivo de codificação de áudio 510 ou o dispositivo de codificação de áudio 510B, que compreende: um ou mais processadores configurados para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e representar a pluralidade de coeficientes harmônicos esféricos como uma função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V.[0765] Clause 132567-1. A device, such as audio encoding device 510 or audio encoding device 510B, comprising: one or more processors configured to perform singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of a sound field to generate a matrix U representative of singular vectors to the left of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients and to represent the plurality of spherical harmonic coefficients as a function of at least a portion of one or more of the U matrix, the S matrix and the V matrix.

[0766] Cláusula 132567-2. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são configurados adicionalmente para gerar um fluxo de bits para incluir a representação da pluralidade de coeficientes harmônicos esféricos como um ou mais vetores da matriz U, da matriz S e da matriz V que incluem combinações das mesmas ou derivados das mesmas.[0766] Clause 132567-2. The device of clause 132567-1, wherein the one or more processors are further configured to generate a bit stream to include representing the plurality of spherical harmonic coefficients as one or more vectors of matrix U, matrix S, and matrix V which include combinations thereof or derivatives thereof.

[0767] Cláusula 132567-3. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são descritos adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, determinam um ou mais vetores UDIST inclusos dentro da matriz U que descrevem componentes distintos do campo sonoro.[0767] Clause 132567-3. The device of clause 132567-1, wherein the one or more processors are further described to, when representing the plurality of spherical harmonic coefficients, determine one or more UDIST vectors included within the matrix U that describe distinct components of the sound field.

[0768] Cláusula 132567-4. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UDIST inclusos dentro da matriz U que descrevem componentes distintos do campo sonoro, determinar um ou mais vetores SDIST inclusos dentro da matriz S que também descrevem os componentes distintos do campo sonoro e multiplicar os um ou mais vetores UDIST e os um ou mais vetores SDIST para gerar os vetores UDIST * SDIST.[0768] Clause 132567-4. The device of clause 132567-1, wherein the one or more processors are further configured to, when representing the plurality of spherical harmonic coefficients, determine one or more UDIST vectors included within the matrix U that describe distinct components of the sound field, determine a or more SDIST vectors included within the matrix S that also describe the distinct components of the sound field and multiply the one or more UDIST vectors and the one or more SDIST vectors to generate the UDIST * SDIST vectors.

[0769] Cláusula 132567-5. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UDIST inclusos dentro da matriz U que descrevem componentes distintos do campo sonoro, determinar um ou mais vetores SDIST inclusos dentro da matriz S que também descrevem os componentes distintos do campo sonoro e multiplicar os um ou mais vetores UDIST e os um ou mais vetores SDIST para gerar um ou mais vetores UDIST * SDIST e em que os um ou mais processadores são configurados adicionalmente para codificar por áudio os um ou mais vetores UDIST * SDIST para gerar uma versão codificada de áudio dos um ou mais vetores UDIST * SDIST.[0769] Clause 132567-5. The device of clause 132567-1, wherein the one or more processors are further configured to, when representing the plurality of spherical harmonic coefficients, determine one or more UDIST vectors included within the matrix U that describe distinct components of the sound field, determine a or more SDIST vectors included within the matrix S that also describe the distinct components of the sound field and multiply the one or more UDIST vectors and the one or more SDIST vectors to generate one or more UDIST * SDIST vectors and where the one or more processors are additionally configured to audio encode the one or more UDIST * SDIST vectors to generate an audio encoded version of the one or more UDIST * SDIST vectors.

[0770] Cláusula 132567-6. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são descritos adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UBG inclusos dentro da matriz U.[0770] Clause 132567-6. The device of clause 132567-1, wherein the one or more processors are further described to, when representing the plurality of spherical harmonic coefficients, determine one or more UBG vectors included within the matrix U.

[0771] Cláusula 132567-7. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, analisar a matriz S para identificar componentes de segundo plano e distintos do campo sonoro.[0771] Clause 132567-7. The device of clause 132567-1, wherein the one or more processors are further configured to, when representing the plurality of spherical harmonic coefficients, analyze the matrix S to identify background and distinct components of the sound field.

[0772] Cláusula 132567-8. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, analisar a matriz S para identificar componentes de segundo plano e distintos do campo sonoro e determinar, com base na análise da matriz S, um ou mais vetores UDIST da matriz U que descrevem componentes distintos do campo sonoro e um ou mais vetores UBG da matriz U que descrevem componentes de segundo plano do campo sonoro.[0772] Clause 132567-8. The device of clause 132567-1, wherein the one or more processors are further configured to, when representing the plurality of spherical harmonic coefficients, analyze the matrix S to identify background and distinct components of the sound field and determine, based on the analysis of the matrix S, one or more UDIST vectors of the matrix U that describe distinct components of the sound field and one or more UBG vectors of the matrix U that describe background components of the sound field.

[0773] Cláusula 132567-9. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, analisar a matriz S para identificar componentes de segundo plano e distintos do campo sonoro ema base de quadro de áudio por quadro de áudio e determinar, com base na análise de quadro de áudio por quadro de áudio da matriz S, um ou mais vetores UDIST da matriz U que descrevem componentes distintos do campo sonoro e um ou mais vetores UBG da matriz U que descrevem componentes de segundo plano do campo sonoro.[0773] Clause 132567-9. The device of clause 132567-1, wherein the one or more processors are further configured to, when representing the plurality of spherical harmonic coefficients, analyze the matrix S to identify background and distinct components of the sound field on an audio frame basis per audio frame and determine, based on the analysis of audio frame per audio frame of the matrix S, one or more UDIST vectors of the matrix U that describe distinct components of the sound field and one or more UBG vectors of the matrix U that describe components background of the sound field.

[0774] Cláusula 132567-10. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, analisar a matriz S para identificar componentes de segundo plano e distintos do campo sonoro, determinar, com base na análise da matriz S, um ou mais vetores UDIST da matriz U que descrevem componentes distintos do campo sonoro e um ou mais vetores UBG da matriz U que descrevem componentes de segundo plano do campo sonoro, determinando, com base na análise da matriz S, um ou mais vetores SDIST e um ou mais vetores SBG da matriz S que correspondem aos um ou mais vetores UDIST e aos um ou mais vetores UBG e determinar, com base na análise da matriz S, um ou mais vetores VTDIST e um ou mais vetores VTBG de uma transposta da matriz V que correspondem aos um ou mais vetores UDIST e aos um ou mais vetores UBG.[0774] Clause 132567-10. The device of clause 132567-1, wherein the one or more processors are further configured to, when representing the plurality of spherical harmonic coefficients, analyze the matrix S to identify background and distinct components of the sound field, determine, based on the analysis of the matrix S, one or more UDIST vectors of the matrix U that describe distinct components of the sound field and one or more UBG vectors of the matrix U that describe background components of the sound field, determining, based on the analysis of the matrix S, a or more SDIST vectors and one or more SBG vectors of the matrix S that correspond to the one or more UDIST vectors and the one or more UBG vectors and determine, based on the analysis of the matrix S, one or more VTDIST vectors and one or more VTBG vectors of a transpose of the matrix V that correspond to one or more UDIST vectors and to one or more UBG vectors.

[0775] Cláusula 132567-11. O dispositivo da cláusula 132567-10, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos adicionalmente, multiplicar os um ou mais vetores UBG pelos um ou mais vetores SBG e então por um ou mais vetores VTBG para gerar um ou mais vetores UBG * SBG * VTBG e em que os um ou mais processadores são configurados adicionalmente para codificar por áudio os vetores UBG * SBG * VTBG para gerar uma versão codificada de áudio dos vetores UBG * SBG * VTBG.[0775] Clause 132567-11. The device of clause 132567-10, wherein the one or more processors are additionally configured to, when representing the plurality of spherical harmonic coefficients additionally, multiply the one or more UBG vectors by the one or more SBG vectors and then by one or more vectors VTBG to generate one or more UBG * SBG * VTBG vectors and where the one or more processors are additionally configured to audio encode the UBG * SBG * VTBG vectors to generate an audio encoded version of the UBG * SBG * VTBG vectors.

[0776] Cláusula 132567-12. O dispositivo da cláusula 132567-10, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, multiplicar os um ou mais vetores UBG pelos um ou mais vetores SBG e então por um ou mais vetores VTBG para gerar um ou mais vetores UBG * SBG * VTBG e realizar um processo de redução de ordem para eliminar aqueles dentre os coeficientes dos um ou mais vetores UBG * SBG * VTBG associados com uma ou mais ordens de funções de base harmônica esférica e gerar, dessa forma, uma versão de ordem reduzida do um ou mais vetores UBG * SBG * VTBG.[0776] Clause 132567-12. The device of clause 132567-10, wherein the one or more processors are further configured to, when representing the plurality of spherical harmonic coefficients, multiply the one or more UBG vectors by the one or more SBG vectors and then by one or more VTBG vectors to generate one or more UBG * SBG * VTBG vectors and perform an order reduction process to eliminate those among the coefficients of the one or more UBG * SBG * VTBG vectors associated with one or more orders of spherical harmonic basis functions and generate, thus, a reduced-order version of one or more UBG * SBG * VTBG vectors.

[0777] Cláusula 132567-13. O dispositivo da cláusula 132567-10, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, multiplicar os um ou mais vetores UBG pelos um ou mais vetores SBG e então por um ou mais vetores VTBG para gerar um ou mais vetores UBG * SBG * VTBG e realizar um processo de redução de ordem para eliminar aqueles dentre os coeficientes dos um ou mais vetores UBG * SBG * VTBG associados com uma ou mais ordens de funções de base harmônica esférica e gerar, dessa forma, uma versão de ordem reduzida dos um ou mais vetores UBG * SBG * VTBG e em que os um ou mais processadores são configurados adicionalmente para codificar por áudio a versão de ordem reduzida dos um ou mais vetores UBG * SBG * VTBG para gerar uma versão codificada de áudio dos um ou mais vetores UBG * SBG * VTBG de ordem reduzida.[0777] Clause 132567-13. The device of clause 132567-10, wherein the one or more processors are further configured to, when representing the plurality of spherical harmonic coefficients, multiply the one or more UBG vectors by the one or more SBG vectors and then by one or more VTBG vectors to generate one or more UBG * SBG * VTBG vectors and perform an order reduction process to eliminate those among the coefficients of the one or more UBG * SBG * VTBG vectors associated with one or more orders of spherical harmonic basis functions and generate, thus, a reduced-order version of the one or more UBG * SBG * VTBG vectors and where the one or more processors are additionally configured to audio-encode the reduced-order version of the one or more UBG * SBG * VTBG vectors to generate an audio encoded version of one or more reduced-order UBG * SBG * VTBG vectors.

[0778] Cláusula 132567-14. O dispositivo da cláusula 132567-10, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, multiplicar os um ou mais vetores UBG pelos um ou mais vetores SBG e então por um ou mais vetores VTBG para gerar um ou mais vetores UBG * SBG * VTBG e realizar um processo de redução de ordem para eliminar aqueles dentre os coeficientes dos um ou mais vetores UBG * SBG * VTBG associados com uma ou mais ordens maiores do que um (1) de funções de base harmônica esférica e gerar, dessa forma, uma versão de ordem reduzida dos um ou mais vetores UBG * SBG * VTBG e codificar por áudio a versão de ordem reduzida dos um ou mais vetores UBG * SBG * VTBG para gerar uma versão codificada de áudio dos um ou mais vetores UBG * SBG * VTBG de ordem reduzida.[0778] Clause 132567-14. The device of clause 132567-10, wherein the one or more processors are further configured to, when representing the plurality of spherical harmonic coefficients, multiply the one or more UBG vectors by the one or more SBG vectors and then by one or more VTBG vectors to generate one or more UBG * SBG * VTBG vectors and perform an order reduction process to eliminate those among the coefficients of one or more UBG * SBG * VTBG vectors associated with one or more orders greater than one (1) of functions harmonic basis and thereby generate a reduced-order version of the one or more UBG * SBG * VTBG vectors and audio-encode the reduced-order version of the one or more UBG * SBG * VTBG vectors to generate an encoded version of audio from one or more reduced-order UBG * SBG * VTBG vectors.

[0779] Cláusula 132567-15. O dispositivo da cláusula 132567-10, em que os um ou mais processadores são configurados adicionalmente para gerar um fluxo de bits para incluir os um ou mais vetores DIST.[0779] Clause 132567-15. The device of clause 132567-10, wherein the one or more processors are additionally configured to generate a stream of bits to include the one or more DIST vectors.

[0780] Cláusula 132567-16. O dispositivo da cláusula 132567-10, em que os um ou mais processadores são configurados adicionalmente para gerar um fluxo de bits para incluir o um ou mais vetores VTDIST sem codificar por áudio os um ou mais vetores VTDIST.[0780] Clause 132567-16. The device of clause 132567-10, wherein the one or more processors are further configured to generate a bit stream to include the one or more VTDIST arrays without audio encoding the one or more VTDIST arrays.

[0781] Cláusula 132567-1F. Um dispositivo, tal como o dispositivo de codificação de áudio 510 ou 510B, que compreende um ou mais processadores para realizar uma decomposição de valor singular em relação aos dados de áudio de multicanal representativos de pelo menos uma porção do campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda dos dados de áudio de multicanal, uma matriz S representativa de valores singulares dos dados de áudio de multicanal e uma matriz V representativa de vetores singulares à direita dos dados de áudio de multicanal e representar os dados de áudio de multicanal como uma função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V.[0781] Clause 132567-1F. A device, such as audio encoding device 510 or 510B, comprising one or more processors for performing a singular value decomposition with respect to multichannel audio data representative of at least a portion of the sound field to generate a matrix U representing the left singular vectors of the multichannel audio data, a matrix S representing the singular values of the multichannel audio data, and a matrix V representing the right singular vectors of the multichannel audio data and representing the multichannel audio data as a function of at least a portion of one or more of the U matrix, the S matrix, and the V matrix.

[0782] Cláusula 132567-2F. O dispositivo da cláusula 132567-1F, em que os dados de áudio de multicanal compreende uma pluralidade de coeficientes harmônicos esféricos.[0782] Clause 132567-2F. The device of clause 132567-1F, wherein the multichannel audio data comprises a plurality of spherical harmonic coefficients.

[0783] Cláusula 132567-3F. O dispositivo da cláusula 132567-2F, em que os um ou mais processadores são configurados adicionalmente para realizar conforme recitado por qualquer combinação das cláusulas 132567-2 a 132567-16.[0783] Clause 132567-3F. The device of clause 132567-2F, wherein the one or more processors are further configured to perform as recited by any combination of clauses 132567-2 through 132567-16.

[0784] De cada uma das várias cláusulas descritas acima, deve ser compreendido que quaisquer dos dispositivos de codificação de áudio 510A a 510J podem realizar um método ou do contrário compreender meios de realizar cada etapa do método para qual o dispositivo de codificação de áudio 510A a 510J é configurado para realizar. Em alguns casos, esses meios podem compreender um ou mais processadores. Em alguns casos, os um ou mais processadores podem representar um processador de propósito especial configurado por meio de instruções armazenadas em um meio de armazenamento legível por computador não transitório. Em outras palavras, vários aspectos das técnicas em cada um dos conjuntos de exemplos de codificação podem fornecer um meio de armazenamento legível por computador não transitório que tem instruções armazenadas no mesmo que, quando executadas, fazem os um ou mais processadores realizarem o método para qual o dispositivo de codificação de áudio 510A a 510J foi configurado para realizar.[0784] From each of the various clauses described above, it is to be understood that any of the audio encoding devices 510A to 510J may perform a method or otherwise comprise means of performing each step of the method for which the audio encoding device 510A the 510J is configured to perform. In some cases, these means may comprise one or more processors. In some cases, the one or more processors may represent a special-purpose processor configured through instructions stored on a non-transient computer-readable storage medium. In other words, various aspects of the techniques in each of the sets of coding examples can provide a non-transient computer-readable storage medium that has instructions stored in it that, when executed, cause the one or more processors to perform the method for which the 510A to 510J audio encoding device has been configured to perform.

[0785] Por exemplo, uma cláusula 132567-17 pode ser derivada da cláusula antecedente 132567-1 para ser um método que compreende realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e que representa a pluralidade de coeficientes harmônicos esféricos como uma função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V.[0785] For example, a clause 132567-17 can be derived from the antecedent clause 132567-1 to be a method comprising performing a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of a sound field to generate a matrix U representative of singular vectors to the left of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients and representing the plurality of coefficients spherical harmonics as a function of at least a portion of one or more of the U matrix, the S matrix, and the V matrix.

[0786] Conforme outro exemplo, uma cláusula 132567-18 pode ser derivada da cláusula antecedente 1325671 para ser um dispositivo, tal como o dispositivo de codificação de áudio 510B, que compreende meios para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e meios para representar a pluralidade de coeficientes harmônicos esféricos como uma função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V.[0786] As another example, a clause 132567-18 can be derived from the preceding clause 1325671 to be a device, such as the audio encoding device 510B, comprising means for performing a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of a sound field to generate a matrix U representative of singular vectors to the left of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients and means for representing the plurality of spherical harmonic coefficients as a function of at least a portion of one or more of the U matrix, the S matrix and the V matrix.

[0787] Conforme ainda outro exemplo, uma cláusula 132567-18 pode ser derivada da cláusula antecedente 132567-1 para ser um meio de armazenamento legível por computador não transitório que tem instruções armazenadas no mesmo que, quando executadas, fazem um ou mais processadores realizarem uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e representar a pluralidade de coeficientes harmônicos esféricos como uma função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V.[0787] As yet another example, a clause 132567-18 can be derived from the antecedent clause 132567-1 to be a non-transient computer-readable storage medium that has instructions stored in it that, when executed, cause one or more processors to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of a sound field to generate a matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients and representing the plurality of spherical harmonic coefficients as a function of at least a portion of one or more of the matrix U, matrix S and matrix V.

[0788] Várias cláusulas podem de modo semelhante ser derivadas de cláusulas 132567-2 a 132567-16 para os vários dispositivos, métodos e o meio de armazenamento legível por computador não transitório derivados conforme exemplificado acima. O mesmo pode ser realizado para as várias cláusulas listadas por toda esta revelação.[0788] Various clauses may similarly be derived from clauses 132567-2 to 132567-16 for the various devices, methods, and non-transient computer-readable storage media derived as exemplified above. The same can be done for the various clauses listed throughout this revelation.

[0789] A Figura 40C é um diagrama de blocos que ilustra dispositivos de codificação de áudio 510C exemplificativo que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir sonoros bi ou tridimensional. O dispositivo de codificação de áudio 510C pode ser similar ao dispositivo de codificação de áudio 510B em que o dispositivo de codificação de áudio 510C inclui uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de corrente de bits 516. Ademais, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510C pode ser similar à do dispositivo de codificação de áudio 510B em que a unidade de compressão de áudio 512 includes a unidade de decomposição 518.[0789] Figure 40C is a block diagram illustrating exemplary audio encoding devices 510C that can perform various aspects of the techniques described in this disclosure for compressing two- or three-dimensional sound. The audio encoding device 510C may be similar to the audio encoding device 510B in that the audio encoding device 510C includes an audio compression unit 512, an audio encoding unit 514 and a current generating unit. bits 516. Furthermore, the audio compression unit 512 of the audio encoding device 510C may be similar to that of the audio encoding device 510B in that the audio compression unit 512 includes the decomposition unit 518.

[0790] A unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510C pode, entretanto, ser diferente da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510B em que a unidade de extração de componente de campo sonoro 520 inclui uma unidade adicional, denotada como unidade de reordenação de vetor 532. Por essa razão, a unidade de extração de componente de campo sonoro 520 do dispositivo de codificação de áudio 510C é denotada como a “unidade de extração de componente de campo sonoro 520C.”[0790] The audio compression unit 512 of the audio coding device 510C may, however, be different from the audio compression unit 512 of the audio coding device 510B in which the sound field component extraction unit 520 includes an additional unit, denoted vector reordering unit 532. For that reason, sound field component extraction unit 520 of audio encoding device 510C is denoted as "sound field component extraction unit 520C."

[0791] A unidade de reordenação de vetor 532 pode representar uma unidade configurada para reordenar os vetores UDIST * SDIST 527 para gerar um ou mais vetores UDIST * SDIST reordenados 533. Nesse aspecto, a unidade de reordenação de vetor 532 pode operar de uma maneira similar à descrita acima em relação à unidade de reordenação 34 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. A unidade de extração de componente de campo sonoro 520C pode invocar a unidade de reordenação de vetor 532 para reordenar os vetores UDIST * SDIST 527 devido ao fato de que a ordem dos vetores UDIST * SDIST 527 (em que cada vetor dos vetores UDIST * SDIST 527 pode representar um ou mais objetos de áudio mono distintos presentes no campo sonoro) pode variar a partir de porções dos dados de áudio pela razão observada acima. Isto é, dado que a unidade de compressão de áudio 512, em alguns exemplos, opera nessas porções dos dados de áudio geralmente denominadas quadros de áudio (que podem ter amostras M dos coeficientes harmônicos esféricos 511, em que M é, em alguns exemplos, definido como 1024), a posição de vetores que correspondem a esses objetos de áudio mono distintos conforme representado na matriz U 519C da qual os vetores UDIST * SDIST 527 são derivados pode variar de quadro de áudio a quadro de áudio.[0791] Vector reordering unit 532 may represent a unit configured to reorder UDIST * SDIST 527 vectors to generate one or more reordered UDIST * SDIST 533 vectors. In this regard, vector reordering unit 532 may operate in a similar to that described above with respect to the reordering unit 34 of the audio encoding device 20 shown in the example of Figure 4. The sound field component extraction unit 520C may invoke the vector reordering unit 532 to reorder the UDIST* vectors SDIST 527 due to the fact that the order of the UDIST * SDIST 527 vectors (where each vector of the UDIST * SDIST 527 vectors can represent one or more distinct mono audio objects present in the sound field) can vary from portions of the data from audio for the reason noted above. That is, given that the audio compression unit 512, in some instances, operates on those portions of the audio data generally called audio frames (which may have samples M of the spherical harmonic coefficients 511, where M is, in some instances, set to 1024), the position of vectors that correspond to these discrete mono audio objects as represented in the U 519C matrix from which the UDIST * SDIST 527 vectors are derived may vary from audio frame to audio frame.

[0792] Passar esses vetores UDIST * SDIST 527 diretamente para a unidade de codificação de áudio 514 sem reordenar esses vetores UDIST * SDIST 527 de quadro de áudio a quadro de áudio pode reduzir a extensão da compressão alcançável para alguns esquemas de compressão, tais como esquemas de compressão de herança que tem melhor realização quando objetos de áudio mono se correlacionam (em canais, que é definido nesse exemplo pela ordem dos vetores UDIST * SDIST 527 relativos um ao outro) através de quadros de áudio. Ademais, quando não reordenada, a codificação dos vetores UDIST * SDIST 527 pode reduzir a qualidade dos dados de áudio quando recuperados. Por exemplo, codificadores de AAC, que podem ser representados no exemplo da Figura 40C pela unidade de codificação de áudio 514, podem comprimir mais eficientemente os um ou mais vetores UDIST * SDIST reordenados 533 de quadro a quadro em comparação com a compressão alcançada quando os vetores UDIST * SDIST 527 são codificados diretamente de quadro a quadro. Embora descritas acima em relação a codificadores de AAC, as técnicas podem ser realizadas em relação a qualquer codificador que forneça melhor compressão quando objetos de áudio mono forem especificados através de quadros em uma ordem ou posição específica (em canais).[0792] Passing these UDIST*SDIST 527 vectors directly to the audio encoding unit 514 without reordering these UDIST*SDIST 527 vectors from audio frame to audio frame can reduce the extent of compression achievable for some compression schemes such as inheritance compression schemes that perform best when mono audio objects correlate (in channels, which is defined in this example by the order of UDIST * SDIST 527 vectors relative to each other) across audio frames. Furthermore, when not reordered, encoding of UDIST * SDIST 527 vectors can reduce the quality of audio data when retrieved. For example, AAC encoders, which can be represented in the example of Fig. 40C by the audio coding unit 514, can more efficiently compress the one or more reordered UDIST * SDIST vectors 533 from frame to frame compared to the compression achieved when the UDIST * SDIST 527 vectors are encoded directly from frame to frame. Although described above in relation to AAC encoders, the techniques can be performed in relation to any encoder that provides better compression when mono audio objects are specified through frames in a specific order or position (in channels).

[0793] Conforme descrito em mais detalhes abaixo, as técnicas podem habilitar o dispositivo de codificação de áudio 510C a reordenar um ou mais vetores (isto é, os vetores UDIST * SDIST 527 para gerar um ou mais vetores UDIST * SDIST reordenados 533 e facilitar, dessa forma, a compressão de vetores UDIST * SDIST 527 por um codificador de áudio herdado, tal como uma unidade de codificação de áudio 514. O dispositivo de codificação de áudio 510C pode realizar adicionalmente as técnicas descritas nesta revelação para codificar por áudio os um ou mais vetores UDIST * SDIST reordenados 533 com o uso da unidade de codificação de áudio 514 para gerar uma versão codificada 515A dos um ou mais vetores UDIST * SDIST reordenados 533.[0793] As described in more detail below, the techniques can enable the 510C audio encoding device to reorder one or more vectors (i.e. UDIST * SDIST 527 vectors to generate one or more 533 reordered UDIST * SDIST vectors and facilitate , thereby compressing UDIST * SDIST vectors 527 by a legacy audio encoder, such as an audio encoding unit 514. Audio encoding device 510C may additionally perform the techniques described in this disclosure to audio encode one or more 533 reordered UDIST * SDIST vectors using the 514 audio encoding unit to generate a 515A encoded version of the 533 reordered UDIST * SDIST vectors.

[0794] Por exemplo, a unidade de extração de componente de campo sonoro 520C pode invocar a unidade de reordenação de vetor 532 para reordenar um ou mais primeiros vetores UDIST * SDIST 527 de um primeiro quadro de áudio subsequente em tempo ao segundo quadro ao qual um ou mais segundos vetores UDIST * SDIST 527 correspondem. Embora descrito no contexto de um primeiro quadro de áudio sendo subsequente em tempo ao segundo quadro de áudio, o primeiro quadro de áudio pode preceder em tempo o segundo quadro de áudio. Em conformidade, as técnicas não devem ser limitadas ao exemplo descrito nesta revelação.[0794] For example, sound field component extraction unit 520C may invoke vector reordering unit 532 to reorder one or more first UDIST * SDIST vectors 527 of a first audio frame subsequent in time to the second frame to which one or more second UDIST * SDIST 527 vectors match. Although described in the context of a first audio frame being subsequent in time to the second audio frame, the first audio frame may precede the second audio frame in time. Accordingly, the techniques should not be limited to the example described in this disclosure.

[0795] A unidade de reordenação de vetor 532 pode primeiro realizar uma análise de energia em relação a cada um dos primeiros vetores UDIST * SDIST 527 e dos segundos vetores UDIST * SDIST 527, computando uma energia de quadrado da média da raiz para pelo menos uma porção do (mas muitas vezes o total) primeiro quadro de áudio e uma porção do (mas muitas vezes o total) segundo quadro de áudio e, dessa forma, gerar (presumindo-se que D seja quatro) oito energias, uma para cada um dos primeiros vetores UDIST * SDIST 527 do primeiro quadro de áudio e uma para cada um dos segundos vetores UDIST * SDIST 527 do segundo quadro de áudio. A unidade de reordenação de vetor 532 pode então comparar cada energia dos primeiros vetores UDIST * SDIST 527 em turnos com cada um dos segundos vetores UDIST * SDIST 527 conforme descrito acima em relação às Tabelas 1 a 4.[0795] The 532 vector reordering unit can first perform an energy analysis against each of the first UDIST * SDIST 527 vectors and the second UDIST * SDIST 527 vectors, computing a root mean square energy for at least a portion of (but often the total) first frame of audio and a portion of (but often the total) second frame of audio, and thus generate (assuming D is four) eight energies, one for each one of the first UDIST * SDIST 527 vectors of the first audio frame and one for each of the second UDIST * SDIST 527 vectors of the second audio frame. The vector reordering unit 532 can then compare each energy of the first UDIST * SDIST 527 vectors in turns with each of the second UDIST * SDIST 527 vectors as described above with respect to Tables 1 to 4.

[0796] Em outras palavras, quando usa-se uma SVD com base em quadro (ou métodos relacionados tais como KLT e PCA) a decomposição em sinais de HoA, pode não ser garantido que a ordem dos vetores de quadro a quadro seja consistente. Por exemplo, se há dois objetos no campo sonoro subjacente, a decomposição (que quando realizada apropriadamente pode ser denominada como “decomposição ideal”) pode resultar na separação dos dois objetos de tal modo que um vetor represente um objeto na matriz U. Entretanto, mesmo quando a decomposição pode ser denotada como uma “decomposição ideal,” os vetores podem alternar em posições na matriz U (e em conformidade na matriz S e na V) de quadro a quadro. Adicionalmente, pode muito bem haver diferenças de fase, em que a unidade de reordenação de vetor 532 pode inverter a fase com o uso de inversão de fase (multiplicando-se com ponto cada elemento do vetor invertido por menos um ou um negativo). A fim de alimentar esses vetores, quadro por quadro no mesmo “mecanismo de Codificação de AAC/Áudio” pode exigir que a ordem seja identificada (ou, em outras palavras, que os sinais sejam correspondentes), a fase a ser retificada e interpolação cuidadosa em limites de quadro a ser aplicada. Sem isso, o codec de áudio subjacente pode produzir artefatos extremamente irregulares incluindo aqueles conhecidos como “mancha temporal” ou “pré eco”.[0796] In other words, when using frame-based SVD (or related methods such as KLT and PCA) decomposition into HoA signals, it may not be guaranteed that the order of vectors from frame to frame is consistent. For example, if there are two objects in the underlying sound field, the decomposition (which when properly performed can be termed “ideal decomposition”) may result in separating the two objects such that a vector represents an object in the matrix U. However, even when the decomposition can be denoted as an “ideal decomposition,” the vectors can alternate positions in the U matrix (and accordingly in the S and V matrix) from frame to frame. Additionally, there may well be phase differences, whereby the vector reordering unit 532 may invert the phase using phase inversion (dot-multiplying each element of the inverted vector by minus one or negative one). In order to feed these vectors, frame by frame in the same “AAC/Audio Encoding engine” may require the order to be identified (or, in other words, the signals to match), the phase to be rectified, and careful interpolation. on frame boundaries to be applied. Without this, the underlying audio codec can produce extremely jagged artifacts including those known as “time-smear” or “pre-echo”.

[0797] De acordo com vários aspectos das técnicas descritas nesta revelação, o dispositivo de codificação de áudio 510C pode aplicar múltiplas metodologias para identificar/corresponder vetores, com o uso de energia e correlação cruzada em limites de quadro dos vetores. O dispositivo de codificação de áudio 510C pode também garantir que uma mudança de fase de 180 graus - que muitas vezes aparece em limites de quadro - seja corrigida. A unidade de reordenação de vetor 532 pode aplicar uma forma de janela de interpolação de intensificação/esmaecimento entre os vetores para garantir uma transição suave entre os quadros.[0797] In accordance with various aspects of the techniques described in this disclosure, the audio encoding device 510C can apply multiple methodologies to identify/match vectors, using energy and cross-correlation at frame boundaries of the vectors. The 510C audio encoding device can also ensure that a 180 degree phase shift - which often appears at frame boundaries - is corrected. The vector reorder unit 532 can apply a fade/fade interpolation window shape between vectors to ensure a smooth transition between frames.

[0798] Dessa forma, o dispositivo de codificação de áudio 530C pode reordenar um ou mais vetores para gerar um ou mais primeiros vetores reordenados e facilita, dessa forma, a codificação por um codificador de áudio herdado, em que os um ou mais vetores descritos representam componentes distintos de um campo sonoro e codificam por áudio os um ou mais vetores reordenados com o uso do codificador de áudio herdado para gerar uma versão codificada dos um ou mais vetores reordenados.[0798] In this way, the 530C audio encoding device can reorder one or more vectors to generate one or more first reordered vectors and thus facilitates encoding by a legacy audio encoder, where the one or more vectors described represent distinct components of a sound field and audio encode the one or more reordered vectors using the legacy audio encoder to generate an encoded version of the one or more reordered vectors.

[0799] Vários aspectos das técnicas descritas nesta revelação podem habilitar o dispositivo de codificação de áudio 510C a operar de acordo com as seguintes cláusulas.[0799] Various aspects of the techniques described in this disclosure may enable the 510C audio encoding device to operate in accordance with the following provisions.

[0800] Cláusula 133143-1 A. Um dispositivo, tal como o dispositivo de codificação de áudio 510C, que compreende: um ou mais processadores configurados para realizar uma comparação de energia entre um ou mais primeiros vetores e um ou mais segundos vetores para determinar um ou mais primeiros vetores reordenados e facilitar a extração do um ou ambos os um ou mais primeiros vetores e os um ou mais segundos vetores, em que os um ou mais primeiros vetores descrevem componentes distintos de um campo sonoro em uma primeira porção de dados de áudio e os um ou mais segundos vetores descrevem componentes distintos do campo sonoro em uma segunda porção dos dados de áudio.[0800] Clause 133143-1 A. A device, such as the 510C audio encoding device, comprising: one or more processors configured to perform a power comparison between one or more first vectors and one or more second vectors to determine one or more first vectors reordered and to facilitate the extraction of one or both of the one or more first vectors and the one or more second vectors, where the one or more first vectors describe distinct components of a sound field in a first piece of data from audio and the one or more second vectors describe distinct components of the sound field in a second portion of the audio data.

[0801] Cláusula 133143-2A. O dispositivo da cláusula 133143-1 A, em que os um ou mais primeiros vetores não representam componentes de segundo plano do campo sonoro na primeira porção dos dados de áudio e em que os um ou mais segundos vetores não representam componentes de segundo plano do campo sonoro na segunda porção dos dados de áudio.[0801] Clause 133143-2A. The provision of clause 133143-1A, where the first one or more vectors do not represent background components of the sound field in the first portion of the audio data and where the one or more second vectors do not represent background components of the field sound in the second portion of the audio data.

[0802] Cláusula 133143-3A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para, após realizar a comparação de energia, realizar uma correlação cruzada entre os um ou mais primeiros vetores e os um ou mais segundos vetores para identificar os um ou mais primeiros vetores que se correlacionaram com os um ou mais segundos vetores.[0802] Clause 133143-3A. The device of clause 133143-1 A, wherein the one or more processors are additionally configured to, after performing the power comparison, cross-correlate the one or more first vectors and the one or more second vectors to identify the one or more or more first vectors that correlated with the one or more second vectors.

[0803] Cláusula 133143-4A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para descartar um ou mais dos segundos vetores com base na comparação de energia para gerar um ou mais segundos vetores reduzidos que têm menos vetores do que os um ou mais segundos vetores, realizar uma correlação cruzada entre pelo menos um dos um ou mais primeiros vetores e os um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlacionam com pelo menos um dos um ou mais primeiros vetores e reordenar pelo menos um dos um ou mais primeiros vetores com base na correlação cruzada para gerar os um ou mais primeiros vetores reordenados.[0803] Clause 133143-4A. The device of clause 133143-1A, wherein the one or more processors are further configured to discard one or more of the second vectors based on the power comparison to generate one or more reduced second vectors that have fewer vectors than the one or more more second vectors, perform a cross-correlation between at least one of the first one or more first vectors and the reduced second one or more vectors to identify one of the one or more reduced second vectors that correlates with at least one of the first one or more first vectors, and reorder at least one of the first one or more vectors based on cross correlation to generate the first one or more reordered vectors.

[0804] Cláusula 133143-5A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para descartar um ou mais dos segundos vetores com base na comparação de energia para gerar um ou mais segundos vetores reduzidos que têm menos vetores do que os um ou mais segundos vetores, realizar uma correlação cruzada entre pelo menos um dos um ou mais primeiros vetores e os um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlacionam com pelo menos um dos um ou mais primeiros vetores, reordenar pelo menos um dos um ou mais primeiros vetores com base na correlação cruzada e para gerar os um ou mais primeiros vetores reordenados, codificar os um ou mais primeiros vetores reordenados para gerar a versão codificada de áudio dos um ou mais primeiros vetores reordenados.[0804] Clause 133143-5A. The device of clause 133143-1A, wherein the one or more processors are further configured to discard one or more of the second vectors based on the power comparison to generate one or more reduced second vectors that have fewer vectors than the one or more plus second vectors, cross-correlating at least one of the first one or more vectors and the reduced second one or more vectors to identify one of the one or more reduced second vectors that correlates with at least one of the first one or more first vectors, reorder at least one of the first one or more vectors based on cross-correlation and to generate the one or more first reorder vectors, encode the one or more first reorder vectors to generate the audio encoded version of the one or more first reorder vectors.

[0805] Cláusula 133143-6A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para descartar um ou mais dos segundos vetores com base na comparação de energia para gerar um ou mais segundos vetores reduzidos que têm menos vetores do que os um ou mais segundos vetores, realizar uma correlação cruzada entre pelo menos um dos um ou mais primeiros vetores e os um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlacionam com pelo menos um dos um ou mais primeiros vetores, reordenar pelo menos um dos um ou mais primeiros vetores com base na correlação cruzada e para gerar a versão codificada de áudio dos um ou mais primeiros vetores reordenados, gerar um fluxo de bits para incluir a versão codificada dos um ou mais primeiros vetores reordenados.[0805] Clause 133143-6A. The device of clause 133143-1A, wherein the one or more processors are further configured to discard one or more of the second vectors based on the power comparison to generate one or more reduced second vectors that have fewer vectors than the one or more plus second vectors, cross-correlating at least one of the first one or more vectors and the reduced second one or more vectors to identify one of the one or more reduced second vectors that correlates with at least one of the first one or more first vectors, reordering at least one of the first one or more vectors based on cross-correlation and to generate the audio encoded version of the one or more first reordered vectors, generating a bit stream to include the encoded version of the one or more first reordered vectors.

[0806] Cláusula 133143-7A. O dispositivo das reivindicações 3A a 6A, em que a primeira porção dos dados de áudio compreende um primeiro quadro de áudio que tem amostras M, em que a segunda porção dos dados de áudio compreende um segundo quadro de áudio que tem o mesmo número, M, de amostras, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, realizar a correlação cruzada em relação aos últimos valores de M a Z do pelo menos um dos um ou mais primeiros vetores e os primeiros valores de M a Z de cada um dos um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlaciona com o pelo menos um dos um ou mais primeiros vetores e em que Z é menor do que M.[0806] Clause 133143-7A. The device of claims 3A to 6A, wherein the first portion of the audio data comprises a first audio frame having samples M, wherein the second portion of the audio data comprises a second audio frame having the same number, M , of samples, where the one or more processors are additionally configured to, when cross-correlation is performed, cross-correlate against the last values of M to Z of at least one of the first one or more vectors and the first values from M to Z of each of the one or more second reduced vectors to identify one of the one or more second reduced vectors that correlates with the at least one of the first one or more first vectors and where Z is less than M.

[0807] Cláusula 133143-8A. O dispositivo das reivindicações 3A a 6A, em que a primeira porção dos dados de áudio compreende um primeiro quadro de áudio que tem amostras M, em que a segunda porção dos dados de áudio compreende um segundo quadro de áudio que tem o mesmo número, M, de amostras, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, realizar a correlação cruzada em relação aos últimos valores de M a Y do pelo menos um dos um ou mais primeiros vetores e os primeiros valores de M a Z de cada um dos um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlaciona com o pelo menos um dos um ou mais primeiros vetores e em tanto Z quanto Y são menores do que M.[0807] Clause 133143-8A. The device of claims 3A to 6A, wherein the first portion of the audio data comprises a first audio frame having samples M, wherein the second portion of the audio data comprises a second audio frame having the same number, M , of samples, where the one or more processors are additionally configured to, when cross-correlation is performed, cross-correlate against the last values of M through Y of at least one of the first one or more vectors and the first values from M to Z of each of the one or more second reduced vectors to identify one of the one or more second reduced vectors that correlates with the at least one of the first one or more first vectors and where both Z and Y are smaller than M.

[0808] Cláusula 133143-9A. O dispositivo das reivindicações 3A a 6A, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, inverter pelo menos um dos um ou mais primeiros vetores e dos um ou mais segundos vetores.[0808] Clause 133143-9A. The device of claims 3A to 6A, wherein the one or more processors are further configured to, when cross-correlation is performed, invert at least one of the one or more first vectors and the one or more second vectors.

[0809] Cláusula 133143-10A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos do campo sonoro para gerar os um ou mais primeiros vetores e os um ou mais segundos vetores.[0809] Clause 133143-10A. The device of clause 133143-1A, wherein the one or more processors are further configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of the sound field to generate the one or more first vectors and the one or more second vectors.

[0810] Cláusula 133143-11A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos do campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e gerar os um ou mais primeiros vetores e os um ou mais segundos vetores como uma função de uma ou mais dentre a matriz U, a matriz S e a matriz V.[0810] Clause 133143-11A. The device of clause 133143-1A, wherein the one or more processors are further configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of the sound field to generate the matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients and generating the one or more first vectors and the one or more second ones vectors as a function of one or more of the matrix U, matrix S, and matrix V.

[0811] Cláusula 133143-12A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos do campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, realizar uma análise de saliência em relação à matriz S para identificar um ou mais vetores UDIST da matriz U e um ou mais vetores SDIST da matriz S e determinar os um ou mais primeiros vetores e os um ou mais segundos vetores multiplicando-se, pelo menos em parte, os um ou mais vetores UDIST pelos um ou mais vetores SDIST.[0811] Clause 133143-12A. The device of clause 133143-1A, wherein the one or more processors are further configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of the sound field to generate the matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients, perform a salience analysis with respect to the matrix S to identify a or more UDIST vectors from matrix U and one or more SDIST vectors from matrix S and determine the first one or more vectors and the second one or more vectors by multiplying, at least in part, the one or more UDIST vectors by the one or more SDIST vectors.

[0812] Cláusula 133143- 13 A. O dispositivo da cláusula 133143-1 A, em que a primeira porção dos dados de áudio ocorre em tempo antes da segunda porção dos dados de áudio.[0812] Clause 133143-13 A. The device of clause 133143-1 A, wherein the first portion of the audio data occurs in time before the second portion of the audio data.

[0813] Cláusula 133143-14A. O dispositivo da cláusula 133143-1 A, em que a primeira porção dos dados de áudio ocorre em tempo após a segunda porção dos dados de áudio.[0813] Clause 133143-14A. The device of clause 133143-1A, wherein the first portion of the audio data occurs in time after the second portion of the audio data.

[0814] Cláusula 133143- 15 A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para, quando a comparação de energia é realizada, computar uma energia de quadrado da média da raiz para cada um dos um ou mais primeiros vetores e dos um ou mais segundos vetores e comparar a energia de quadrado da média da raiz computada para pelo menos um dos um ou mais primeiros vetores para a energia de quadrado da média da raiz computada para cada um dos um ou mais segundos vetores.[0814] Clause 133143-15 A. The device of clause 133143-1 A, wherein the one or more processors are additionally configured to, when the power comparison is performed, compute a root mean square power for each of the one or more first vectors and the one or more second vectors and compare the root mean square energy computed for at least one of the first one or more vectors to the root mean square energy computed for each of the one or more plus second vectors.

[0815] Cláusula 133143-16A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para reordenar pelo menos um dos um ou mais primeiros vetores com base na comparação de energia para gerar os um ou mais primeiros vetores reordenados e em que os um ou mais processadores são configurados adicionalmente para, quando os primeiros vetores são reordenados, aplicar uma janela de interpolação de intensificação/esmaecimento entre os um ou mais primeiros vetores para garantir uma transição suave quando os um ou mais primeiros vetores reordenados são gerados.[0815] Clause 133143-16A. The device of clause 133143-1A, wherein the one or more processors are further configured to reorder at least one of the first one or more vectors based on energy comparison to generate the one or more first reordered vectors and wherein the one or more processors are additionally configured to, when the first vectors are reordered, apply a fade-in interpolation window between the one or more first vectors to ensure a smooth transition when the first one or more reordered vectors are generated.

[0816] Cláusula 133143-17A. O dispositivo da cláusula 133143-1A, em que os um ou mais processadores são configurados adicionalmente para reordenar os um ou mais primeiros vetores com base pelo menos na comparação de energia para gerar os um ou mais primeiros vetores reordenados, gerar um fluxo de bits para incluir os um ou mais primeiros vetores reordenados ou uma versão codificada dos um ou mais primeiros vetores reordenados e especificar informações de reordenação no fluxo de bits que descrevem como os um ou mais primeiros vetores foram reordenados.[0816] Clause 133143-17A. The device of clause 133143-1A, wherein the one or more processors are further configured to reorder the one or more first vectors based on at least the energy comparison to generate the one or more first reordered vectors, generate a stream of bits for include the first one or more reordered vectors or an encoded version of the one or more first reordered vectors and specify reordering information in the bitstream that describes how the first one or more reordered vectors were reordered.

[0817] Cláusula 133143- 18 A. O dispositivo da cláusula 133143-1 A, em que a comparação de energia facilita a extração do um ou ambos os um ou mais primeiros vetores e os um ou mais segundos vetores a fim de promover codificação de áudio do um ou ambos os um ou mais primeiros vetores e os um ou mais segundos vetores.[0817] Clause 133143-18 A. The provision of clause 133143-1 A, where the energy comparison facilitates the extraction of one or both of the one or more first vectors and the one or more second vectors in order to promote encoding of audio from one or both of the one or more first vectors and the one or more second vectors.

[0818] Cláusula 133143-1B. O dispositivo, tal como o dispositivo de codificação de áudio 510C, que compreende: um ou mais processadores configurados para realizar uma correlação cruzada em relação a um ou mais primeiros vetores e um ou mais segundos vetores para determinar um ou mais primeiros vetores reordenados e facilitar a extração de um ou ambos os um ou mais primeiros vetores e os um ou mais segundos vetores, em que os um ou mais primeiros vetores descrevem componentes distintos de um campo sonoro em uma primeira porção de dados de áudio e os um ou mais segundos vetores descrevem componentes distintos do campo sonoro em uma segunda porção dos dados de áudio.[0818] Clause 133143-1B. The device, such as the audio coding device 510C, comprising: one or more processors configured to cross-correlate against one or more first vectors and one or more second vectors to determine one or more reordered first vectors and facilitate the extraction of one or both of the one or more first vectors and the one or more second vectors, wherein the one or more first vectors describe distinct components of a sound field in a first piece of audio data and the one or more second vectors describe distinct components of the sound field in a second portion of the audio data.

[0819] Cláusula 133143-2B. O dispositivo da cláusula 133143-1B, em que os um ou mais primeiros vetores não representam componentes de segundo plano do campo sonoro na primeira porção dos dados de áudio e em que os um ou mais segundos vetores não representam componentes de segundo plano do campo sonoro na segunda porção dos dados de áudio.[0819] Clause 133143-2B. The provision of clause 133143-1B, wherein the one or more first vectors do not represent background components of the sound field in the first portion of the audio data and wherein the one or more second vectors do not represent background components of the sound field in the second portion of the audio data.

[0820] Cláusula 133143-3B. O dispositivo da cláusula 133143-1B, em que os um ou mais processadores são configurados adicionalmente para, anterior à realização da correlação cruzada, realizar uma comparação de energia entre os um ou mais primeiros vetores e os um ou mais segundos vetores para gerar um ou mais segundos vetores reduzidos que têm menos vetores do que os um ou mais segundos vetores e em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, realizar a correlação cruzada entre os um ou mais primeiros vetores e um ou mais segundos vetores reduzidos para facilitar a codificação de áudio de um ou ambos dos um ou mais primeiros vetores e os um ou mais segundos vetores.[0820] Clause 133143-3B. The device of clause 133143-1B, wherein the one or more processors are further configured to, prior to performing cross-correlation, perform a power comparison between the one or more first vectors and the one or more second vectors to generate one or more more reduced second vectors that have fewer vectors than the one or more second vectors and where the one or more processors are additionally configured to, when cross-correlation is performed, cross-correlate between the first one or more vectors and one or more plus reduced second vectors to facilitate audio encoding of one or both of the one or more first vectors and the one or more second vectors.

[0821] Cláusula 133143-4B. Cláusula 133143- 3A. O dispositivo da cláusula 133143-3B, em que os um ou mais processadores são configurados adicionalmente para, quando a comparação de energia é realizada, computar uma energia de quadrado da média da raiz para cada um dos um ou mais primeiros vetores e dos um ou mais segundos vetores e comparar a energia de quadrado da média da raiz computada para pelo menos um dos um ou mais primeiros vetores para a energia de quadrado da média da raiz computada para cada um dos um ou mais segundos vetores.[0821] Clause 133143-4B. Clause 133143-3A. The device of clause 133143-3B, wherein the one or more processors are additionally configured to, when the power comparison is performed, compute a root mean square power for each of the first one or more vectors and the one or more plus second vectors and compare the computed root mean square energy for at least one of the first one or more vectors to the computed root mean square energy for each of the one or more second vectors.

[0822] Cláusula 133143-5B. O dispositivo da cláusula 133143-3B, em que os um ou mais processadores são configurados adicionalmente para descartar um ou mais dos segundos vetores com base na comparação de energia para gerar um ou mais segundos vetores reduzidos que têm menos vetores do que os um ou mais segundos vetores, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, realizar a correlação cruzada entre pelo menos um dos um ou mais primeiros vetores e os um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlacionam com pelo menos um dos um ou mais primeiros vetores e em que os um ou mais processadores são configurados adicionalmente para reordenar pelo menos um dos um ou mais primeiros vetores com base na correlação cruzada para gerar os um ou mais primeiros vetores reordenados.[0822] Clause 133143-5B. The device of clause 133143-3B, wherein the one or more processors are further configured to discard one or more of the second vectors based on power comparison to generate one or more reduced second vectors that have fewer vectors than the one or more second vectors, wherein the one or more processors are further configured to, when cross-correlation is performed, cross-correlate between at least one of the one or more first vectors and the one or more reduced second vectors to identify one of the one or more plus reduced second vectors that correlate with at least one of the first one or more vectors and wherein the one or more processors are further configured to reorder at least one of the first one or more first vectors based on cross correlation to generate the one or more first reordered vectors.

[0823] Cláusula 133143-6B. O dispositivo da cláusula 133143-3B, em que os um ou mais processadores são configurados adicionalmente para descartar um ou mais dos segundos vetores com base na comparação de energia para gerar um ou mais segundos vetores reduzidos que têm menos vetores do que os um ou mais segundos vetores, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, realizar a correlação cruzada entre pelo menos um dos um ou mais primeiros vetores e os um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlacionam com pelo menos um dos um ou mais primeiros vetores e em que os um ou mais processadores são configurados adicionalmente para reordenar pelo menos um dos um ou mais primeiros vetores com base na correlação cruzada para gerar os um ou mais primeiros vetores reordenados e codificar os um ou mais primeiros vetores reordenados para gerar a versão codificada de áudio dos um ou mais primeiros vetores reordenados.[0823] Clause 133143-6B. The device of clause 133143-3B, wherein the one or more processors are further configured to discard one or more of the second vectors based on power comparison to generate one or more reduced second vectors that have fewer vectors than the one or more second vectors, wherein the one or more processors are further configured to, when cross-correlation is performed, cross-correlate between at least one of the one or more first vectors and the one or more reduced second vectors to identify one of the one or more plus reduced second vectors that correlate with at least one of the first one or more vectors and wherein the one or more processors are further configured to reorder at least one of the first one or more first vectors based on cross correlation to generate the one or more first reordered vectors and encoding the one or more first reordered vectors to generate the audio encoded version of the one or more first vectors first reordered vectors.

[0824] Cláusula 133143-7B. O dispositivo da cláusula 133143-3B, em que os um ou mais processadores são configurados adicionalmente para descartar um ou mais dos segundos vetores com base na comparação de energia para gerar um ou mais segundos vetores reduzidos que têm menos vetores do que os um ou mais segundos vetores, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, realizar a correlação cruzada entre pelo menos um dos um ou mais primeiros vetores e os um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlacionam com pelo menos um dos um ou mais primeiros vetores e em que os um ou mais processadores são configurados adicionalmente para reordenar pelo menos um dos um ou mais primeiros vetores com base na correlação cruzada para gerar os um ou mais primeiros vetores reordenados, codificar os um ou mais primeiros vetores reordenados para gerar a versão codificada de áudio dos um ou mais primeiros vetores reordenados, gerar um fluxo de bits para incluir a versão codificada dos um ou mais vetores reordenados.[0824] Clause 133143-7B. The device of clause 133143-3B, wherein the one or more processors are further configured to discard one or more of the second vectors based on power comparison to generate one or more reduced second vectors that have fewer vectors than the one or more second vectors, wherein the one or more processors are further configured to, when cross-correlation is performed, cross-correlate between at least one of the one or more first vectors and the one or more reduced second vectors to identify one of the one or more plus reduced second vectors that correlate with at least one of the first one or more vectors and wherein the one or more processors are further configured to reorder at least one of the first one or more first vectors based on cross correlation to generate the one or more first reordered vectors, encoding the one or more first reordered vectors to generate the audio encoded version of the one or more primes three reordered vectors, generate a stream of bits to include the encoded version of the one or more reordered vectors.

[0825] Cláusula 133143-8B. O dispositivo das reivindicações 3B a 7B, em que a primeira porção dos dados de áudio compreende um primeiro quadro de áudio que tem amostras M, em que a segunda porção dos dados de áudio compreende um segundo quadro de áudio que tem o mesmo número, M, de amostras, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, realizar a correlação cruzada em relação aos últimos valores de M a Z do pelo menos um dos um ou mais primeiros vetores e os primeiros valores de M a Z de cada um dos um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlaciona com o pelo menos um dos um ou mais primeiros vetores e em que Z é menor do que M.[0825] Clause 133143-8B. The device of claims 3B to 7B, wherein the first portion of the audio data comprises a first audio frame having samples M, wherein the second portion of the audio data comprises a second audio frame having the same number, M , of samples, where the one or more processors are additionally configured to, when cross-correlation is performed, cross-correlate against the last values of M to Z of at least one of the first one or more vectors and the first values from M to Z of each of the one or more second reduced vectors to identify one of the one or more second reduced vectors that correlates with the at least one of the first one or more first vectors and where Z is less than M.

[0826] Cláusula 133143-9B. O dispositivo das reivindicações 3B a 7B, em que a primeira porção dos dados de áudio compreende um primeiro quadro de áudio que tem amostras M, em que a segunda porção dos dados de áudio compreende um segundo quadro de áudio que tem o mesmo número, M, de amostras, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, realizar a correlação cruzada em relação aos últimos valores de M a Y do pelo menos um dos um ou mais primeiros vetores e os primeiros valores de M a Z de cada um dos um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlaciona com o pelo menos um dos um ou mais primeiros vetores e em tanto Z quanto Y são menores do que M.[0826] Clause 133143-9B. The device of claims 3B to 7B, wherein the first portion of the audio data comprises a first audio frame having samples M, wherein the second portion of the audio data comprises a second audio frame having the same number, M , of samples, where the one or more processors are additionally configured to, when cross-correlation is performed, cross-correlate against the last values of M through Y of at least one of the first one or more vectors and the first values from M to Z of each of the one or more second reduced vectors to identify one of the one or more second reduced vectors that correlates with the at least one of the first one or more first vectors and where both Z and Y are smaller than M.

[0827] Cláusula 133143-10B. O dispositivo da reivindicação 1B, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, inverter pelo menos um dos um ou mais primeiros vetores e dos um ou mais segundos vetores.[0827] Clause 133143-10B. The device of claim 1B, wherein the one or more processors are further configured to, when cross-correlation is performed, invert at least one of the one or more first vectors and the one or more second vectors.

[0828] Cláusula 133143-11B. O dispositivo da cláusula 133143-1B, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos do campo sonoro para gerar os um ou mais primeiros vetores e os um ou mais segundos vetores.[0828] Clause 133143-11B. The device of clause 133143-1B, wherein the one or more processors are further configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of the sound field to generate the one or more first vectors and the one or more plus second vectors.

[0829] Cláusula 133143-12B. O dispositivo da cláusula 133143-1B, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos do campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e gerar os um ou mais primeiros vetores e os um ou mais segundos vetores como uma função de uma ou mais dentre a matriz U, a matriz S e a matriz V.[0829] Clause 133143-12B. The device of clause 133143-1B, wherein the one or more processors are further configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of the sound field to generate the matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients and generating the one or more first vectors and the one or more second vectors as a function of one or more of the matrix U, the matrix S, and the matrix V.

[0830] Cláusula 133143-13B. O dispositivo da cláusula 133143-1B, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos do campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, realizar uma análise de saliência em relação à matriz S para identificar um ou mais vetores UDIST da matriz U e um ou mais vetores SDIST da matriz S e determinar os um ou mais primeiros vetores e os um ou mais segundos vetores multiplicando-se, pelo menos em parte, os um ou mais vetores UDIST pelos um ou mais vetores SDIST.[0830] Clause 133143-13B. The device of clause 133143-1B, wherein the one or more processors are further configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of the sound field to generate the matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients, perform a salience analysis with respect to the matrix S to identify one or more UDIST vectors from matrix U and one or more SDIST vectors from matrix S and determine the first one or more vectors and the second one or more vectors by multiplying, at least in part, the one or more UDIST vectors by the one or more vectors SDIST

[0831] Cláusula 133143-14B. O dispositivo da cláusula 133143-1B, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos do campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e quando os um ou mais primeiros vetores e os um ou mais segundos vetores são determinados, realizar uma análise de saliência em relação à matriz S para identificar um ou mais vetores VDIST da matriz V como pelo menos um dos um ou mais primeiros vetores e dos um ou mais segundos vetores.[0831] Clause 133143-14B. The device of clause 133143-1B, wherein the one or more processors are further configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of the sound field to generate the matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients and when the one or more first vectors and the one or more second vectors are determined, perform a salience analysis with respect to the matrix S to identify one or more VDIST vectors of the matrix V as at least one of the one or more first vectors and the one or more second vectors.

[0832] Cláusula 133143-15B. O dispositivo da cláusula 133143-1B, em que a primeira porção dos dados de áudio ocorre em tempo antes da segunda porção dos dados de áudio.[0832] Clause 133143-15B. The device of clause 133143-1B, wherein the first portion of the audio data occurs in time before the second portion of the audio data.

[0833] Cláusula 133143-16B. O dispositivo da cláusula 133143-1B, em que a primeira porção dos dados de áudio ocorre em tempo após a segunda porção dos dados de áudio.[0833] Clause 133143-16B. The device of clause 133143-1B, wherein the first portion of the audio data occurs in time after the second portion of the audio data.

[0834] Cláusula 133143-17B. O dispositivo da cláusula 133143-1B, em que os um ou mais processadores são configurados adicionalmente para reordenar pelo menos um dos um ou mais primeiros vetores com base na correlação cruzada para gerar os um ou mais primeiros vetores reordenados e quando os primeiros vetores são reordenados, aplicar uma janela de interpolação de intensificação/esmaecimento entre os um ou mais primeiros vetores para garantir uma transição suave quando os um ou mais primeiros vetores reordenados são gerados.[0834] Clause 133143-17B. The device of clause 133143-1B, wherein the one or more processors are further configured to reorder at least one of the first one or more vectors based on cross-correlation to generate the first one or more reordered vectors and when the first vectors are reordered , apply a fade/fade interpolation window between the first one or more vectors to ensure a smooth transition when the first one or more reordered vectors are generated.

[0835] Cláusula 133143-18B. O dispositivo da cláusula 133143-1B, em que os um ou mais processadores são configurados adicionalmente para reordenar os um ou mais primeiros vetores com base pelo menos na correlação cruzada para gerar os um ou mais primeiros vetores reordenados, gerar um fluxo de bits para incluir os um ou mais primeiros vetores reordenados ou uma versão codificada dos um ou mais primeiros vetores reordenados e especificar no fluxo de bits como os um ou mais primeiros vetores foram reordenados.[0835] Clause 133143-18B. The device of clause 133143-1B, wherein the one or more processors are further configured to reorder the first one or more vectors based on at least cross-correlation to generate the first one or more reordered vectors, generate a bit stream to include the one or more first reordered vectors or an encoded version of the one or more first reordered vectors and specify in the bitstream how the first one or more reordered vectors.

[0836] Cláusula 133143-19B. O dispositivo da cláusula 133143-1B, em que a correlação cruzada facilita a extração do um ou ambos os um ou mais primeiros vetores e os um ou mais segundos vetores a fim de promover codificação de áudio do um ou ambos os um ou mais primeiros vetores e os um ou mais segundos vetores.[0836] Clause 133143-19B. The device of clause 133143-1B, where cross-correlation facilitates the extraction of one or both of the one or more first vectors and the one or more second vectors in order to promote audio encoding of the one or both of the one or more first vectors and the one or more second vectors.

[0837] A Figura 40D é um diagrama de blocos que ilustra um dispositivo de codificação de áudio 510D exemplificativo que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descreve campos sonoros bi ou tridimensional. O dispositivo de codificação de áudio 510D pode ser similar ao dispositivo de codificação de áudio 510C em que o dispositivo de codificação de áudio 510D inclui uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de corrente de bits 516. Ademais, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510D pode ser similar à do dispositivo de codificação de áudio 510C em que a unidade de compressão de áudio 512 includes a unidade de decomposição 518.[0837] Figure 40D is a block diagram illustrating an exemplary audio encoding device 510D that can perform various aspects of the techniques described in this disclosure to compress spherical harmonic coefficients that describe two- or three-dimensional sound fields. The audio encoding device 510D may be similar to the audio encoding device 510C in that the audio encoding device 510D includes an audio compression unit 512, an audio encoding unit 514 and a current generating unit. bits 516. Furthermore, the audio compression unit 512 of the audio encoding device 510D may be similar to that of the audio encoding device 510C in that the audio compression unit 512 includes the decomposition unit 518.

[0838] A unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510D pode, entretanto, ser diferente da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510C em que a unidade de extração de componente de campo sonoro 520 inclui uma unidade adicional, denotada como unidade de quantização 534 (”unidade quant 534”). Por essa razão, a unidade de extração de componente de campo sonoro 520 do dispositivo de codificação de áudio 510D é denotada como a “unidade de extração de componente de campo sonoro 520D.”[0838] The audio compression unit 512 of the audio coding device 510D may, however, be different from the audio compression unit 512 of the audio coding device 510C in which the sound field component extraction unit 520 includes an additional unit, denoted as quantization unit 534 (“quant unit 534”). For that reason, the sound field component extraction unit 520 of the audio encoding device 510D is denoted as the "sound field component extraction unit 520D."

[0839] A unidade de quantização 534 representa uma unidade configurada para quantizar os um ou mais vetores VTDIST 525E e/ou os um ou mais vetores VTBG 525F para gerar um ou mais vetores VTQ_DIST 525G correspondentes e/ou um ou mais vetores VTQ_BG 525H. A unidade de quantização 534 pode quantizar (que é um termo de processamento de sinal para arredondamento matemático através de eliminação de bits usados para representar um valor) os um ou mais vetores VTDIST 525E de modo a reduzir o número de bits que são usados para representar os um ou mais vetores VTDIST 525E no fluxo de bits 517. Em alguns exemplos, a unidade de quantização 534 pode quantizar os valores de 32 bits dos um ou mais vetores VTDIST 525E, substituindo esses valores de 32 bits com valores de 16 bits arredondados para gerar um ou mais vetores VTQ_DIST 525G. Nesse aspecto, a unidade de quantização 534 pode operar de uma maneira similar à descrita acima em relação à unidade de quantização 52 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4.[0839] The quantization unit 534 represents a unit configured to quantize the one or more VTDIST 525E vectors and/or the one or more VTBG 525F vectors to generate one or more corresponding VTQ_DIST 525G vectors and/or one or more VTQ_BG 525H vectors. The quantization unit 534 can quantize (which is a signal processing term for mathematical rounding by eliminating bits used to represent a value) the one or more VTDIST vectors 525E in order to reduce the number of bits that are used to represent the one or more VTDIST 525E vectors in the bit stream 517. In some examples, the quantization unit 534 may quantize the 32-bit values of the one or more VTDIST 525E vectors, replacing those 32-bit values with 16-bit values rounded to generate one or more VTQ_DIST 525G vectors. In this regard, the quantization unit 534 may operate in a similar manner as described above with respect to the quantization unit 52 of the audio encoding device 20 shown in the example of Figure 4.

[0840] A quantização dessa natureza pode introduzir um erro na representação do campo sonoro que varia de acordo com a grosseria da quantização. Em outras palavras, o uso de mais bits para representar os um ou mais vetores VTDIST 525E pode resultar em menos erro de quantização. O erro de quantização devido à quantização dos vetores VTDIST 525E (que pode ser denotado “EDIST”) pode ser determinado subtraindo-se o um ou mais vetores VTDIST 525E dos um ou mais vetores VTQ_DIST 525G.[0840] Quantization of this nature can introduce an error in the representation of the sound field that varies according to the coarseness of the quantization. In other words, using more bits to represent the one or more VTDIST 525E vectors can result in less quantization error. The quantization error due to the quantization of the VTDIST 525E vectors (which may be denoted “EDIST”) can be determined by subtracting the one or more VTDIST 525E vectors from the one or more VTQ_DIST 525G vectors.

[0841] De acordo com as técnicas descritas nesta revelação, o dispositivo de codificação de áudio 510D pode compensar por um ou mais dos erros de quantização EDIST projetando-se o erro EDIST em ou do contrário modificando-se um ou mais dos vetores UDIST * SDIST 527 ou os coeficientes harmônicos esféricos de segundo plano 531 gerados multiplicando-se os um ou mais vetores UBG 525D pelos um ou mais vetores SBG 525B e então pelos um ou mais vetores VTBG 525F. Em alguns exemplos, o dispositivo de codificação de áudio 510D pode compensar apenas pelo erro EDIST nos vetores UDIST * SDIST 527. Em outros exemplos, o dispositivo de codificação de áudio 510D pode apensar compensar pelo erro EBG nos coeficientes harmônicos esféricos de segundo plano. Em ainda outros exemplos, o dispositivo de codificação de áudio 510D pode compensar pelo erro EDIST tanto nos vetores UDIST * SDIST 527 quanto nos coeficientes harmônicos esféricos de segundo plano.[0841] In accordance with the techniques described in this disclosure, the 510D audio encoding device can compensate for one or more of the EDIST quantization errors by projecting the EDIST error onto or otherwise by modifying one or more of the UDIST vectors * SDIST 527 or the 531 spherical background harmonic coefficients generated by multiplying the one or more UBG 525D vectors by the one or more SBG 525B vectors and then by the one or more VTBG 525F vectors. In some examples, the 510D audio encoding device may only compensate for the EDIST error in the UDIST * SDIST 527 vectors. In other examples, the 510D audio encoding device may only compensate for the EBG error in the spherical background harmonic coefficients. In still other examples, the 510D audio encoding device can compensate for the EDIST error in both the UDIST * SDIST 527 vectors and the background spherical harmonic coefficients.

[0842] Em operação, a unidade de análise de componente saliente 524 pode ser configurada para emitir os um ou mais vetores SDIST 525, os um ou mais vetores SBG 525B, os um ou mais vetores UDIST 525C, os um ou mais vetores UBG 525D, os um ou mais vetores VTDIST 525E e os um ou mais vetores VTBG 525F para a unidade de matemática 526. A unidade de análise de componente saliente 524 pode também emitir os um ou mais vetores VTDIST 525E para a unidade de quantização 534. A unidade de quantização 534 pode quantizar os um ou mais vetores VTDIST 525E para gerar um ou mais vetores VTQ_DIST 525G. A unidade de quantização 534 pode fornecer os um ou mais vetores VTQ_DIST 525G para a unidade de matemática 526, enquanto também fornece os um ou mais vetores VTQ_DIST 525G para a unidade de reordenação de vetor 532 (conforme descrito acima). A unidade de reordenação de vetor 532 pode operar em relação aos um ou mais vetores VTQ_DIST 525G de uma maneira similar à descrita acima em relação aos vetores VTDIST 525E.[0842] In operation, the salient component analysis unit 524 can be configured to output the one or more SDIST 525 vectors, the one or more SBG 525B vectors, the one or more UDIST 525C vectors, the one or more UBG 525D vectors , the one or more VTDIST 525E vectors and the one or more VTBG 525F vectors to the math unit 526. The salient component analysis unit 524 may also output the one or more VTDIST vectors 525E to the quantization unit 534. The unit 534 can quantize the one or more VTDIST 525E vectors to generate one or more VTQ_DIST 525G vectors. The quantization unit 534 may supply the one or more VTQ_DIST 525G vectors to the math unit 526, while also providing the one or more VTQ_DIST 525G vectors to the vector reorder unit 532 (as described above). The vector reordering unit 532 may operate with respect to the one or more VTQ_DIST 525G vectors in a similar manner as described above with respect to the VTDIST 525E vectors.

[0843] Mediante o recebimento desses vetores 525 a 525G (“vetores 525”), a unidade de matemática 526 pode primeiro determinar coeficientes harmônicos esféricos distintos que descrevem componentes distintos do campo sonoro e coeficientes harmônicos esféricos de segundo plano que descreveram componentes de segundo plano do campo sonoro. A unidade de matemática de matriz 526 pode ser configurada para determinar os coeficientes harmônicos esféricos distintos multiplicando-se os um ou mais vetores UDIST 525C pelos um ou mais vetores SDIST 525A e então pelos um ou mais vetores VTDIST 525E. A unidade de matemática 526 pode ser configurada para determinar os coeficientes harmônicos esféricos de segundo plano multiplicando-se os um ou mais vetores UBG 525D pelos um ou mais vetores SBG 525A e então pelos um ou mais vetores VTBG 525E.[0843] Upon receipt of these vectors 525 to 525G ("vectors 525"), the math unit 526 can first determine distinct spherical harmonic coefficients that describe distinct components of the sound field and spherical background harmonic coefficients that describe background components of the sound field. The matrix math unit 526 can be configured to determine the distinct spherical harmonic coefficients by multiplying the one or more UDIST 525C vectors by the one or more SDIST 525A vectors and then by the one or more VTDIST 525E vectors. The math unit 526 can be configured to determine the spherical background harmonic coefficients by multiplying the one or more UBG 525D vectors by the one or more SBG 525A vectors and then by the one or more VTBG 525E vectors.

[0844] A unidade de matemática 526 pode então determinar um ou mais vetores UDIST * SDIST compensados 527’ (que podem ser similares aos vetores UDIST * SDIST 527 exceto que esses vetores incluem valores para compensar pelo erro EDIST) realizando-se uma operação de pseudoinversão em relação aos um ou mais vetores VTQ_DIST 525G e então multiplicando-se os harmônicos esféricos distintos pela pseudoinversão dos um ou mais vetores VTQ_DIST 525G. A unidade de reordenação de vetor 532 pode operar da maneira descrita acima para gerar vetores reordenados 527’, que são então codificados por áudio pela unidade de codificação de áudio 515A para gerar vetores reordenados codificados por áudio 515’, novamente conforme descrito acima.[0844] The math unit 526 can then determine one or more 527' compensated UDIST * SDIST vectors (which may be similar to 527 UDIST * SDIST vectors except that these vectors include values to compensate for the EDIST error) by performing an pseudoinversion with respect to one or more VTQ_DIST 525G vectors and then multiplying the distinct spherical harmonics by the pseudoinversion of one or more VTQ_DIST 525G vectors. Vector reordering unit 532 may operate in the manner described above to generate reordered vectors 527', which are then audio encoded by audio coding unit 515A to generate audio coded reordered vectors 515', again as described above.

[0845] A unidade de matemática 526 pode projetar a seguir o erro EDIST para os coeficientes harmônicos esféricos de segundo plano. A unidade de matemática 526 pode, para realizar essa projeção, determinar ou do contrário recuperar os coeficientes harmônicos esféricos originais 511 adicionando-se os coeficientes harmônicos esféricos distintos aos coeficientes harmônicos esféricos de segundo plano. A unidade de matemática 526 pode então subtrair os coeficientes harmônicos esféricos distintos quantizados (que podem ser gerados multiplicando-se os vetores UDIST 525C pelos vetores SDIST 525A e então pelos vetores VTQ_DIST 525G) e os coeficientes harmônicos esféricos de segundo plano dos coeficientes harmônicos esféricos 511 para determinar o erro restante devido à quantização dos vetores VTDIST 519. A unidade de matemática 526 pode então adicionar esse erro aos coeficientes harmônicos esféricos de segundo plano quantizados para gerar coeficientes harmônicos esféricos de segundo plano quantizados compensados 53.[0845] Math unit 526 can then project the EDIST error to the spherical background harmonic coefficients. The mathematics unit 526 may, in order to perform this projection, determine or otherwise recover the original spherical harmonic coefficients 511 by adding the distinct spherical harmonic coefficients to the background spherical harmonic coefficients. The math unit 526 can then subtract the quantized distinct spherical harmonic coefficients (which can be generated by multiplying the UDIST 525C vectors by the SDIST 525A vectors and then by the VTQ_DIST 525G vectors) and the spherical background harmonic coefficients from the spherical harmonic coefficients 511 to determine the remaining error due to quantization of the VTDIST vectors 519. The math unit 526 can then add this error to the quantized background spherical harmonic coefficients to generate compensated quantized spherical background harmonic coefficients 53.

[0846] De qualquer forma, a unidade de redução de ordem 528A pode obter uma realização conforme descrito acima para reduzir os coeficientes harmônicos esféricos de segundo plano quantizados compensados 53 para coeficientes harmônicos esféricos de segundo plano reduzidos 529’, que podem ser codificados por áudio pela unidade de codificação de áudio 514 da maneira descrita acima para gerar coeficientes harmônicos esféricos de segundo plano reduzidos codificados por áudio 515B’.[0846] In any case, the order reduction unit 528A can achieve an embodiment as described above to reduce compensated quantized background spherical harmonic coefficients 53 to reduced 529' background spherical harmonic coefficients, which can be audio encoded by the audio coding unit 514 in the manner described above to generate audio-encoded reduced spherical background harmonic coefficients 515B'.

[0847] Dessa forma, as técnicas podem habilitar o dispositivo de codificação de áudio 510D a quantizar um ou mais primeiros vetores, tais como os vetores VTDIST 525E, representativos de um ou mais componentes de um campo sonoro e compensar por erro introduzido devido à quantização dos um ou mais primeiros vetores e, um ou mais segundos vetores, tais como os vetores UDIST * SDIST 527 e/ou os vetores de coeficientes harmônicos esféricos de segundo plano 531, que também são representativos dos mesmos um ou mais componentes do campo sonoro.[0847] In this way, the techniques can enable the 510D audio encoding device to quantize one or more first vectors, such as the 525E VTDIST vectors, representative of one or more components of a sound field and compensate for introduced error due to quantization. of the one or more first vectors and one or more second vectors, such as the UDIST * SDIST vectors 527 and/or the 531 background spherical harmonic coefficient vectors, which are also representative of the same one or more sound field components.

[0848] Ademais, as técnicas podem fornecer essa compensação de erro de quantização de acordo com as cláusulas seguintes.[0848] Furthermore, the techniques can provide such quantization error compensation in accordance with the following clauses.

[0849] Cláusula 133146-1B. Um dispositivo, tal como o dispositivo de codificação de áudio 510D, que compreende: um ou mais processadores configurados para quantizar um ou mais primeiros vetores representativos de um ou mais componentes distintos de um campo sonoro e compensar por erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que também são representativos dos mesmos um ou mais componentes distintos do campo sonoro.[0849] Clause 133146-1B. A device, such as audio encoding device 510D, comprising: one or more processors configured to quantize one or more first vectors representative of one or more distinct components of a sound field and compensate for introduced error due to quantization of the one or more more first vectors in one or more second vectors that are also representative of the same one or more distinct components of the sound field.

[0850] Cláusula 133146-2B. O dispositivo da cláusula 133146-1B, em que os um ou mais processadores são configurados para quantizar um ou mais vetores de uma transposta de uma matriz V gerada pelo menos em parte realizando-se uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.[0850] Clause 133146-2B. The device of clause 133146-1B, wherein the one or more processors are configured to quantize one or more vectors of a transpose of a matrix V generated at least in part by performing a singular value decomposition with respect to a plurality of coefficients spherical harmonics that describe the sound field.

[0851] Cláusula 133146-3B. O dispositivo da cláusula 133146-1B, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e em que os um ou mais processadores são configurados para quantizar um ou mais vetores de uma transposta da matriz V.[0851] Clause 133146-3B. The device of clause 133146-1B, wherein the one or more processors are further configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of a sound field to generate the matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients and wherein the one or more processors are configured to quantize one or more more vectors of a transpose of the matrix V.

[0852] Cláusula 133146-4B. O dispositivo da cláusula 133146-1B, em que os um ou mais processadores são configurados para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, em que os um ou mais processadores são configurados para quantizar um ou mais vetores de uma transposta da matriz V e em que os um ou mais processadores são configurados para compensar pelo erro introduzido devido à quantização em um ou mais vetores U * S computados multiplicando-se um ou mais vetores U da matriz U por um ou mais vetores S da matriz S.[0852] Clause 133146-4B. The device of clause 133146-1B, wherein the one or more processors are configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of a sound field to generate the matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients, wherein the one or more processors are configured to quantize one or more vectors of a transpose of the matrix V and where the one or more processors are configured to compensate for the error introduced due to quantization in one or more vectors U * S computed by multiplying one or more vectors U of the matrix U by one or more vectors S of the S matrix.

[0853] Cláusula 133146-5B. O dispositivo da cláusula 133146-1B, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UDIST da matriz U, sendo que cada um corresponde a um dos componentes distintos do campo sonoro, determinar um ou mais vetores SDIST da matriz S, sendo que cada um corresponde ao mesmo dos componentes distintos do campo sonoro e determinar um ou mais vetores VTDIST de uma transposta da matriz V, sendo que cada um corresponde ao mesmo dos componentes distintos do campo sonoro, em que os um ou mais processadores são configurados para quantizar os um ou mais vetores VTDIST para gerar um ou mais vetores VTQ_DIST e em que os um ou mais processadores são configurados para compensar pelo erro introduzido devido à quantização em um ou mais vetores UDIST * SDIST computados multiplicando-se os um ou mais vetores UDIST vetores da matriz U por um ou mais vetores SDIST da matriz S de modo a gerar um ou mais vetores UDIST * SDIST com erro compensado.[0853] Clause 133146-5B. The device of clause 133146-1B, wherein the one or more processors are further configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of a sound field to generate the matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients, determine one or more UDIST vectors of the matrix U, each one corresponds to one of the distinct components of the sound field, determine one or more SDIST vectors of the matrix S, each of which corresponds to the same of the distinct components of the sound field, and determine one or more VTDIST vectors of a transpose of the matrix V, where each corresponds to the same of the distinct components of the sound field o, where the one or more processors are configured to quantize the one or more VTDIST vectors to generate one or more VTQ_DIST vectors and where the one or more processors are configured to compensate for the error introduced due to quantization in one or more UDIST vectors * SDIST computed by multiplying one or more UDIST vectors from matrix U by one or more SDIST vectors from matrix S to generate one or more UDIST vectors * SDIST with error compensated.

[0854] Cláusula 133146-6B. O dispositivo da cláusula 133146-5B, em que os um ou mais processadores são configurados para determinar coeficientes harmônicos esféricos distintos com base nos um ou mais vetores UDIST, os um ou mais vetores SDIST e os um ou mais vetores VTDIST e realizar uma pseudoinversão em relação aos vetores VTQ_DIST para dividir os coeficientes harmônicos esféricos distintos pelos um ou mais vetores VTQ_DIST e gerar, dessa forma, um ou mais vetores UC_DIST * SC_DIST com erro compensado que compensam pelo menos em parte pelo erro introduzido através da quantização dos vetores VTDIST.[0854] Clause 133146-6B. The device of clause 133146-5B, wherein the one or more processors are configured to determine distinct spherical harmonic coefficients based on the one or more UDIST vectors, the one or more SDIST vectors and the one or more VTDIST vectors and perform a pseudo-inversion in relative to the VTQ_DIST vectors to divide the distinct spherical harmonic coefficients by the one or more VTQ_DIST vectors and thereby generate one or more error-compensated UC_DIST * SC_DIST vectors that compensate at least in part for the error introduced by quantizing the VTDIST vectors.

[0855] Cláusula 133146-7B. O dispositivo da cláusula 133146-5B, em que os um ou mais processadores são configurados adicionalmente para codificar por áudio os um ou mais vetores UDIST * SDIST com erro compensado.[0855] Clause 133146-7B. The device of clause 133146-5B, wherein the one or more processors are additionally configured to audio encode the one or more UDIST * SDIST vectors with error compensated.

[0856] Cláusula 133146-8B. O dispositivo da cláusula 133146-1B, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UBG da matriz U que descrevem um ou mais componentes de segundo plano do campo sonoro e um ou mais vetores UDIST da matriz U que descrevem um ou mais componentes distintos do campo sonoro, determinar um ou mais vetores SBG da matriz S que descrevem os um ou mais componentes de segundo plano do campo sonoro e um ou mais vetores SDIST da matriz S que descrevem os um ou mais componentes distintos do campo sonoro e determinar um ou mais vetores VTDIST e um ou mais vetores VTBG de uma transposta da matriz V, em que os vetores VTDIST descrevem os um ou mais componentes distintos do campo sonoro e os VTBG descrevem os um ou mais componentes de segundo plano do campo sonoro, em que os um ou mais processadores são configurados para quantizar os um ou mais vetores VTDIST para gerar um ou mais vetores VTQ_DIST e em que os um ou mais processadores são configurados adicionalmente para compensar por pelo menos uma porção do erro introduzido devido à quantização em coeficientes harmônicos esféricos de segundo plano formados multiplicando-se os um ou mais vetores UBG pelos um ou mais vetores SBG e então pelos um ou mais vetores VTBG de modo a gerar coeficientes harmônicos esféricos de segundo plano compensados.[0856] Clause 133146-8B. The device of clause 133146-1B, wherein the one or more processors are further configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of a sound field to generate the matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients, determine one or more vectors UBG of the matrix U that describe one or more background components of the sound field and one or more UDIST vectors of the matrix U that describe one or more distinct components of the sound field, determine one or more vectors SBG of the matrix S that describe the one or more background components of the sound field and one or more SDIST vectors of the matrix S that describe the one or more c components of the sound field and determine one or more VTDIST vectors and one or more VTBG vectors from a transpose of the matrix V, where the VTDIST vectors describe the one or more distinct components of the sound field and the VTBG describe the one or more components of sound field background, where the one or more processors are configured to quantize the one or more VTDIST vectors to generate one or more VTQ_DIST vectors and where the one or more processors are additionally configured to compensate for at least a portion of the error introduced due to quantization into spherical background harmonic coefficients formed by multiplying the one or more UBG vectors by the one or more SBG vectors and then by the one or more VTBG vectors in order to generate compensated spherical background harmonic coefficients.

[0857] Cláusula 133146-9B. O dispositivo da cláusula 133146-8B, em que os um ou mais processadores são configurados para determinar o erro com base nos vetores VTDIST e um ou mais vetores UDIST * SDIST formados multiplicando-se os vetores UDIST pelos vetores SDIST e adicionar o erro determinado aos coeficientes harmônicos esféricos de segundo plano para gerar os coeficientes harmônicos esféricos de segundo plano compensados por erro.[0857] Clause 133146-9B. The device of clause 133146-8B, where the one or more processors are configured to determine the error based on the VTDIST vectors and one or more UDIST*SDIST vectors formed by multiplying the UDIST vectors by the SDIST vectors and adding the determined error to the spherical background harmonic coefficients to generate the error-compensated spherical background harmonic coefficients.

[0858] Cláusula 133146-10B. O dispositivo da cláusula 133146-8B, em que os um ou mais processadores são adicionalmente configurados para codificar por áudio os coeficientes harmônicos esféricos de segundo plano compensados por erro.[0858] Clause 133146-10B. The device of clause 133146-8B, wherein the one or more processors are further configured to audio-encode the error-compensated background spherical harmonic coefficients.

[0859] Cláusula 133146-1 IB. O dispositivo da cláusula 133146-1B,[0859] Clause 133146-1 IB. The provision of clause 133146-1B,

[0860] em que os um ou mais processadores são configurados para compensar o erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que são também representativos dos mesmos um ou mais componentes do campo sonoro para gerar um ou mais segundos vetores compensados por erro, e em que os um ou mais processadores são adicionalmente configurados para gerar um fluxo de bits para incluir os um ou mais segundos vetores compensados por erro e os um ou mais primeiros vetores quantizados.[0860] wherein the one or more processors are configured to compensate for the error introduced due to quantizing the one or more first vectors into one or more second vectors that are also representative of the same one or more sound field components to generate one or more second error compensated vectors, and wherein the one or more processors are further configured to generate a bit stream to include the one or more second error compensated vectors and the one or more first quantized vectors.

[0861] Cláusula 133146-12B. O dispositivo da cláusula 133146-1B, em que os um ou mais processadores são configurados para compensar o erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que são também representativos dos mesmos um ou mais componentes do campo sonoro para gerar um ou mais segundos vetores compensados por erro, e em que os um ou mais processadores são adicionalmente configurados para codificar por áudio os um ou mais segundos vetores compensados por erro e gerar um fluxo de bits para incluir os um ou mais segundos vetores compensados por erro codificado por áudio e os um ou mais primeiros vetores quantizados.[0861] Clause 133146-12B. The device of clause 133146-1B, wherein the one or more processors are configured to compensate for the error introduced due to the quantization of one or more first vectors into one or more second vectors that are also representative of the same one or more sound field components to generate one or more error compensated second vectors, and wherein the one or more processors are further configured to audio encode the one or more error compensated second vectors and generate a bit stream to include the one or more second compensated vectors by audio-coded error and the first one or more quantized vectors.

[0862] Cláusula 133146-1C. Um dispositivo, tal como o dispositivo de codificação de áudio 510D, que compreende: um ou mais processadores configurados para quantizar um ou mais primeiros vetores representativos de um ou mais componentes distintos de um campo sonoro e compensar o erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que são representativos de um ou mais componentes de segundo plano do campo sonoro.[0862] Clause 133146-1C. A device, such as audio encoding device 510D, comprising: one or more processors configured to quantize one or more first vectors representative of one or more distinct components of a sound field and compensate for error introduced due to quantization of the one or more more first vectors in one or more second vectors that are representative of one or more background components of the sound field.

[0863] Cláusula 133146-2C. O dispositivo da cláusula 133146-1C, em que os um ou mais processadores são configurados para quantizar um ou mais vetores de uma transposta de uma matriz V gerada realizando-se, pelo menos em parte, uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.[0863] Clause 133146-2C. The device of clause 133146-1C, wherein the one or more processors are configured to quantize one or more vectors of a transpose of a generated matrix V by performing, at least in part, a singular value decomposition with respect to a plurality of spherical harmonic coefficients that describe the sound field.

[0864] Cláusula 133146-3C. O dispositivo da cláusula 133146-1C, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, e em que os um ou mais processadores são configurados para quantizar um ou mais vetores de uma transposta da matriz V.[0864] Clause 133146-3C. The device of clause 133146-1C, wherein the one or more processors are further configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of a sound field to generate a matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients, and wherein the one or more processors are configured to quantize a or more vectors of a transpose of the matrix V.

[0865] Cláusula 133146-4C. O dispositivo da cláusula 133146-1C, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UDIST da matriz U, cada um dos quais corresponde a um dos componentes distintos do campo sonoro, determinar um ou mais vetores SDIST da matriz S, cada um dos quais corresponde ao mesmo dentre os componentes distintos do campo sonoro e determinar um ou mais vetores VTDIST de uma transposta da matriz V, cada um dos quais corresponde ao mesmo dentre os componentes distintos do campo sonoro, em que os um ou mais processadores são configurados para quantizar os um ou mais vetores VTDIST para gerar um ou mais vetores VTQ_DIST e compensar pelo menos uma porção do erro introduzido devido à quantização em um ou mais vetores UDIST * SDIST computados multiplicando-se os um ou mais vetores UDIST da matriz U por um ou mais vetores SDIST da matriz S de modo a gerar um ou mais vetores UDIST * SDIST compensados por erro.[0865] Clause 133146-4C. The device of clause 133146-1C, wherein the one or more processors are further configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of a sound field to generate a matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients, determine one or more UDIST vectors of the matrix U, each of which corresponds to one of the distinct components of the sound field, determine one or more SDIST vectors of the matrix S, each of which corresponds to the same among the distinct components of the sound field, and determine one or more VTDIST vectors of a transpose of the matrix V, each one of which corresponds to the same among the distinct components of the sound field, wherein the one or more processors are configured to quantize the one or more VTDIST vectors to generate one or more VTQ_DIST vectors and compensate for at least a portion of the error introduced due to quantization on one or more UDIST * SDIST vectors computed by multiplying The one or more UDIST vectors of matrix U are combined with one or more SDIST vectors of matrix S so as to generate one or more error-compensated UDIST * SDIST vectors.

[0866] Cláusula 133146-5C. O dispositivo da cláusula 133146-4C, em que os um ou mais processadores são configurados para determinar coeficientes harmônicos esféricos distintos com base nos um ou mais vetores UDIST, os um ou mais vetores SDIST e os um ou mais vetores VTDIST e realizar uma pseudoinversão em relação aos vetores VTQ_DIST para dividir os coeficientes harmônicos esféricos distintos pelos um ou mais vetores VTQ_DIST e gerar, assim, um ou mais vetores UC_DIST * SC_DIST que compensam pelo menos em parte o erro introduzido através da quantização dos vetores VTDIST.[0866] Clause 133146-5C. The device of clause 133146-4C, wherein the one or more processors are configured to determine distinct spherical harmonic coefficients based on the one or more UDIST vectors, the one or more SDIST vectors and the one or more VTDIST vectors and perform a pseudo-inversion in relative to the VTQ_DIST vectors to divide the distinct spherical harmonic coefficients by the one or more VTQ_DIST vectors and thus generate one or more UC_DIST * SC_DIST vectors that compensate at least in part for the error introduced through the quantization of the VTDIST vectors.

[0867] Cláusula 133146-6C. O dispositivo da cláusula 133146-4C, em que os um ou mais processadores são adicionalmente configurados para codificar por áudio os um ou mais vetores UDIST * SDIST compensados por erro.[0867] Clause 133146-6C. The device of clause 133146-4C, wherein the one or more processors are additionally configured to audio encode the one or more error-compensated UDIST * SDIST vectors.

[0868] Cláusula 133146-7C. O dispositivo da cláusula 133146-1C, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa dos vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa dos vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UBG da matriz U que descrevem um ou mais componentes de segundo plano do campo sonoro e um ou mais vetores UDIST da matriz U que descrevem um ou mais componentes distintos dos campos sonoro, determinar um ou mais vetores SBG da matriz S que descrevem os um ou mais componentes de segundo plano do campo sonoro e um ou mais vetores SDIST da matriz S que descrevem os um ou mais componentes distintos do campo sonoro e determinar um ou mais vetores VTDIST e um ou mais vetores VTBG de uma transposta da matriz V, em que os vetores VTDIST descrevem os um ou mais componentes distintos do campo sonoro e os VTBG descrevem os um ou mais componentes de segundo plano do campo sonoro, em que os um ou mais processadores são configurados para quantizar os um ou mais vetores VTDIST para gerar um ou mais vetores VTQ_DIST, e em que os um ou mais processadores são configurados para compensar o erro introduzido devido à quantização nos coeficientes harmônicos esféricos de segundo plano formados multiplicando-se os um ou mais vetores UBG pelos um ou mais vetores SBG e, então, pelos um ou mais vetores VTBG de modo a gerar coeficientes harmônicos esféricos de segundo plano compensados por erro.[0868] Clause 133146-7C. The device of clause 133146-1C, wherein the one or more processors are further configured to perform a singular value decomposition with respect to a plurality of spherical harmonic coefficients representative of a sound field to generate a matrix U representative of the left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of the singular vectors to the right of the plurality of spherical harmonic coefficients, determine one or more vectors UBG of the matrix U that describe one or more background components of the sound field and one or more UDIST vectors of the matrix U that describe one or more distinct components of the sound fields, determine one or more SBG vectors of the matrix S that describe the one or more background components of the sound field and one or more SDIST vectors of the matrix S that describe the one or more distinct components of the sound field and determine one or more VTDIST vectors and one or more VTBG vectors from a transpose of the matrix V, where the VTDIST vectors describe the one or more distinct components of the sound field and the VTBG describe the one or more components sound field background, where the one or more processors are configured to quantize the one or more VTDIST vectors to generate one or more VTQ_DIST vectors, and where the one or more processors are configured to compensate for the error introduced due to quantization on the background spherical harmonic coefficients formed by multiplying the one or more UBG vectors by the one or more SBG vectors and then by the one or more VTBG vectors to generate error-compensated spherical background harmonic coefficients.

[0869] Cláusula 133146-8C. O dispositivo da cláusula 133146-7C, em que os um ou mais processadores são configurados para determinar o erro com base nos vetores VTDIST e um ou mais vetores UDIST * SDIST formados multiplicando-se os vetores UDIST pelos vetores SDIST e adicionar o erro determinado aos coeficientes harmônicos esféricos de segundo plano para gerar os coeficientes harmônicos esféricos de segundo plano compensados por erro.[0869] Clause 133146-8C. The device of clause 133146-7C, where the one or more processors are configured to determine the error based on the VTDIST vectors and one or more UDIST*SDIST vectors formed by multiplying the UDIST vectors by the SDIST vectors and adding the determined error to the spherical background harmonic coefficients to generate the error-compensated spherical background harmonic coefficients.

[0870] Cláusula 133146-9C. O dispositivo da cláusula 133146-7C, em que os um ou mais processadores são adicionalmente configurados para codificar por áudio os coeficientes harmônicos esféricos de segundo plano compensados por erro.[0870] Clause 133146-9C. The device of clause 133146-7C, wherein the one or more processors are further configured to audio-encode the error-compensated background spherical harmonic coefficients.

[0871] Cláusula 133146-lOC. O dispositivo da cláusula 133146-1C, em que os um ou mais processadores são adicionalmente configurados para compensar o erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que são também representativos dos mesmos um ou mais componentes do campo sonoro para gerar um ou mais segundos vetores compensados por erro e gerar um fluxo de bits para incluir os um ou mais segundos vetores compensados por erro e os um ou mais primeiros vetores quantizados.[0871] Clause 133146-1OC. The device of clause 133146-1C, wherein the one or more processors are further configured to compensate for error introduced due to quantization of the one or more first vectors into one or more second vectors that are also representative of the same one or more field components sound to generate one or more second error compensated vectors and generate a bit stream to include the one or more second error compensated vectors and the one or more first quantized vectors.

[0872] Cláusula 133146-11C. O dispositivo da cláusula 133146-1B, em que os um ou mais processadores são adicionalmente configurados para compensar o erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que são também representativos dos mesmos um ou mais componentes do campo sonoro para gerar um ou mais segundos vetores compensados por erro e codificar por áudio os um ou mais segundos vetores compensados por erro e gerar um fluxo de bits para incluir os um ou mais segundos vetores compensados por erro codificado por áudio e os um ou mais primeiros vetores quantizados.[0872] Clause 133146-11C. The device of clause 133146-1B, wherein the one or more processors are further configured to compensate for error introduced due to quantization of the one or more first vectors into one or more second vectors that are also representative of the same one or more field components sound to generate one or more second error-compensated vectors and audio-encode the one or more second error-compensated vectors and generate a bitstream to include the one or more second audio-encoded error-compensated vectors and the first one or more quantized vectors.

[0873] Em outras palavras, ao usar a decomposição SVD com base em quadro (ou métodos relacionados tais como KLT & PCA) em sinais de HoA para o propósito de redução largura de banda, as técnicas descritas nessa revelação podem permitir que o dispositivo de codificação de áudio 10D quantize os primeiros poucos vetores da matriz U (multiplicados pelos valores singulares correspondentes da matriz S) assim como os vetores correspondentes do vetor V. Isso compreenderá os componentes ‘de primeiro plano’ ou ‘distintos’ do campo sonoro. As técnicas podem, então, permitir que o dispositivo de codificação de áudio 510D codifique os vetores U*S com o uso de um mecanismo de codificação de áudio de ‘caixa preta’, tal como um codificador AAC. O vetor V pode ser ou escalar ou quantizado por vetor.[0873] In other words, when using frame-based SVD decomposition (or related methods such as KLT & PCA) on HoA signals for the purpose of bandwidth reduction, the techniques described in this disclosure may allow the 10D audio encoding quantize the first few vectors of the matrix U (multiplied by the corresponding singular values of the matrix S) as well as the corresponding vectors of the vector V. This will comprise the 'foreground' or 'distinct' components of the sound field. The techniques may then allow the audio encoding device 510D to encode the U*S vectors using a 'black box' audio encoding mechanism, such as an AAC encoder. The vector V can be either scalar or vector quantized.

[0874] Adicionalmente, alguns dos vetores restantes na matriz U podem ser multiplicados com os valores singulares correspondentes da matriz S e da matriz V e também codificados com o uso de um mecanismo de codificação de áudio de ‘caixa preta’. Os mesmos compreenderão os componentes ‘de segundo plano’ do campo sonoro. Uma quantização escalar de 16 bits simples dos vetores V pode resultar em sobrecarga de aproximadamente 80 kbps para 4aordem (25 coeficientes) e 160 kbps para 6a ordem (49 coeficientes). Uma quantização mais grosseira pode resultar em erros de quantização maiores. As técnicas descritas nesta revelação podem compensar o erro de quantização dos vetores V - através da ‘projeção’ do erro de quantização do vetor V nos componentes de segundo plano e de primeiro plano.[0874] Additionally, some of the remaining vectors in the U matrix can be multiplied with the corresponding singular values of the S matrix and the V matrix and also encoded using a 'black box' audio coding mechanism. They will comprise the 'background' components of the sound field. A simple 16-bit scalar quantization of the V vectors can result in overhead of approximately 80 kbps for 4th order (25 coefficients) and 160 kbps for 6th order (49 coefficients). Coarse quantization can result in larger quantization errors. The techniques described in this disclosure can compensate for the quantization error of the vectors V - by 'projecting' the quantization error of the vector V onto the foreground and background components.

[0875] As técnicas nesta descrição podem incluir calcular uma versão quantizada do vetor V real. Esse vetor V quantizado pode ser chamado de V (em que V - V+e). O sinal de HoA subjacente - para os componentes de primeiro plano - que as técnicas estão tentando recriar é dado por H_f=USV, em que U, S e V contém apenas os elementos primeiro plano. Para o propósito desta discussão, U.S. será substituído por um único conjunto de vetores U. Assim, H_f = UV. Dado que se tem um V errôneo, as técnicas estão tentando recriar H_f tão próximo quanto possível. Assim, as técnicas podem permitir que o dispositivo de codificação de áudio 10D encontre U de modo que H_f=U’V. O dispositivo de codificação de áudio 10D pode usar uma metodologia de pseudoinversão que permite U = H_f [V’]A(- 1). Com o uso do assim chamado mecanismo de codificação de áudio de ‘caixa preta’ para codificar U, as técnicas podem minimizar o erro em H, causado pelo que pode ser referido como o vetor V errôneo.[0875] The techniques in this description may include calculating a quantized version of the actual V vector. This quantized vector V can be called V (where V - V+e). The underlying HoA signal - for the foreground components - that the techniques are trying to recreate is given by H_f=USV, where U, S and V contain only the foreground elements. For the purpose of this discussion, U.S. will be replaced by a single set of vectors U. Thus, H_f = UV. Given that you have an erroneous V, techniques are trying to recreate H_f as closely as possible. Thus, the techniques can allow the audio encoding device 10D to find U such that H_f=U'V. The 10D audio encoding device can use a pseudo-inversion methodology that allows U = H_f [V']A(- 1). By using the so-called 'black box' audio coding mechanism to encode U, the techniques can minimize the error in H, caused by what can be referred to as the erroneous V vector.

[0876] De um modo similar, as técnicas podem também permitir que o dispositivo de codificação de áudio projete o erro devido à quantização de V nos elementos de segundo plano. O dispositivo de codificação de áudio 510D pode ser configurado para recriar o sinal de HoA total que é uma combinação dos sinais de HoA de primeiro plano e de segundo plano, isto é, H=H_f + H_b. Isso pode, novamente, ser modelado como H = H_f +e + H_b, devido ao erro de quantização em V. Desse modo, em vez de colocar o H_b através do ‘codificador de áudio de caixa preta’, coloca-se (e+H_b) através do codificador de áudio, na compensação de efeito do erro em V. Na prática, isso compensa o erro apenas até a ordem determinada pelo dispositivo de codificação de áudio 510D para enviar para os elementos de segundo plano.[0876] In a similar way, the techniques can also allow the audio encoding device to project the error due to quantization of V in the background elements. The audio encoding device 510D can be configured to recreate the total HoA signal which is a combination of the foreground and background HoA signals, that is, H=H_f + H_b. This can again be modeled as H = H_f +e + H_b, due to the quantization error in V. Thus, instead of putting the H_b through the 'black box audio encoder', one puts (e+ H_b) through the audio encoder, in the effect compensation of the error in V. In practice, this compensates the error only up to the order determined by the audio encoding device 510D to send to the background elements.

[0877] A Figura 40E é um diagrama de blocos que ilustra um dispositivo de codificação de áudio exemplificativo 510E que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descrevem dois ou três campos de som dimensionais. O dispositivo de codificação de áudio 510E pode ser similar ao dispositivo de codificação de áudio 510D em que o dispositivo de codificação de áudio 510E inclui uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de fluxo de bits 516. Além disso, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510E pode ser similar a esta do dispositivo de codificação de áudio 510D em que a unidade de compressão de áudio 512 inclui uma unidade de decomposição 518.[0877] Figure 40E is a block diagram illustrating an exemplary audio encoding device 510E that can perform various aspects of the techniques described in this disclosure to compress spherical harmonic coefficients that describe two or three dimensional sound fields. The audio encoding device 510E may be similar to the audio encoding device 510D in that the audio encoding device 510E includes an audio compression unit 512, an audio encoding unit 514, and a stream generation unit. bits 516. Further, the audio compression unit 512 of the audio encoding device 510E may be similar to that of the audio encoding device 510D wherein the audio compression unit 512 includes a decomposition unit 518.

[0878] A unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510E pode, entretanto, se diferir da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510D em que a unidade de matemática 526 da unidade de extração de componente de campo sonoro 520 realiza aspectos adicionais das técnicas descritas nesta revelação para reduzir adicionalmente a matriz V 519A antes de incluir a versão reduzida da transposta da matriz V 519A no fluxo de bits 517. Por essa razão, a unidade de extração de componente de campo sonoro 520 do dispositivo de codificação de áudio 510E é denotada como a “unidade de extração de componente de campo sonoro 520E.”[0878] The audio compression unit 512 of the audio encoding device 510E may, however, differ from the audio compression unit 512 of the audio encoding device 510D in that the math unit 526 of the component extraction unit 520 performs additional aspects of the techniques described in this disclosure to further reduce the V matrix 519A before including the reduced transpose version of the V matrix 519A in the bit stream 517. For that reason, the sound field component extraction unit 520 of the audio encoding device 510E is denoted as the “520E sound field component extraction unit.”

[0879] No exemplo da Figura 40E, a unidade de redução de ordem 528, em vez de encaminhar os coeficientes harmônicos esféricos de segundo plano reduzidos 529’ para a unidade de codificação de áudio 514, retorna os coeficientes harmônicos esféricos de segundo plano reduzidos 529’ para a unidade de matemática 526. Conforme notado acima, esses coeficientes harmônicos esféricos de segundo plano reduzidos 529’ podem ter sido reduzidos removendo-se aqueles dos coeficientes que correspondem às funções de base esférica que têm uma ou mais ordens e/ou subordens identificadas. A ordem reduzida dos coeficientes harmônicos esféricos de segundo plano reduzidos 529’ pode ser denotada pela variável NBG.[0879] In the example of Figure 40E, the order reduction unit 528, instead of forwarding the reduced background spherical harmonics 529' to the audio encoding unit 514, returns the reduced background spherical harmonics 529 ' to math unit 526. As noted above, these reduced background spherical harmonic coefficients 529' may have been reduced by removing those of the coefficients that correspond to spherical basis functions that have one or more orders and/or suborders identified . The reduced order of reduced background spherical harmonic coefficients 529' can be denoted by the variable NBG.

[0880] Dado que a unidade de extração de componente de campo sonoro 520E pode não realizar a redução de ordem em relação aos um ou mais vetores UDIST * SDIST reordenados 533’, a ordem dessa decomposição dos coeficientes harmônicos esféricos que descrevem os componentes distintos do campo sonoro (que pode ser denotada pela variável NDIST) pode ser maior do que a ordem de segundo plano, NBG. Em outras palavras, NBG pode ser comumente menor do que NDIST. Uma razão possível que NBG pode ser menor do que NDIST é que presume0se que os componentes de segundo plano não têm muita direcionalidade de modo que funções de base esférica de ordem superior não sejam exigidas, permitindo, assim, a redução de ordem e resultando em NBG sendo menor do que NDIST.[0880] Given that the sound field component extraction unit 520E may not perform order reduction with respect to one or more 533' reordered UDIST * SDIST vectors, the order of this decomposition of the spherical harmonic coefficients that describe the distinct components of the sound field (which can be denoted by the NDIST variable) can be greater than the background order, NBG. In other words, NBG can be commonly smaller than NDIST. One possible reason that NBG may be smaller than NDIST is that the background components are assumed not to have much directionality so that higher order spherical basis functions are not required, thus allowing for order reduction and resulting in NBG being smaller than NDIST.

[0881] Dado que os um ou mais vetores VTQ_DIST reordenados 539 foram anteriormente enviados abertamente, sem codificar por áudio esses vetores 539 no fluxo de bits 517, conforme mostrado nos exemplos das Figuras 40A a 40D, os um ou mais vetores VTQ_DIST reordenados 539 podem consumir uma largura de banda considerável. Como um exemplo, cada um dos um ou mais vetores VTQ_DIST reordenados 539, quando quantizados a valores escalares de 16 bits, pode consumir aproximadamente 20 Kbps para dados de áudio Ambisonics de quarta ordem (em que cada vetor tem 25 coeficientes) e 40 Kbps para dados de áudio Ambisonics de sexta ordem (em que cada vetor tem 49 coeficientes).[0881] Given that the one or more reordered VTQ_DIST vectors 539 were previously sent overtly, without audio encoding those vectors 539 in the bitstream 517, as shown in the examples of Figures 40A to 40D, the one or more reordered VTQ_DIST vectors 539 may consume considerable bandwidth. As an example, each of the one or more 539 reordered VTQ_DIST vectors, when quantized to 16-bit scalar values, can consume approximately 20 Kbps for fourth-order Ambisonics audio data (where each vector has 25 coefficients) and 40 Kbps for sixth-order Ambisonics audio data (where each vector has 49 coefficients).

[0882] Em conformidade com vários aspectos das técnicas descritas nesta revelação, a unidade de extração de componente de campo sonoro 520E pode reduzir a quantidade de bits que precisa ser especificada para os coeficientes harmônicos esféricos ou decomposições dos mesmos, tais como os um ou mais vetores VTQ_DIST reordenados 539. Em alguns exemplos, a unidade de matemática 526 pode determinar, com base nos coeficientes harmônicos esféricos de ordem reduzida 529’, aqueles dentre os vetores VTQ_DIST reordenados 539 que devem ser removidos e recombinados com os coeficientes harmônicos esféricos de ordem reduzida 529’ e aqueles dentre os vetores VTQ_DIST reordenados 539 que devem formar os vetores VTSMALL 521. Isto é, a unidade de matemática 526 pode determinar uma ordem dos coeficientes harmônicos esféricos de ordem reduzida 529’, em que essa ordem pode ser denotada como NBG. Os vetores VTQ_DIST reordenados 539 podem ser de uma ordem denotada pela variável NDIST, em que NDIST é maior do que a ordem NBG.[0882] In accordance with various aspects of the techniques described in this disclosure, the sound field component extraction unit 520E can reduce the amount of bits that need to be specified for the spherical harmonic coefficients or decompositions thereof, such as the one or more reordered VTQ_DIST vectors 539. In some examples, the math unit 526 can determine, based on the reduced-order spherical harmonic coefficients 529', which of the reordered VTQ_DIST vectors 539 should be removed and recombined with the reduced-order spherical harmonic coefficients 529' and those among the reordered VTQ_DIST vectors 539 that should form the VTSMALL vectors 521. That is, the math unit 526 can determine an order of reduced-order spherical harmonic coefficients 529', where that order can be denoted as NBG. The reordered VTQ_DIST arrays 539 can be of an order denoted by the variable NDIST, where NDIST is greater than the order NBG.

[0883] A unidade de matemática 526 pode, então, analisar as primeiras ordens NBG dos vetores VTQ_DIST reordenados 539, removendo aqueles vetores que especificam coeficientes harmônicos esféricos decompostos que corresponde às funções de base esférica que têm uma ordem menor ou igual a NBG. Esses vetores VTQ_DIST reordenados removidos 539 podem, então, ser usados para formar coeficientes harmônicos esféricos intermediários multiplicando-se aqueles dentre os vetores UDIST * SDIST reordenados 533’ representativos das versões decompostas dos coeficientes harmônicos esféricos 511 que correspondem às funções de base esférica que têm uma ordem menor ou igual a NBG pelos vetores VTQ_DIST reordenados removidos 539 para formar os coeficientes harmônicos esféricos distintos intermediários. A unidade de matemática 526 pode, então, gerar coeficientes harmônicos esféricos de segundo plano modificados 537 através da adição dos coeficientes harmônicos esféricos distintos intermediários aos coeficientes harmônicos esféricos de ordem reduzida 529’. A unidade de matemática 526 pode, então, passar esses coeficientes harmônicos esféricos de segundo plano modificados 537 para a unidade de codificação de áudio 514, que codifica por áudio esses coeficientes 537 para formar os coeficientes harmônicos esféricos de segundo plano codificados por áudio modificados 515B’.[0883] The math unit 526 can then parse the first NBG orders of the reordered VTQ_DIST vectors 539, removing those vectors that specify decomposed spherical harmonic coefficients that correspond to spherical base functions that have an order less than or equal to NBG. These removed reordered VTQ_DIST vectors 539 can then be used to form intermediate spherical harmonic coefficients by multiplying those among the reordered UDIST * SDIST vectors 533' representative of the decomposed versions of the spherical harmonic coefficients 511 that correspond to spherical basis functions that have a order less than or equal to NBG by the reordered VTQ_DIST vectors removed 539 to form the intermediate distinct spherical harmonic coefficients. The math unit 526 can then generate modified background spherical harmonic coefficients 537 by adding the intermediate distinct spherical harmonic coefficients to the reduced order spherical harmonic coefficients 529'. The math unit 526 can then pass these modified background spherical harmonic coefficients 537 to the audio encoding unit 514, which audio-encodes these coefficients 537 to form the modified audio-encoded spherical background harmonic coefficients 515B' .

[0884] A unidade de matemática 526 pode, então, passar os um ou mais vetores VTSMALL 521, que podem representar aqueles vetores 539 representativos de uma forma decomposta dos coeficientes harmônicos esféricos 511 que correspondem às funções de base esférica que têm uma ordem maior do que NBG e menor ou igual a NDIST. Nesse aspecto, a unidade de matemática 526 pode realizar as operações similares à unidade de redução de coeficiente 46 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. A unidade de matemática 526 pode passar os um ou mais vetores VTSMALL 521 para a unidade de geração de fluxo de bits 516, que pode gerar o fluxo de bits 517 para incluir os vetores VTSMALL 521 frequentemente em sua forma codificada em não áudio original. Dado que os vetores VTSMALL 521 incluem menos vetores do que os vetores VTQ_DIST reordenados 539, as técnicas podem facilitar a alocação de menos bits aos vetores VTQ_DIST reordenados 539 apenas especificando-se os vetores VTSMALL 521 no fluxo de bits 517.[0884] The math unit 526 can then pass the one or more VTSMALL vectors 521, which can represent those vectors 539 representative of a decomposed form of spherical harmonic coefficients 511 that correspond to spherical base functions that have a higher order than that NBG is less than or equal to NDIST. In that respect, the math unit 526 can perform similar operations to the coefficient reduction unit 46 of the audio coding device 20 shown in the example of Figure 4. The math unit 526 can pass the one or more VTSMALL vectors 521 to the bitstream generating unit 516, which can generate the bitstream 517 to include the VTSMALL vectors 521 often in their original non-audio encoded form. Since the VTSMALL arrays 521 include fewer arrays than the reordered VTQ_DIST arrays 539, the techniques can facilitate allocating fewer bits to the reordered VTQ_DIST arrays 539 just by specifying the VTSMALL arrays 521 in the bitstream 517.

[0885] Embora mostrados como não sendo quantizados, em algumas ocorrências, o dispositivo de codificação de áudio 510E pode quantizar os vetores VTBG 525F. Em algumas ocorrências, tal como quando a unidade de codificação de áudio 514 não é usada para comprimir os coeficientes harmônicos esféricos de segundo plano, o dispositivo de codificação de áudio 510E pode quantizar os vetores VTBG 525F.[0885] Although shown as not being quantized, in some instances the 510E audio encoding device can quantize the 525F VTBG vectors. In some instances, such as when the audio coding unit 514 is not used to compress the spherical background harmonic coefficients, the audio coding device 510E may quantize the VTBG vectors 525F.

[0886] Desse modo, as técnicas podem permitir que o dispositivo de codificação de áudio 510E determine pelo menos um dentre os um ou mais vetores decompostos dos coeficientes harmônicos esféricos a serem recombinados com os coeficientes harmônicos esféricos de segundo plano para reduzir uma quantidade de bits exigida para ser alocada aos um ou mais vetores em um fluxo de bits, em que os coeficientes harmônicos esféricos descrevem um campo sonoro, e em que os coeficientes harmônicos esféricos de segundo plano descreveram um ou mais componentes de segundo plano do mesmo campo sonoro.[0886] Thus, the techniques can allow the 510E audio encoding device to determine at least one of one or more vectors decomposed of spherical harmonic coefficients to be recombined with the spherical background harmonic coefficients to reduce an amount of bits required to be allocated to one or more vectors in a bit stream, where the spherical harmonic coefficients describe a sound field, and where the spherical background harmonic coefficients describe one or more background components of the same sound field.

[0887] Isto é, as técnicas podem permitir que o dispositivo de codificação de áudio 510E seja configurado em uma maneira indicada pelas cláusulas a seguir.[0887] That is, the techniques may allow the 510E audio encoding device to be configured in a manner indicated by the following clauses.

[0888] Cláusula 133149-1 A. Um dispositivo, tal como o dispositivo de codificação de áudio 510E que compreendem: um ou mais processadores configurados para determinar pelo menos um dentre os um ou mais vetores decompostos dos coeficientes harmônicos esféricos a serem recombinados com os coeficientes harmônicos esféricos de segundo plano para reduzir uma quantidade de bits exigida para ser alocada aos um ou mais vetores em um fluxo de bits, em que os coeficientes harmônicos esféricos descrevem um campo sonoro, e em que os coeficientes harmônicos esféricos de segundo plano descreveram um ou mais componentes de segundo plano do mesmo campo sonoro.[0888] Clause 133149-1 A. A device, such as the 510E audio encoding device comprising: one or more processors configured to determine at least one of the one or more decomposed vectors of spherical harmonic coefficients to be recombined with the background spherical harmonic coefficients to reduce the amount of bits required to be allocated to one or more vectors in a bit stream, where spherical harmonic coefficients describe a sound field, and where spherical background harmonic coefficients describe a or more background components of the same sound field.

[0889] Cláusula 133149-2A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para gerar um conjunto reduzido dos um ou mais vetores removendo-se o pelo menos um determinado dentre os um ou mais vetores dos um ou mais vetores.[0889] Clause 133149-2A. The device of clause 133149-1A, wherein the one or more processors are further configured to generate a reduced set of the one or more vectors by removing the at least one particular of the one or more vectors from the one or more vectors.

[0890] Cláusula 133149-3A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para gerar um conjunto reduzido dos um ou mais vetores removendo-se o pelo menos um determinado dentre os um ou mais vetores dos um ou mais vetores, recombinar o pelo menos um removido dentre os um ou mais vetores com os coeficientes harmônicos esféricos de segundo plano para gerar os coeficientes harmônicos esféricos de segundo plano modificados e gerar o fluxo de bits para incluir o conjunto reduzido dos um ou mais vetores e os coeficientes harmônicos esféricos de segundo plano modificados.[0890] Clause 133149-3A. The device of clause 133149-1 A, wherein the one or more processors are further configured to generate a reduced set of the one or more vectors by removing the at least one particular of the one or more vectors from the one or more vectors, recombining the at least one removed from among the one or more vectors with the spherical background harmonic coefficients to generate the modified background spherical harmonic coefficients and generate the bit stream to include the reduced set of the one or more vectors and the spherical harmonic coefficients backgrounds modified.

[0891] Cláusula 133149-4A. O dispositivo da cláusula 133149-3A, em que o conjunto reduzido dos um ou mais vetores é incluído no fluxo de bits sem o primeiro ser codificado por áudio.[0891] Clause 133149-4A. The device of clause 133149-3A, wherein the reduced set of one or more vectors is included in the bit stream without the first being audio encoded.

[0892] Cláusula 133149-5A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para gerar um conjunto reduzido dos um ou mais vetores removendo-se o pelo menos um determinado dentre os um ou mais vetores dos um ou mais vetores, recombinar o pelo menos um removido dentre os um ou mais vetores com os coeficientes harmônicos esféricos de segundo plano para gerar os coeficientes harmônicos esféricos de segundo plano modificados, codificar por áudio os coeficientes harmônicos esféricos de segundo plano modificados e gerar o fluxo de bits para incluir o conjunto reduzido dos um ou mais vetores e os coeficientes harmônicos esféricos de segundo plano modificados codificados por áudio.[0892] Clause 133149-5A. The device of clause 133149-1 A, wherein the one or more processors are further configured to generate a reduced set of the one or more vectors by removing the at least one particular of the one or more vectors from the one or more vectors, recombining the at least one removed from among the one or more vectors with the spherical background harmonic coefficients to generate the modified spherical background harmonic coefficients, audio-encode the modified spherical background harmonic coefficients, and generate the bit stream to include the reduced set of the one or more vectors and the audio-encoded modified spherical background harmonic coefficients.

[0893] Cláusula 133149-6A. O dispositivo da cláusula 133149-1 A, em que os um ou mais vetores compreendem os vetores representativos de pelo menos alguns aspectos dos um ou mais componentes distintos do campo sonoro.[0893] Clause 133149-6A. The device of clause 133149-1A, wherein the one or more vectors comprise vectors representative of at least some aspects of the one or more distinct components of the sound field.

[0894] Cláusula 133149-7A. O dispositivo da cláusula 133149-1A, em que os um ou mais vetores compreendem um ou mais vetores de uma transposta de uma matriz V gerada realizando-se, pelo menos em parte, uma decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.[0894] Clause 133149-7A. The device of clause 133149-1A, wherein the one or more vectors comprise one or more vectors of a transpose of a matrix V generated by performing, at least in part, a singular value decomposition with respect to the plurality of spherical harmonic coefficients that describe the sound field.

[0895] Cláusula 133149-8A. O dispositivo da cláusula 133149-1A, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, e em que os um ou mais vetores compreendem um ou mais vetores de uma transposta da matriz V.[0895] Clause 133149-8A. The device of clause 133149-1A, wherein the one or more processors are further configured to perform a singular value decomposition with respect to the plurality of spherical harmonic coefficients to generate a matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients to generate a matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients , a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients, and wherein the one or more vectors comprise one or more vectors of a transpose of the matrix V .

[0896] Cláusula 133149-9A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para realizar uma redução de ordem em relação aos coeficientes harmônicos esféricos de segundo plano de modo a remover aqueles dentre os coeficientes harmônicos esféricos de segundo plano que correspondem às funções de base esférica que têm uma ordem e/ou subordem identificadas, em que os coeficientes harmônicos esféricos de segundo plano correspondem a uma ordem NBG.[0896] Clause 133149-9A. The device of clause 133149-1 A, wherein the one or more processors are additionally configured to perform an order reduction with respect to the spherical background harmonic coefficients in order to remove those of the spherical background harmonic coefficients that correspond to the spherical basis functions that have an identified order and/or suborder, where the spherical background harmonic coefficients correspond to an NBG order.

[0897] Cláusula 133149-10A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para realizar uma redução de ordem em relação aos coeficientes harmônicos esféricos de segundo plano de modo a remover aqueles dentre os coeficientes harmônicos esféricos de segundo plano que correspondem às funções de base esférica que têm uma ordem e/ou subordem identificadas, em que os coeficientes harmônicos esféricos de segundo plano correspondem a uma ordem NBG que é menor do que a ordem dos coeficientes harmônicos esféricos distintos, NDIST, e em que os coeficientes harmônicos esféricos distintos representam os componentes distintos do campo sonoro.[0897] Clause 133149-10A. The device of clause 133149-1 A, wherein the one or more processors are additionally configured to perform an order reduction with respect to the spherical background harmonic coefficients in order to remove those of the spherical background harmonic coefficients that correspond to the spherical basis functions that have an identified order and/or suborder, where the background spherical harmonic coefficients correspond to an NBG order that is less than the order of the distinct spherical harmonic coefficients, NDIST, and where the spherical harmonic coefficients distinct represent the distinct components of the sound field.

[0898] Cláusula 133149-11A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para realizar uma redução de ordem em relação aos coeficientes harmônicos esféricos de segundo plano de modo a remover aqueles dentre os coeficientes harmônicos esféricos de segundo plano que correspondem às funções de base esférica que têm uma ordem e/ou subordem identificadas, em que os coeficientes harmônicos esféricos de segundo plano correspondem a uma ordem NBG que é menor do que a ordem dos coeficientes harmônicos esféricos distintos, NDIST, e em que os coeficientes harmônicos esféricos distintos representam os componentes distintos do campo sonoro e não são submetidos à redução de ordem.[0898] Clause 133149-11A. The device of clause 133149-1 A, wherein the one or more processors are additionally configured to perform an order reduction with respect to the spherical background harmonic coefficients in order to remove those of the spherical background harmonic coefficients that correspond to the spherical basis functions that have an identified order and/or suborder, where the background spherical harmonic coefficients correspond to an NBG order that is less than the order of the distinct spherical harmonic coefficients, NDIST, and where the spherical harmonic coefficients distinct components represent the distinct components of the sound field and are not subjected to order reduction.

[0899] Cláusula 133149-12A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U representativa dos vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa dos vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e determinar um ou mais vetores VTDIST e um ou mais VTBG de uma transposta da matriz V, os um ou mais vetores VTDIST descrevem um ou mais componentes distintos do campo sonoro e os um ou mais vetores VTBG descrevem um ou mais componentes de segundo plano do campo sonoro, e em que os um ou mais vetores incluem os um ou mais vetores VTDIST.[0899] Clause 133149-12A. The device of clause 133149-1A, wherein the one or more processors are further configured to perform a singular value decomposition with respect to the plurality of spherical harmonic coefficients to generate a matrix U representative of the left singular vectors of the plurality of harmonic coefficients spherical, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of the singular vectors to the right of the plurality of spherical harmonic coefficients and determining one or more vectors VTDIST and one or more VTBG from a transpose of the matrix V, the one or more VTDIST vectors describe one or more distinct components of the sound field and the one or more VTBG vectors describe one or more background components of the sound field, and wherein the one or more vectors include the one or more VTDIST vectors.

[0900] Cláusula 133149- 13 A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U representativa dos vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa dos vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores VTDIST e um ou mais VTBG de uma transposta da matriz V, os um ou mais vetores VTDIST descrevem um ou mais componentes distintos do campo sonoro e os um ou mais vetores VBG descrevem um ou mais componentes de segundo plano do campo sonoro e quantizar os um ou mais vetores VTDIST para gerar um ou mais VTQ_DIST, e em que os um ou mais vetores incluem os um ou mais vetores VTQ_DIST.[0900] Clause 133149-13 A. The device of clause 133149-1 A, wherein the one or more processors are further configured to perform a singular value decomposition with respect to the plurality of spherical harmonic coefficients to generate a U matrix representative of the singular vectors to the left of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of the singular vectors to the right of the plurality of spherical harmonic coefficients, determine one or more vectors VTDIST and one or more VTBG of a transpose of the matrix V, the one or more VTDIST vectors describe one or more distinct components of the sound field and the one or more VBG vectors describe one or more background components of the sound field and quantize the one or more VTDIST vectors to generate one or more VTQ_DISTs, and where the one or more vectors include the one or more VTQ_DIST vectors .

[0901] Cláusula 133149-14A. O dispositivo da cláusula 133149- 12A ou da cláusula 133149- 13 A, em que os um ou mais processadores são adicionalmente configurados para determinar um ou mais vetores UDIST e um ou mais vetores UBG da matriz U, os um ou mais vetores UDIST descrevem os um ou mais componentes distintos do campo sonoro e os um ou mais vetores UBG descrevem os um ou mais componentes de segundo plano do campo sonoro e determinar os um ou mais vetores SDIST e os um ou mais vetores SBG da matriz S, os um ou mais vetores SDIST descrevem os um ou mais componentes distintos do campo sonoro e os um ou mais vetores SBG descrevem os um ou mais componentes de segundo plano do campo sonoro.[0901] Clause 133149-14A. The device of clause 133149-12A or clause 133149-13A, wherein the one or more processors are further configured to determine one or more UDIST vectors and one or more UBG vectors of the matrix U, the one or more UDIST vectors describe the one or more distinct components of the sound field and the one or more UBG vectors describe the one or more background components of the sound field and determine the one or more SDIST vectors and the one or more SBG vectors of the matrix S, the one or more SDIST vectors describe the one or more distinct components of the sound field and the one or more SBG vectors describe the one or more background components of the sound field.

[0902] Cláusula 133149-15A. O dispositivo da cláusula 133149- 14A, em que os um ou mais processadores são adicionalmente configurados para determinar os coeficientes harmônicos esféricos de segundo plano como uma função dos um ou mais vetores UBG, os um ou mais vetores SBG e os um ou mais vetores VTBG, realizar a redução de ordem em relação aos coeficientes harmônicos esféricos de segundo plano para gerar os coeficientes harmônicos esféricos de segundo plano reduzidos que têm uma ordem igual a NBG, multiplicar os um ou mais UDIST pelos um ou mais vetores SDIST para gerar um ou mais vetores UDIST * SDIST, remover o pelo menos um determinado dentre os um ou mais vetores dos um ou mais vetores para gerar um conjunto reduzido dos um ou mais vetores, multiplicar os um ou mais vetores UDIST * SDIST pelo menos um removido dentre os um ou mais vetores VTDIST ou os um ou mais vetores VTQ_DIST para gerar os coeficientes harmônicos esféricos distintos intermediários e adicionar os coeficientes harmônicos esféricos distintos intermediários ao coeficiente harmônico esférico de segundo plano para recombinar o pelo menos um removido dentre os um ou mais vetores VTDIST ou os um ou mais vetores VTQ_DIST com os coeficientes harmônicos esféricos de segundo plano.[0902] Clause 133149-15A. The device of clause 133149-14A, wherein the one or more processors are further configured to determine the spherical background harmonic coefficients as a function of the one or more UBG vectors, the one or more SBG vectors and the one or more VTBG vectors , perform order reduction with respect to the spherical background harmonic coefficients to generate the reduced spherical background harmonic coefficients that have an order equal to NBG, multiply the one or more UDISTs by the one or more SDIST vectors to generate one or more UDIST * SDIST vectors, remove the at least one determined among the one or more vectors from the one or more vectors to generate a reduced set of the one or more vectors, multiply the one or more UDIST * SDIST vectors by at least one removed from the one or more more VTDIST vectors or the one or more VTQ_DIST vectors to generate the intermediate spherical distinct harmonic coefficients and add the spherical distinct harmonic coefficients to the background spherical harmonic coefficient to recombine the at least one removed from among the one or more VTDIST vectors or the one or more VTQ_DIST vectors with the spherical background harmonic coefficients.

[0903] Cláusula 133149-16A. O dispositivo da cláusula 133149- 14A, em que os um ou mais processadores são adicionalmente configurados para determinar os coeficientes harmônicos esféricos de segundo plano como uma função dos um ou mais vetores UBG, os um ou mais vetores SBG e os um ou mais vetores VTBG, realizar a redução de ordem em relação aos coeficientes harmônicos esféricos de segundo plano para gerar os coeficientes harmônicos esféricos de segundo plano reduzidos que têm uma ordem igual a NBG, multiplicar os um ou mais UDIST pelos um ou mais vetores SDIST para gerar um ou mais vetores UDIST * SDIST, reordenar os um ou mais vetores UDIST * SDIST para gerar um ou mais vetores UDIST * SDIST reordenados, remover o pelo menos um determinado dentre os um ou mais vetores dos um ou mais vetores para gerar um conjunto reduzido dos um ou mais vetores, multiplicar os um ou mais vetores UDIST * SDIST reordenados pelo menos um removido dentre os um ou mais vetores VTDIST ou os um ou mais vetores VTQ_DIST para gerar os coeficientes harmônicos esféricos distintos intermediários e adicionar os coeficientes harmônicos esféricos distintos intermediários ao coeficiente harmônico esférico de segundo plano para recombinar o pelo menos um removido dentre os um ou mais vetores VTDIST ou os um ou mais vetores VTQ_DIST com os coeficientes harmônicos esféricos de segundo plano.[0903] Clause 133149-16A. The device of clause 133149-14A, wherein the one or more processors are further configured to determine the spherical background harmonic coefficients as a function of the one or more UBG vectors, the one or more SBG vectors and the one or more VTBG vectors , perform order reduction with respect to the spherical background harmonic coefficients to generate the reduced spherical background harmonic coefficients that have an order equal to NBG, multiply the one or more UDISTs by the one or more SDIST vectors to generate one or more UDIST * SDIST vectors, reorder the one or more UDIST * SDIST vectors to generate one or more reordered UDIST * SDIST vectors, remove the at least one particular among the one or more vectors from the one or more vectors to generate a reduced set of the one or more more vectors, multiply the one or more UDIST * SDIST vectors reordered by at least one removed from among the one or more VTDIST vectors or the one or more VTQ_DIST vectors to generate the co efficient intermediate distinct spherical harmonics and adding the intermediate distinct spherical harmonics to the background spherical harmonics to recombine the at least one removed from among the one or more VTDIST vectors or the one or more VTQ_DIST vectors with the background spherical harmonics.

[0904] Cláusula 133149-17A. O dispositivo da cláusula 133149-15A ou da cláusula 133149-16A, em que os um ou mais processadores são adicionalmente configurados para codificar por áudio os coeficientes harmônicos esféricos de segundo plano após adicionar os coeficientes harmônicos esféricos distintos intermediários aos coeficientes harmônicos esféricos de segundo plano e gerar o fluxo de bits para incluir os coeficientes harmônicos esféricos de segundo plano codificados por áudio.[0904] Clause 133149-17A. The clause 133149-15A or clause 133149-16A device, wherein the one or more processors are additionally configured to audio-encode the background spherical harmonic coefficients after adding the intermediate distinct spherical harmonic coefficients to the spherical background harmonic coefficients and generating the bit stream to include the audio encoded spherical background harmonic coefficients.

[0905] Cláusula 133149- 18 A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U representativa dos vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa dos valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa dos vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores VTDIST e um ou mais VTBG de uma transposta da matriz V, os um ou mais vetores VDIST descrevem um ou mais componentes distintos do campo sonoro e os um ou mais vetores VBG descrevem um ou mais componentes de segundo plano do campo sonoro, quantizar os um ou mais vetores VTDIST para gerar um ou mais vetores VTQ_DIST e reordenar os um ou mais vetores VTQDIST para gerar um ou mais vetores VTQ_DIST reordenados, e em que os um ou mais vetores incluem os um ou mais vetores VTQ_DIST reordenados.[0905] Clause 133149-18 A. The device of clause 133149-1 A, wherein the one or more processors are further configured to perform a singular value decomposition with respect to the plurality of spherical harmonic coefficients to generate a matrix U representative of the singular vectors to the left of the plurality of spherical harmonic coefficients, a matrix S representative of the singular values of the plurality of spherical harmonic coefficients and a matrix V representative of the singular vectors to the right of the plurality of spherical harmonic coefficients, determine one or more VTDIST vectors and one or more VTBG of a transpose of matrix V, the one or more VDIST vectors describe one or more distinct components of the sound field and the one or more VBG vectors describe one or more background components of the sound field, quantize the one or more VTDIST vectors to generate one or more VTQ_DIST vectors and reorder the one or more VTQDIST vectors to generate one or more VTQ_DIST vectors reordered, and where the one or more vectors include the one or more reordered VTQ_DIST vectors.

[0906] A Figura 40F é um diagrama de blocos que ilustra o dispositivo de codificação de áudio exemplificativo 510F que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descrevem dois ou três campos de som dimensionais. O dispositivo de codificação de áudio 510F pode ser similar ao dispositivo de codificação de áudio 510C em que o dispositivo de codificação de áudio 510F inclui uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de fluxo de bits 516. Além disso, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510F pode ser similar a esta do dispositivo de codificação de áudio 510C em que a unidade de compressão de áudio 512 inclui uma unidade de decomposição 518 e uma unidade de reordenação de vetor 532, que pode operar similarmente a unidades similares do dispositivo de codificação de áudio 510C. Em alguns exemplos, o dispositivo de codificação de áudio 510F pode incluir uma unidade de quantização 534, conforme descrito em relação às Figuras 40D e 40E, para quantizar um ou mais vetores de qualquer um dos vetores UDIST 525C, os vetores UBG 525D, os vetores VTDIST 525E e os vetores VTBG 525 J.[0906] Figure 40F is a block diagram illustrating the exemplary audio encoding device 510F that can perform various aspects of the techniques described in this disclosure to compress spherical harmonic coefficients that describe two or three dimensional sound fields. Audio encoding device 510F may be similar to audio encoding device 510C in that audio encoding device 510F includes an audio compression unit 512, an audio encoding unit 514, and a stream generation unit 510F. bits 516. In addition, the audio compression unit 512 of the audio encoding device 510F may be similar to that of the audio encoding device 510C wherein the audio compression unit 512 includes a decomposition unit 518 and a reordering device 532, which can operate similarly to similar units of the audio coding device 510C. In some examples, the audio encoding device 510F may include a quantization unit 534, as described with respect to Figures 40D and 40E, for quantizing one or more vectors of any of the UDIST 525C vectors, the 525D UBG vectors, the 525D vectors, the VTDIST 525E and the VTBG 525 J vectors.

[0907] A unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510F pode, entretanto, se diferenciar da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510C em que a unidade de análise de componente saliente 524 da unidade de extração de componente de campo sonoro 520 pode realizar uma análise de conteúdo para selecionar o número de componentes de primeiro plano, denotado como D no contexto das Figuras 40A a 40J. Em outras palavras, a unidade de análise de componente saliente 524 pode operar em relação às matrizes U, S e V 519 da maneira descrita acima para identificar se as versões decompostas dos coeficientes harmônicos esféricos foram geradas a partir dos objetos de áudio sintéticos ou a partir de uma gravação natural com um microfone. A unidade de análise de componente saliente 524 pode, então, determinar D com base em sua determinação sintética.[0907] The audio compression unit 512 of the audio coding device 510F may, however, differ from the audio compression unit 512 of the audio coding device 510C in that the protruding component analysis unit 524 of the sound field component extraction 520 may perform a content analysis to select the number of foreground components, denoted as D in the context of Figures 40A to 40J. In other words, the salient component analysis unit 524 can operate against the U, S, and V matrices 519 in the manner described above to identify whether the decomposed versions of the spherical harmonic coefficients were generated from the synthetic audio objects or from of a natural recording with a microphone. The salient component analysis unit 524 can then determine D based on its synthetic determination.

[0908] Além disso, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510F pode se diferir da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510C em que a unidade de extração de componente de campo sonoro 520 pode incluir uma unidade adicional, uma unidade de preservação de energia e redução de ordem 528F (ilustrada como “unidade de presv. de energia e red. de ordem 528F”). Por essas razões, a unidade de extração de componente de campo sonoro 520 do dispositivo de codificação de áudio 510F é denotada como a “unidade de extração de componente de campo sonoro 510F.”[0908] In addition, the audio compression unit 512 of the audio encoding device 510F may differ from the audio compression unit 512 of the audio encoding device 510C in that the sound field component extraction unit 520 may include an additional unit, a 528F order power saving and reduction unit (pictured as “528F order power saving and power saving unit”). For these reasons, the sound field component extraction unit 520 of the audio encoding device 510F is denoted as the "sound field component extraction unit 510F."

[0909] A unidade de preservação de energia e redução de ordem 528F representa uma unidade configurada para realizar a redução de ordem dos componentes de segundo plano da matriz VBG 525H representativa dos vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos 511 enquanto preserva a energia geral (e pressão de som concomitante) do campo sonoro descrito em parte pela matriz VBG completa 525H. Nesse aspecto, a unidade de preservação de energia e redução de ordem 528F pode realizar operações similares àquelas descritas acima em relação à unidade de seleção de segundo plano 48 e à unidade de compensação de energia 38 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4.[0909] The energy preserving and order reduction unit 528F represents a unit configured to perform order reduction of the background components of the VBG matrix 525H representative of the right singular vectors of the plurality of spherical harmonic coefficients 511 while preserving energy (and concomitant sound pressure) of the sound field described in part by the full VBG matrix 525H. In this regard, the order reduction and energy preservation unit 528F can perform operations similar to those described above with respect to the background selection unit 48 and the power compensation unit 38 of the audio encoding device 20 shown in the example of the Figure 4.

[0910] A matriz VBG completa 525H tem dimensionalidade

Figure img0051
, em que D representa um número de componentes principais ou, em outras palavras, valores singulares que são determinados para serem salientes em termos de serem componentes de áudio distintos do campo sonoro. Isto é, a matriz VBG completa 525H inclui aqueles valores singulares que são determinados como sendo segundo plano (BG) ou, em outras palavras, componentes ambientes ou de áudio não distinto do campo sonoro.[0910] Complete VBG matrix 525H has dimensionality
Figure img0051
, where D represents a number of principal components or, in other words, singular values that are determined to be salient in terms of being audio components distinct from the sound field. That is, the complete VBG matrix 525H includes those singular values that are determined to be background (BG) or, in other words, ambient or audio components not distinct from the sound field.

[0911] Conforme descrito acima em relação, por exemplo, à unidade de redução de ordem 524 das Figuras 40B a 40E, a unidade de preservação de energia e redução de ordem 528F pode remover, eliminar ou apagar de outra maneira (frequentemente zerando-se) aqueles dentre os valores singulares de segundo plano da matriz VBG 525H que correspondem às funções de base esférica de ordem superior. A unidade de preservação de energia e redução de ordem 528F pode emitir uma versão reduzida da matriz VBG 525H (denotada como matriz “VBG’ 5251” e referida doravante como “matriz VBG’ reduzida 5251”) para a unidade de transposta 522. A matriz VBG’ reduzida 5251 pode ter a dimensionalidade

Figure img0052
. A unidade de transposta 522 aplica uma operação de transposta à matriz VBG’ reduzida 5251 para gerar e emitir uma matriz VTBG’ reduzida transposta 525J à unidade de matemática 526, que pode operar para reconstruir os componentes de som de segundo plano do campo sonoro computando-se UBG*SBG*VTBG com o uso da matriz UBG 525D, da matriz SBG 525B e da matriz VTBG’ reduzida transposta 525J.[0911] As described above with respect to, for example, the order reduction unit 524 of Figures 40B to 40E, the order reduction and energy preservation unit 528F may remove, eliminate or otherwise erase (often by zeroing ) those among the background singular values of the matrix VBG 525H that correspond to higher-order spherical basis functions. The order reduction and energy preservation unit 528F can output a reduced version of the VBG matrix 525H (denoted as matrix "VBG'5251" and referred to hereinafter as "reduced VBG' matrix 5251") to the transpose unit 522. VBG' reduced 5251 can have dimensionality
Figure img0052
. The transpose unit 522 applies a transpose operation to the reduced VTBG' matrix 5251 to generate and output a reduced VTBG' matrix transpose 525J to the math unit 526, which can operate to reconstruct the background sound components of the sound field by computing it. if UBG*SBG*VTBG using matrix UBG 525D, matrix SBG 525B and reduced transposed matrix VTBG' 525J.

[0912] Em conformidade com as técnicas descritas no presente documento, a unidade de preservação de energia e redução de ordem 528F é adicionalmente configurada para compensar possíveis reduções na energia geral dos componentes de som de segundo plano do campo sonoro causadas através da redução da ordem da matriz VBG completa 525H para gerar a matriz VBG’ reduzida 5251. Em alguns exemplos, a unidade de preservação de energia e redução de ordem 528F compensa através da determinação de um ganho de compensação na forma de valores de amplificação para aplicar a cada uma das colunas (N+1)2- D da matriz VBG’ reduzida 5251 a fim de aumentar a energia em raiz quadrada média (RMS) da matriz VBG’ reduzida 5251 a igual ou pelo menos mais próxima à RMS da matriz VBG completa 525H, antes de emitir a matriz VBG’ reduzida 5251 à unidade de transposta 522.[0912] Pursuant to the techniques described in this document, the 528F energy preservation and order reduction unit is additionally configured to compensate for possible reductions in the overall energy of the sound field's background sound components caused by order reduction of the full VBG matrix 525H to generate the reduced VBG' matrix 5251. In some examples, the energy preserving and order reduction unit 528F compensates by determining a compensation gain in the form of amplification values to apply to each of the (N+1)2-D columns of the reduced matrix VBG' 5251 in order to increase the root mean square (RMS) energy of the reduced matrix VBG' 5251 to equal or at least closer to the RMS of the full VBG matrix 525H, before of outputting the reduced matrix VBG' 5251 to the transpose unit 522.

[0913] Em algumas ocorrências, a unidade de preservação de energia e redução de ordem 528F pode determinar a energia RMS de cada coluna da matriz VBG completa 525H e a energia RMS de cada coluna da matriz VBG’ reduzida 5251, então, determinar o valor de amplificação para a coluna como a razão entre a primeira e a última, conforme indicado na equação a seguir:

Figure img0053
[0913] In some instances, the order reduction and energy preservation unit 528F can determine the RMS energy of each column of the full VBG matrix 525H and the RMS energy of each column of the reduced VBG' matrix 5251, then determine the value of amplification for the column as the ratio of the first to the last, as indicated in the following equation:
Figure img0053

[0914] em que a é o valor de amplificação para uma coluna, BG representa uma coluna única da matriz VBG 525H, e vBG’ representa a coluna única correspondente da matriz VBG’ 5251. Isso pode ser representado na notação de matriz como:

Figure img0054
[0914] where a is the amplification value for a column, BG represents a single column of matrix VBG 525H, and vBG' represents the corresponding single column of matrix VBG' 5251. This can be represented in matrix notation as:
Figure img0054

[0915] em que VBGRMSé um vetor RMS que tem elementos que denotam a RMS de cada coluna da matriz VBG 525H, VBG’RMSé um vetor RMS que tem elementos que denotam a RMS de cada coluna da matriz VBG’ reduzida 5251, e Aé um vetor de valor de amplificação que tem elementos para cada coluna da matriz VBG 525H. A unidade de preservação de energia e redução de ordem 528F aplica uma multiplicação escalar a cada coluna da matriz VBG reduzida 5251 com o uso do valor de amplificação correspondente, α, ou na forma de vetor:

Figure img0055
[0915] where VBGRMS is an RMS vector that has elements that denote the RMS of each column of the matrix VBG 525H, VBG'RMS is an RMS vector that has elements that denote the RMS of each column of the reduced matrix VBG' 5251, and A is a amplification value vector that has elements for each column of the matrix VBG 525H. The order reduction and energy preservation unit 528F applies a scalar multiplication to each column of the reduced VBG matrix 5251 using the corresponding amplification value, α, or in vector form:
Figure img0055

[0916] em que VgG representa uma matriz VBG’ reduzida 5251 incluindo a compensação de energia. A unidade de preservação de energia e redução de ordem 528F pode emitir a matriz VBG’ reduzida 5251 incluindo a compensação de energia à unidade de transposta 522 para equalizar (ou quase equalizar) a RMS da matriz VBG’ reduzida 5251 a esta da matriz VBG completa 525H. A dimensionalidade de saída da matriz VBG’ reduzida 5251 incluindo a compensação de energia pode ser (f| +1)2 x (N+1)2 - Dão de energia pode ser

Figure img0056
.[0916] where VgG represents a reduced matrix VBG' 5251 including power offset. The order reduction and energy preservation unit 528F may output the reduced VBG' matrix 5251 including energy compensation to the transpose unit 522 to equalize (or nearly equalize) the RMS of the reduced VBG' matrix 5251 to this of the complete VBG matrix 525H. The output dimensionality of the reduced VBG' matrix 5251 including energy compensation can be (f| +1)2 x (N+1)2 - Energy give can be
Figure img0056
.

[0917] Em alguns exemplos, para determinar cada RMS das respectivas colunas da matriz VBG’ reduzida 5251 e da matriz VBG completa 525H, a unidade de preservação de energia e redução de ordem 528F pode primeiro aplicar um renderizador de coeficientes harmônicos esféricos (SHC) de referência às colunas. A aplicação do renderizador de SHC de referência pela unidade de preservação de energia e redução de ordem 528F permite a determinação da RMS no domínio de SHC para determinar a energia do campo sonoro geral descrito por cada coluna do quadro representado pela matriz VBG’ reduzida 5251 e pela matriz VBG completa 525H. Assim, em tais exemplos, a unidade de preservação de energia e redução de ordem 528F pode aplicar o renderizador de SHC de referência a cada coluna da matriz VBG completa 525H e a cada coluna reduzida da matriz VBG’ reduzida 5251, determinar os respectivos valores de RMS para a coluna e a coluna reduzida e determinar o valor de amplificação para a coluna como a razão entre o valor de RMS para a coluna e o valor de RMS para coluna reduzida. Em alguns exemplos, a redução de ordem para a matriz VBG’ reduzida 5251 procede no sentido da coluna coincidente à preservação de energia. Isso pode ser expresso em pseudocódigo conforme segue:[0917] In some examples, to determine each RMS of the respective columns of the reduced VBG' matrix 5251 and of the full VBG matrix 525H, the energy preserving and order reduction unit 528F can first apply a spherical harmonic coefficient (SHC) renderer reference to columns. The application of the reference SHC renderer by the energy preservation and order reduction unit 528F allows the determination of the RMS in the SHC domain to determine the energy of the overall sound field described by each column of the frame represented by the reduced matrix VBG' 5251 and by the full VBG matrix 525H. Thus, in such examples, the order reduction and energy preservation unit 528F can apply the reference SHC renderer to each column of the full VBG matrix 525H and to each reduced column of the reduced VBG' matrix 5251, determine the respective values of RMS for the column and the reduced column and determine the amplification value for the column as the ratio between the RMS value for the column and the RMS value for the reduced column. In some examples, order reduction for the reduced matrix VBG' 5251 proceeds in the direction of the coincident column to preserve energy. This can be expressed in pseudocode as follows:

[0918] R = ReferenceRenderer;[0918] R = ReferenceRenderer;

[0919] para m = nuniDist+1: numChannels[0919] for m = nuniDist+1: numChannels

[0920] fullV = V(:,m); //toma uma coluna de V => fullV[0920] fullV = V(:,m); //take a column of V => fullV

[0921] reducedV =[fullV(l:numBG); zeros(numChannels-numBG,l)];[0921] reducedV =[fullV(l:numBG); zeros(numChannels-numBG,l)];

[0922] alpha=sqrt(sum( (fullV**R).A2/sum((reduc edV**R) .A2));[0922] alpha=sqrt(sum( (fullV**R).A2/sum((reducedV**R) .A2));

[0923] se isnan(alpha) || isinf(alpha), alpha = 1; fim;[0923] if isnan(alpha) || isinf(alpha), alpha = 1; end;

[0924] V_out(:,m) = reducedV * alpha;[0924] V_out(:,m) = reducedV * alpha;

[0925] fim[0925] end

[0926] No pseudocódigo acima, numChannels pode representar (N+1)2 - D, numBG pode representar (( +1)2, V pode representar a matriz VBG 525H e V_out pode representar a matriz VBG’ reduzida 5251 e R pode representar o renderizador de SHC de referência da unidade de preservação de energia e redução de ordem 528F. A dimensionalidade de V pode ser

Figure img0057
e a dimensionalidade de V_out pode ser
Figure img0058
.[0926] In the above pseudocode, numChannels can represent (N+1)2 - D, numBG can represent ((+1)2, V can represent the matrix VBG 525H and V_out can represent the reduced matrix VBG' 5251 and R can represent the reference SHC renderer of the energy-preserving and order-reduction unit 528F. The dimensionality of V can be
Figure img0057
and the dimensionality of V_out can be
Figure img0058
.

[0927] Como um resultado, o dispositivo de codificação de áudio 510F pode, ao representar a pluralidade de coeficientes harmônicos esféricos 511, reconstruir os componentes de som de segundo plano com o uso de uma matriz VBG’ de ordem reduzida 5251 que inclui a compensação da energia que pode ser perdida como um resultado do processo de redução de ordem.[0927] As a result, the audio encoding device 510F can, by representing the plurality of spherical harmonic coefficients 511, reconstruct the background sound components using a reduced-order VBG' matrix 5251 that includes compensation of the energy that can be lost as a result of the order reduction process.

[0928] A Figura 40G é um diagrama de blocos que ilustra o dispositivo de codificação de áudio exemplificativo 510G que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descrevem dois ou três campos de som dimensionais. No exemplo da Figura 40G, o dispositivo de codificação de áudio 510G inclui uma unidade de extração de componente de campo sonoro 520F. Por sua vez, a unidade de extração de componente de campo sonoro 520F inclui uma unidade de análise de componente saliente 524G.[0928] Figure 40G is a block diagram illustrating the exemplary audio encoding device 510G that can perform various aspects of the techniques described in this disclosure to compress spherical harmonic coefficients that describe two or three dimensional sound fields. In the example of Figure 40G, the audio encoding device 510G includes a sound field component extraction unit 520F. In turn, the sound field component extraction unit 520F includes a salient component analysis unit 524G.

[0929] A unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510G pode, entretanto, se diferir da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 10F em que a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510G inclui uma unidade de análise de componente saliente 524G. A unidade de análise de componente saliente 524G pode representar uma unidade configurada para determinar a saliência ou distinção dos dados de áudio que representam um campo sonoro, com o uso das informações com base na direcionalidade associadas aos dados de áudio.[0929] The audio compression unit 512 of the audio encoding device 510G may, however, differ from the audio compression unit 512 of the audio encoding device 10F in that the audio compression unit 512 of the encoding device 510G audio system includes a 524G protruding component analysis unit. The 524G salient component analysis unit may represent a unit configured to determine the salience or distinctness of audio data representing a sound field, using the directionality-based information associated with the audio data.

[0930] Embora as determinações com base em energia possam melhorar a renderização de um campo sonoro decomposto por SVD para identificar os componentes de áudio distintos do campo sonoro, as determinações com base em energia podem também fazer com que um dispositivo identifique erroneamente os componentes de áudio de segundo plano como componentes de áudio distintos, em casos em que os componentes de áudio de segundo plano exibem um nível de energia alto. Isto é, uma separação com base apenas em energia de componentes de áudio distintos e de segundo plano pode não ser robusta, na medida em que componentes de áudio de segundo plano energéticos (por exemplo, mais altos) podem ser incorretamente identificados como sendo 320/500 componentes de áudio distintos. Para distinguir de modo mais robusto entre os componentes de áudio distintos e de segundo plano do campo sonoro, vários aspectos das técnicas descritas nesta revelação podem permitir que a unidade de análise de componente saliente 524G realize uma análise com base em direcionalidade dos SHC 511 para separar os componentes de áudio distintos e de segundo plano das versões decompostas dos SHC 511.[0930] While energy-based determinations can improve the rendering of an SVD decomposed sound field to identify the audio components distinct from the sound field, energy-based determinations can also cause a device to misidentify the components of a sound field. background audio as distinct audio components, in cases where the background audio components exhibit a high power level. That is, a power-only separation of distinct and background audio components may not be robust, as energetic (e.g. louder) background audio components may be incorrectly identified as being 320/ 500 distinct audio components. To more robustly distinguish between discrete and background audio components of the sound field, various aspects of the techniques described in this disclosure may allow the 524G salient component analysis unit to perform directionality-based analysis of the SHC 511 to separate the distinct and background audio components of the decomposed versions of the SHC 511.

[0931] A unidade de análise de componente saliente 524G pode, no exemplo da Figura 40H, representar uma unidade configurada ou operável de outra maneira para separar os elementos distintos (ou de primeiro plano) dos elementos de segundo plano incluídos em uma ou mais dentre a matriz V 519, a matriz S 519B e a matriz U 519C, similar às unidades de análise de componente saliente 524 dos dispositivos de codificação de áudio anteriormente descritos 510-510F. De acordo com algumas técnicas com base em SVD, a maioria dos componentes energéticos (por exemplo, os primeiros poucos vetores de uma ou mais dentre as matrizes V, S e U 519-519C ou uma matriz derivada das mesmas) pode ser tratada como componentes distintos. Entretanto, a maioria dos componentes energéticos (que são representados pelos vetores) de uma ou mais dentre as matrizes 519-519C pode não, em todos os cenários, representar os componentes/sinais que são os mais direcionais.[0931] The 524G salient component analysis unit may, in the example of Figure 40H, represent a unit configured or otherwise operable to separate distinct (or foreground) elements from background elements included in one or more of the V array 519, the S array 519B and the U array 519C, similar to the salient component analysis units 524 of the previously described audio coding devices 510-510F. According to some SVD-based techniques, most energy components (for example, the first few vectors of one or more of the V, S, and U matrices 519-519C or a matrix derived from them) can be treated as components. distinct. However, most of the energy components (which are represented by vectors) of one or more of the 519-519C matrices may not, in all scenarios, represent the components/signals that are the most directional.

[0932] Diferente das unidades de análise de componente saliente anteriormente descritas 524, a unidade de análise de componente saliente 524G pode implantar um ou mais aspectos das técnicas descritas no presente documento para identificar os elementos de primeiro plano com base na direcionalidade dos vetores de uma ou mais das matrizes 519-519C ou uma matriz derivada das mesmas. Em alguns 321/500 exemplos, a unidade de análise de componente saliente 524G pode identificar ou selecionar como componentes de áudio distintos (em que os componentes podem também ser referidos como “objetos”), um ou mais vetores com base tanto na energia quanto na direcionalidade dos vetores. Por exemplo, a unidade de análise de componente saliente 524G pode identificar aqueles vetores de uma ou mais dentre as matrizes 519-519C (ou uma matriz derivada das mesmas) que exibem tanto energia alta quanto direcionalidade alta (por exemplo, representada como um quociente de direcionalidade) como os componentes de áudio distintos. Como um resultado, se a unidade de análise de componente saliente 524G determinar que um vetor particular é relativamente menos direcional em comparação a outros vetores de uma ou mais dentre as matrizes 519-519C (ou uma matriz derivada das mesmas), então, independentemente do nível de energia associado ao vetor particular, a unidade de análise de componente saliente 524G pode determinar que o vetor particular representa os componentes de áudio de segundo plano (ou ambiente) do campo sonoro representado pelos SHC 511. Nesse aspecto, a unidade de análise de componente saliente 524G pode realizar as operações similares àquelas descritas acima em relação à unidade de análise de campo sonoro 44 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4.[0932] Unlike the previously described salient component analysis units 524, the salient component analysis unit 524G may implement one or more aspects of the techniques described herein to identify foreground elements based on the directionality of the vectors of a or more of matrices 519-519C or a matrix derived therefrom. In some 321/500 examples, the 524G salient component analysis unit can identify or select as distinct audio components (where the components may also be referred to as “objects”), one or more vectors based on both energy and vector directionality. For example, the 524G salient component analysis unit can identify those vectors from one or more of the 519-519C matrices (or a matrix derived therefrom) that exhibit both high energy and high directionality (e.g., represented as a quotient of directionality) as the distinct audio components. As a result, if the salient component analysis unit 524G determines that a particular vector is relatively less directional compared to other vectors in one or more of the matrices 519-519C (or a matrix derived therefrom), then regardless of the energy level associated with the particular vector, the salient component analysis unit 524G can determine that the particular vector represents the background (or ambient) audio components of the sound field represented by the SHC 511. protruding component 524G can perform operations similar to those described above with respect to the sound field analysis unit 44 of the audio encoding device 20 shown in the example of Figure 4.

[0933] Em algumas implantações, a unidade de análise de componente saliente 524G pode identificar objetos de áudio distintos (que, conforme notado acima, podem também ser referidos como “componentes”) com base na direcionalidade, realizando-se as operações a seguir. A unidade de análise de componente saliente 524G pode multiplicar (por exemplo, com o uso de um ou mais processos de multiplicação de matriz) a V matriz 519A pela matriz S 322/500 519B. Multiplicando-se a matriz V 519A e a matriz S 519B, a unidade de análise de componente saliente 524G pode obter uma matriz VS. Adicionalmente, a unidade de análise de componente saliente 524G pode elevar ao quadrado (isto é, exponenciar por uma potência de dois) pelo menos algumas das entradas de cada um dos vetores (que podem estar em uma fileira) da matriz VS. Em algumas ocorrências, a unidade de análise de componente saliente 524G podem somar aquelas entradas elevadas ao quadrado de cada vetor que são associadas a uma ordem maior do que 1. Como um exemplo, se cada vetor da matriz incluir 25 entradas, a unidade de análise de componente saliente 524G pode, em relação a cada vetor, elevar ao quadrado as entradas de cada vetor começando na quinta entrada e terminando na vigésima quinta entrada, somando as entradas elevadas ao quadrado para determinar um quociente de direcionalidade (ou um indicador de direcionalidade). Cada operação de soma pode resultar em um quociente de direcionalidade para um vetor correspondente. Nesse exemplo, a unidade de análise de componente saliente 524G pode determinar que aquelas entradas de cada fileira que são associadas a uma ordem menor ou igual a 1, ou seja, a primeira à quarta entrada, são mais geralmente direcionadas à quantidade de energia e menos à direcionalidade daquelas entradas. Isto é, os ambisonics de ordem inferior associados a uma ordem de zero ou um correspondem às funções de base esférica que, conforme ilustrado na Figura 1 e na Figura 2, não fornecem muito em termos da direção da onda de pressão, mas, em vez disso, fornecem algum volume (que é representativo da energia).[0933] In some deployments, the 524G salient component analysis unit can identify distinct audio objects (which, as noted above, may also be referred to as “components”) based on directionality by performing the following operations. The salient component analysis unit 524G may multiply (eg, using one or more matrix multiplication processes) the V matrix 519A by the S matrix 322/500 519B. By multiplying the V matrix 519A and the S matrix 519B, the salient component analysis unit 524G can obtain a VS matrix. Additionally, the salient component analysis unit 524G can square (ie, exponentiate by a power of two) at least some of the entries of each of the vectors (which can be in a row) of the VS matrix. In some instances, the 524G salient component analysis unit may sum those squared entries of each vector that are associated with an order greater than 1. As an example, if each matrix vector includes 25 entries, the analysis unit 524G salient component can, with respect to each vector, square the inputs of each vector starting at the fifth input and ending at the twenty-fifth input, summing the squared inputs to determine a directionality quotient (or a directionality indicator) . Each summation operation can result in a directionality quotient for a corresponding vector. In this example, the 524G salient component analysis unit can determine that those inputs of each row that are associated with an order less than or equal to 1, i.e., the first to fourth input, are more generally directed to the amount of energy and less to the directionality of those inputs. That is, the lower-order ambisonics associated with an order of zero or one correspond to spherical basis functions which, as illustrated in Figure 1 and Figure 2, do not give much in terms of the pressure wave direction, but rather In addition, they provide some volume (which is representative of energy).

[0934] As operações descritas no exemplo acima podem também ser expressas de acordo com o pseudocódigo a seguir. O pseudocódigo abaixo inclui anotações, na forma de 323/500 instruções de comentário que são incluídas dentro de ocorrências consecutivas das cadeias de caracteres “/*” e “*/” (sem aspas).

Figure img0059
[0934] The operations described in the example above can also be expressed according to the following pseudocode. The pseudocode below includes annotations, in the form of 323/500 comment statements that are enclosed within consecutive occurrences of the strings “/*” and “*/” (without quotes).
Figure img0059

[0935] /* A próxima linha é direcionada para analisar cada fileira independentemente e somar os valores na primeira (como um exemplo) fileira da quinta entrada à vigésima quinta entrada para determinar o quociente de direcionalidade ou métrica de direcionalidade para um vetor correspondente. Elevar ao quadrado as entradas antes da soma. As entradas de cada fileira que são associadas a uma ordem maior do que 1 são associadas a ambisonics de ordem superior e são, assim, mais propensas a serem direcionais. */

Figure img0060
[0935] /* The next line is directed to parse each row independently and sum the values in the first (as an example) row from the fifth input to the twenty-fifth input to determine the directionality quotient or directionality metric for a corresponding vector. Square the entries before the sum. Entries in each row that are associated with an order greater than 1 are associated with higher-order ambisonics and are thus more likely to be directional. */
Figure img0060

[0936] /* A próxima linha é direcionada ao sortimento da soma dos quadrados para a matriz VS gerada e seleção de um conjunto dos maiores valores (por exemplo, três ou quatro dos maiores valores) */

Figure img0061
[0936] /* The next line is directed to sorting the sum of squares for the generated VS matrix and selecting a set of the highest values (e.g. three or four of the highest values) */
Figure img0061

[0937] Em outras palavras, de acordo com o pseudocódigo acima, a unidade de análise de componente saliente 524G pode selecionar entradas de cada vetor da matriz VS decomposta a partir daquelas dos SHC 511 que correspondem a uma função de base esférica que tem uma ordem maior do que um. A unidade de análise de componente saliente 524G pode, então, elevar ao quadrado essas entradas para cada vetor da matriz VS, somando as entradas quadradas para identificar, computar ou determinar de outra maneira uma métrica ou quociente de direcionalidade para cada vetor da matriz VS. A seguir, a unidade de análise de componente saliente 524G pode sortir os vetores da matriz VS com base nas respectivas métricas de direcionalidade de cada um dos vetores. A unidade de análise de componente saliente 524G pode sortir esses vetores em uma ordem decrescente das métricas de direcionalidade, de modo que aqueles vetores com a maior direcionalidade correspondente sejam os primeiros e aqueles vetores com a menor direcionalidade correspondente sejam os últimos. A unidade de análise de componente saliente 524G pode, então, selecionar o subconjunto não zero dos vetores que têm a maior métrica de direcionalidade relativa.[0937] In other words, according to the above pseudocode, the salient component analysis unit 524G can select entries of each vector of the decomposed VS matrix from those of the SHC 511 that correspond to a spherical basis function that has an order greater than one. The salient component analysis unit 524G can then square these entries for each vector of the VS matrix, summing the squared entries to identify, compute, or otherwise determine a directionality metric or quotient for each vector of the VS matrix. Next, the 524G salient component analysis unit can sort the vectors from the VS matrix based on the respective directionality metrics of each of the vectors. The 524G salient component analysis unit can sort these vectors in descending order of directionality metrics, so that those vectors with the highest corresponding directionality are first and those vectors with the lowest corresponding directionality are last. The 524G salient component analysis unit can then select the non-zero subset of vectors that have the highest relative directionality metric.

[0938] De acordo com alguns aspectos das técnicas descritas no presente documento, o dispositivo de codificação de áudio 510G ou um ou mais componentes do mesmo podem identificar ou usar de outra maneira um número predeterminado dos vetores da matriz VS como os componentes de áudio distintos. Por exemplo, após selecionar as entradas 5 a 25 de cada fileira da matriz VS e elevar ao quadrado e somar as entradas selecionadas para determinar a métrica de direcionalidade relativa para cada vetor respectivo, a unidade de análise de componente saliente 524G pode implantar a seleção adicional dentre os vetores para identificar os vetores que representam os componentes de áudio distintos. Em alguns exemplos, a unidade de análise de componente saliente 524G pode selecionar um número predeterminado dos vetores da matriz VS, comparando- se os quocientes de direcionalidade dos vetores. Como um exemplo, a unidade de análise de componente saliente 524G pode selecionar os quatro vetores representados na matriz VS que têm os quatro maiores quocientes de direcionalidade (e que são os primeiros quatro vetores da matriz VS sortida). Por sua vez, a unidade de análise de componente saliente 524G pode determinar que os quatro vetores selecionados representam os quatro objetos de áudio mais distintos associados à representação de SHC correspondente do campo sonoro.[0938] In accordance with some aspects of the techniques described herein, the 510G audio encoding device or one or more components thereof may identify or otherwise use a predetermined number of the vectors of the VS matrix as the distinct audio components . For example, after selecting entries 5 through 25 of each row of the VS matrix and squaring and summing the selected entries to determine the relative directionality metric for each respective vector, the 524G salient component analysis unit can implement the additional selection among the vectors to identify the vectors that represent the distinct audio components. In some examples, the salient component analysis unit 524G may select a predetermined number of vectors from the VS matrix by comparing the directionality quotients of the vectors. As an example, the 524G salient component analysis unit can select the four vectors represented in the VS matrix that have the four largest directionality quotients (and which are the first four vectors of the assorted VS matrix). In turn, the 524G salient component analysis unit can determine that the four selected vectors represent the four most distinct audio objects associated with the corresponding SHC representation of the sound field.

[0939] Em alguns exemplos, a unidade de análise de componente saliente 524G pode reordenar os vetores derivados da matriz VS, para refletir a distinção dos quatro vetores selecionados, conforme descrito acima. Em um exemplo, a unidade de análise de componente saliente 524G pode reordenar os vetores de modo que as quatro entradas selecionadas sejam relocadas ao topo da matriz VS. Por exemplo, a unidade de análise de componente saliente 524G pode modificar a matriz VS de modo que todas as quatro entradas selecionadas sejam posicionadas em uma primeira fileira (ou mais ao topo) da matriz VS reordenada resultante. Embora descrita no presente documento em relação à unidade de análise de componente saliente 524G, em várias implantações, outros componentes do dispositivo de codificação de áudio 510G, tal como a unidade de reordenação de vetor 532, podem realizar a reordenação.[0939] In some examples, the 524G salient component analysis unit may reorder the vectors derived from the VS matrix to reflect the distinction of the four selected vectors as described above. In one example, the 524G salient component analysis unit can reorder the vectors so that the four selected entries are relocated to the top of the VS matrix. For example, the 524G salient component analysis unit can modify the VS matrix so that all four selected entries are placed in a first (or topmost) row of the resulting reordered VS matrix. Although described herein with respect to the protruding component parsing unit 524G, in various implementations, other components of the audio encoding device 510G, such as the vector reordering unit 532, may perform reordering.

[0940] A unidade de análise de componente saliente 524G pode comunicar a matriz resultante (isto é, a matriz VS, reordenada ou não, conforme o caso) para a unidade de geração de fluxo de bits 516. Por sua vez, a unidade de geração de fluxo de bits 516 pode usar a matriz VS 525K para gerar o fluxo de bits 517. Por exemplo, se a unidade de análise de componente saliente 524G tiver reordenado a matriz VS 525K, a unidade de geração de fluxo de bits 516 pode usar a fileira superior da versão reordenada da matriz VS 525K como os objetos de áudio distintos, tal como quantizando ou descartando os vetores restantes da versão reordenada da matriz VS 525K. Quantizando-se os vetores restantes da versão reordenada da matriz VS 525K, a unidade de geração de fluxo de bits 16 pode tratar os vetores restantes como dados de áudio ambiente ou de segundo plano.[0940] The salient component analysis unit 524G can communicate the resulting matrix (i.e. the VS matrix, reordered or not, as the case may be) to the bit stream generation unit 516. bitstream generation 516 can use VS matrix 525K to generate bitstream 517. For example, if salient component analysis unit 524G has reordered VS matrix 525K, bitstream generation unit 516 can use the top row of the reordered version of the VS 525K matrix as the distinct audio objects, such as quantizing or discarding the remaining vectors of the reordered version of the VS 525K matrix. By quantizing the remaining vectors of the reordered version of the VS 525K matrix, the bitstream generation unit 16 can treat the remaining vectors as ambient or background audio data.

[0941] Nos exemplos em que a unidade de análise de componente saliente 524G não ordenou a matriz VS 525K, a unidade de geração de fluxo de bits 516 pode distinguir os dados distintos dos dados de áudio de segundo plano, com base nas entradas particulares (por exemplo, as 5aa 25aentradas) de cada fileira da matriz VS 525K, conforme selecionado pela unidade de análise de componente saliente 524G. Por exemplo, a unidade de geração de fluxo de bits 516 pode gerar o fluxo de bits 517 quantizando ou descartando as primeiras quatro entradas de cada fileira da matriz VS 525K.[0941] In the examples where the salient component analysis unit 524G did not order the VS 525K matrix, the bitstream generation unit 516 can distinguish the distinct data from the background audio data, based on the particular inputs ( for example, the 5th to 25th entries) of each row of the VS 525K array, as selected by the 524G protruding component analysis unit. For example, the bitstream generating unit 516 can generate the bitstream 517 by quantizing or discarding the first four entries of each row of the VS array 525K.

[0942] Dessa maneira, o dispositivo de codificação de áudio 510G e/ou os componentes do mesmo, tal como a unidade de análise de componente saliente 524G, podem implantar as técnicas desta revelação para determinar ou utilizar de outra maneira as razões das energias de coeficientes maiores ou menores dos dados de áudio, a fim de distinguir entre os objetos de áudio distintos e os dados de áudio de segundo plano representativos do campo sonoro. Por exemplo, conforme descrito, a unidade de análise de componente saliente 524G pode utilizar as razões de energia com base nos valores das várias entradas da matriz VS 525K gerada pela unidade de análise de componente saliente 524H. Combinando-se os dados fornecidos pela matriz V 519A e pela matriz S 519B, a unidade de análise de componente saliente 524G pode gerar a matriz VS 525K para fornecer as informações tanto sobre a direcionalidade quanto sobre a energia geral dos vários componentes dos dados de áudio, na forma de vetores e dados relacionados (por exemplo, quocientes de direcionalidade). Mais especificamente, a matriz V 519A pode fornecer informações relacionadas às determinações de direcionalidade, enquanto que a matriz S 519B pode fornecer as informações relacionadas às determinações de energia geral para os componentes dos dados de áudio.[0942] In this manner, the 510G audio coding device and/or components thereof, such as the 524G salient component analysis unit, can deploy the techniques of this disclosure to determine or otherwise utilize the ratios of greater or lesser coefficients of the audio data in order to distinguish between distinct audio objects and background audio data representative of the sound field. For example, as described, the salient component analysis unit 524G may use the power ratios based on the values of the various entries of the VS matrix 525K generated by the salient component analysis unit 524H. By combining the data provided by the V matrix 519A and the matrix S 519B, the salient component analysis unit 524G can generate the VS matrix 525K to provide the information on both the directionality and the overall energy of the various components of the audio data. , in the form of vectors and related data (eg directionality quotients). More specifically, the V matrix 519A can provide information related to directionality determinations, while the S matrix 519B can provide information related to general energy determinations for the audio data components.

[0943] Em outros exemplos, a unidade de análise de componente saliente 524G pode gerar a matriz VS 525K com o uso dos vetores VTDIST reordenados 539. Nesses exemplos, a unidade de análise de componente saliente 524G pode determinar a distinção com base na matriz V 519, antes de qualquer modificação com base na matriz S 519B. Em outras palavras, de acordo com esses exemplos, a unidade de análise de componente saliente 524G pode determinar a direcionalidade com o uso apenas da matriz V 519, sem realizar a etapa de gerar a matriz VS 525K. Mais especificamente, a matriz V 519A pode fornecer informações sobre a maneira pela qual os componentes (por exemplo, vetores da matriz V 519) dos dados de áudio são misturados e, potencialmente, informações sobre os vários efeitos sinérgicos dos dados transmitidos pelos vetores. Por exemplo, a matriz V 519A pode fornecer as informações sobre a “direção de chegada” dos vários componentes de áudio representados pelos vetores, tal como a direção de chegada de cada componente de áudio, conforme retransmitido ao dispositivo de codificação de áudio 510G por um EigenMike®. Conforme usado no presente documento, o termo “componente de dados de áudio” pode ser usado intercambiavelmente com a “entrada” de qualquer uma das matrizes 519 ou quaisquer matrizes derivadas das mesmas.[0943] In other examples, the salient component analysis unit 524G can generate the VS 525K matrix using the reordered VTDIST vectors 539. In these examples, the salient component analysis unit 524G can determine the distinction based on the V matrix 519, before any modification based on matrix S 519B. In other words, according to these examples, the salient component analysis unit 524G can determine directionality using only the V matrix 519, without performing the step of generating the matrix VS 525K. More specifically, the V matrix 519A can provide information about the manner in which the components (e.g., vectors of the V matrix 519) of the audio data are mixed, and potentially information about the various synergistic effects of the data transmitted by the vectors. For example, the V matrix 519A can provide the information about the “arrival direction” of the various audio components represented by the vectors, such as the arrival direction of each audio component, as relayed to the audio encoding device 510G by a EigenMike®. As used herein, the term "audio data component" may be used interchangeably with the "input" of any of matrices 519 or any matrices derived therefrom.

[0944] De acordo com algumas implantações das técnicas desta revelação, a unidade de análise de componente saliente 524G pode suplementar ou aumentar as representações de SHC com informações extras para fazer várias determinações descritas no presente documento. Como um exemplo, a unidade de análise de componente saliente 524G pode aumentar os SHC com informações extras a fim de determinar a saliência de vários componentes de áudio representados nas matrizes 519-519C. Como outro exemplo, a unidade de análise de componente saliente 524G e/ou a unidade de reordenação de vetor 532 pode aumentar o HOA com dados extras para distinguir entre os objetos de áudio distintos e os dados de áudio de segundo plano.[0944] In accordance with some implementations of the techniques of this disclosure, the 524G salient component analysis unit may supplement or augment the SHC representations with extra information to make various determinations described herein. As an example, the salient component analysis unit 524G can augment the SHC with extra information in order to determine the salience of various audio components represented in the arrays 519-519C. As another example, the salient component analysis unit 524G and/or the vector reordering unit 532 can augment the HOA with extra data to distinguish between discrete audio objects and background audio data.

[0945] Em alguns exemplos, a unidade de análise de componente saliente 524G pode detectar que as porções (por exemplo, objetos de áudio distintos) dos dados de áudio exibem energia keynesiana. Um exemplo de tais objetos distintos pode ser associado a uma voz humana que modula. No caso de dados de áudio com base em voz que modula, a unidade de análise de componente saliente 524G pode determinar que a energia dos dados de modulação, como a razão para as energias dos componentes restantes, permanece aproximadamente constante (por exemplo, constante dentro de uma faixa limiar) ou aproximadamente estacionária ao longo do tempo. Tradicionalmente, se as características de energia dos componentes de áudio distintos com energia keynesiana (por exemplo, aqueles com a voz de modulação) mudarem de um quadro de áudio para outro, um dispositivo pode não ter a capacidade de identificar a série de componentes de áudio como um único sinal. Entretanto, a unidade de análise de componente saliente 524G pode implantar técnicas desta revelação para determinar uma direcionalidade ou uma abertura do objeto de distância representado como um vetor nas várias matrizes.[0945] In some instances, the 524G salient component analysis unit can detect that portions (eg distinct audio objects) of the audio data exhibit Keynesian energy. An example of such distinct objects can be associated with a human voice that modulates. In the case of voice-based audio data that modulates, the salient component analysis unit 524G can determine that the energy of the modulation data, as the ratio for the energies of the remaining components, remains approximately constant (e.g., constant within threshold range) or approximately stationary over time. Traditionally, if the energy characteristics of discrete audio components with Keynesian energy (e.g., those with the modulation voice) change from one audio frame to another, a device may not have the ability to identify the series of audio components. as a single signal. However, the 524G salient component analysis unit can implement techniques of this revelation to determine a directionality or an aperture of the distance object represented as a vector in the various matrices.

[0946] Mais especificamente, a unidade de análise de componente saliente 524G pode determinar que características tais como direcionalidade e/ou abertura são improváveis de mudar substancialmente através dos quadros de áudio. Conforme usado no presente documento, a abertura representa uma razão entre os coeficientes de ordem superior e os coeficientes de ordem inferior, dentro dos dados de áudio. Cada fileira da matriz V 519A pode incluir vetores que correspondem aos SHC particulares. A unidade de análise de componente saliente 524G pode determinar que os SHC de ordem inferior (por exemplo, associados a uma ordem menor ou igual a) tendem a representar dados ambientes, enquanto entradas de ordem maior tendem a representar dados distintos. Adicionalmente, a unidade de análise de componente saliente 524G pode determinar que, em muitas ocorrências, os SHC de ordem superior (por exemplo, associados a uma ordem maior do que 1) exibem energia maior e que a razão de energia dos SHC de ordem superior para ordem inferior permanece substancialmente similar (ou aproximadamente constante) de quadro de áudio para quadro de áudio.[0946] More specifically, the 524G salient component analysis unit can determine that characteristics such as directionality and/or aperture are unlikely to change substantially across audio frames. As used herein, the aperture represents a ratio of higher order coefficients to lower order coefficients within the audio data. Each row of the V matrix 519A may include vectors that correspond to particular SHCs. The 524G salient component analysis unit can determine that lower-order SHCs (eg, associated with an order less than or equal to) tend to represent ambient data, while higher-order inputs tend to represent discrete data. Additionally, the 524G salient component analysis unit can determine that, in many instances, higher-order SHCs (e.g., associated with an order greater than 1) exhibit greater energy and that the energy ratio of higher-order SHCs for lower order remains substantially similar (or approximately constant) from audio frame to audio frame.

[0947] Um ou mais componentes da unidade de análise de componente saliente 524G podem determinar as características dos dados de áudio como a direcionalidade e a abertura, com o uso da matriz V 519. Dessa maneira, os componentes do dispositivo de codificação de áudio 510G, tal como a unidade de análise de componente saliente 524G, podem implantar as técnicas descritas no presente documento para determinar a saliência e/ou distinguir objetos de áudio distintos do áudio de segundo plano, com o uso das informações com base na direcionalidade. Usando a direcionalidade para determinar a saliência e/ou distinção, a unidade de análise de componente saliente 524G pode chegar a determinações mais robustas do que em casos de um dispositivo configurado para determinar a saliência e/ou distinção com o uso de dados com base em energia apenas. Embora descrita acima em relação a determinações com base em direcionalidade da saliência e/ou distinção, a unidade de análise de componente saliente 524G pode implantar as técnicas desta revelação para usar a direcionalidade adicionalmente a outras características, tal como energia, para determinar a saliência e/ou distinção de componentes particulares dos dados de áudio, conforme representado por vetores de uma ou mais dentre as matrizes 519-519C (ou qualquer matriz derivada das mesmas).[0947] One or more components of the 524G salient component analysis unit can determine the characteristics of the audio data such as directionality and aperture, using the V matrix 519. In this way, the components of the 510G audio encoding device , such as the 524G salient component analysis unit, can implement the techniques described in this document to determine salience and/or distinguish distinct audio objects from background audio, using the information based on directionality. Using directionality to determine salience and/or distinction, the 524G salient component analysis unit can arrive at more robust determinations than in cases of a device configured to determine salience and/or distinction using data based on energy only. While described above with respect to determinations based on salience directionality and/or distinctiveness, the 524G salient component analysis unit can deploy the techniques of this disclosure to use directionality in addition to other characteristics, such as energy, to determine salience and /or distinguishing particular components of the audio data, as represented by vectors of one or more of the matrices 519-519C (or any matrix derived therefrom).

[0948] Em alguns exemplos o método inclui identificar um ou mais objetos de áudio distintos de um ou mais coeficientes harmônicos esféricos (SHC) associados aos objetos de áudio com base em uma direcionalidade determinada para um ou mais dentre os objetos de áudio. Em um exemplo, o método inclui adicionalmente determinar a direcionalidade dos um ou mais objetos de áudio com base nos coeficientes harmônicos esféricos associados aos objetos de áudio. Em alguns exemplos, o método inclui adicionalmente realizar uma decomposição de valor singular em relação aos coeficientes harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos; e representar a pluralidade de coeficientes harmônicos esféricos como uma função de pelo menos uma porção de uma ou mais dentre a matriz U , a matriz S e a matriz V, em que a determinação da respectiva direcionalidade dos um ou mais objetos de áudio baseia-se pelo menos em parte na matriz V.[0948] In some examples the method includes identifying one or more audio objects distinct from one or more spherical harmonic coefficients (SHC) associated with the audio objects based on a given directionality for one or more of the audio objects. In one example, the method additionally includes determining the directionality of one or more audio objects based on the spherical harmonic coefficients associated with the audio objects. In some examples, the method additionally includes performing a singular value decomposition with respect to spherical harmonic coefficients to generate a matrix U representative of left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of harmonic coefficients spherical and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients; and representing the plurality of spherical harmonic coefficients as a function of at least a portion of one or more of the matrix U, the matrix S and the matrix V, wherein the determination of the respective directionality of the one or more audio objects is based on at least in part in the V matrix.

[0949] Em um exemplo, o método inclui adicionalmente reordenar um ou mais vetores da matriz V de modo que os vetores que têm um quociente de direcionalidade maior sejam posicionados acima dos vetores que têm um quociente de direcionalidade menor na matriz V reordenada. Em um exemplo, o método inclui adicionalmente determinar que os vetores que têm o quociente de direcionalidade maior incluem informações direcionais maiores do que os vetores que têm o quociente de direcionalidade menor. Em um exemplo, o método inclui adicionalmente multiplicar a matriz V pela matriz S para gerar uma matriz VS, sendo que a matriz VS inclui um ou mais vetores. Em um exemplo, o método inclui adicionalmente selecionar entradas de cada fileira da matriz VS que são associadas a uma ordem maior do que 1, elevar ao quadro cada uma das entradas selecionadas para formar entradas elevadas ao quadrado correspondentes e, para cada fileira da matriz VS, somar todas as entradas elevadas ao quadro para determinar um quociente de direcionalidade para um vetor correspondente.[0949] In one example, the method additionally includes reordering one or more vectors of the matrix V so that vectors that have a higher directionality quotient are positioned above vectors that have a lower directionality quotient in the reordered matrix V. In one example, the method additionally includes determining that vectors that have the higher directionality quotient include greater directional information than vectors that have the lower directionality quotient. In one example, the method additionally includes multiplying the matrix V by the matrix S to generate a matrix VS, where the matrix VS includes one or more vectors. In one example, the method additionally includes selecting entries from each row of the VS matrix that are associated with an order greater than 1, frame raising each of the selected entries to form corresponding squared entries, and for each row of the VS matrix , sum all inputs raised to the frame to determine a directionality quotient for a corresponding vector.

[0950] Em alguns exemplos, cada fileira da matriz VS inclui 25 entradas. Em um exemplo, a seleção das entradas de cada fileira da matriz VS associada à ordem maior do que 1 inclui selecionar todas as entradas começando em uma 5aentrada de cada fileira da matriz VS e terminando em uma 25a entrada de cada fileira da matriz VS. Em um exemplo, o método inclui adicionalmente selecionar um subconjunto dos vetores da matriz VS para representar os objetos de áudio distintos. Em alguns exemplos, a seleção do subconjunto inclui selecionar quatro vetores da matriz VS, e os quatro vetores selecionados têm os quatro maiores quocientes de direcionalidade de todos os vetores da matriz VS. Em um exemplo, a determinação de que o subconjunto selecionado dos vetores representa os objetos de áudio distintos baseia-se tanto na direcionalidade quanto em uma energia de cada vetor.[0950] In some examples, each row of the VS matrix includes 25 entries. In one example, selecting entries from each row of the VS matrix associated with order greater than 1 includes selecting all entries starting with a 5th entry of each row of the VS matrix and ending with a 25th entry of each row of the VS matrix. In one example, the method additionally includes selecting a subset of the vectors from the VS matrix to represent the distinct audio objects. In some examples, subset selection includes selecting four vectors from the VS matrix, and the four selected vectors have the four highest directionality quotients of all vectors from the VS matrix. In one example, the determination that the selected subset of the vectors represents the distinct audio objects is based on both the directionality and an energy of each vector.

[0951] Em alguns exemplos o método inclui identificar um ou mais objetos de áudio distintos de um ou mais coeficientes harmônicos esféricos associados aos objetos de áudio com base em uma direcionalidade e uma energia determinadas para um ou mais dentre os objetos de áudio. Em um exemplo, o método inclui adicionalmente determinar uma ou ambas dentre a direcionalidade e a energia dos um ou mais objetos de áudio com base nos coeficientes harmônicos esféricos associados aos objetos de áudio. Em alguns exemplos, o método inclui adicionalmente realizar uma decomposição de valor singular em relação aos coeficientes harmônicos esféricos representativos do campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e representar a pluralidade de coeficientes harmônicos esféricos como uma função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V, em que a determinação da respectiva direcionalidade dos um ou mais objetos de áudio baseia-se pelo menos em parte na matriz V e em que a determinação da respectiva energia dos um ou mais objetos de áudio baseia- se, pelo menos em parte, na matriz S.[0951] In some examples the method includes identifying one or more audio objects distinct from one or more spherical harmonic coefficients associated with the audio objects based on a directionality and energy determined for one or more of the audio objects. In one example, the method additionally includes determining one or both of the directionality and energy of the one or more audio objects based on the spherical harmonic coefficients associated with the audio objects. In some examples, the method additionally includes performing a singular value decomposition with respect to spherical harmonic coefficients representative of the sound field to generate a matrix U representative of singular vectors to the left of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the plurality of spherical harmonic coefficients and representing the plurality of spherical harmonic coefficients as a function of at least a portion of one or more of the matrix U, the matrix S and the matrix V, where the determination of the respective directionality of the one or more audio objects is based at least in part on the matrix V and where the determination of the respective energy of the one or more audio objects is based at least on part, in matrix S.

[0952] Em um exemplo, o método inclui adicionalmente multiplicar a matriz V pela matriz S para gerar uma matriz VS, sendo que a matriz VS inclui um ou mais vetores. Em alguns exemplos, o método inclui adicionalmente selecionar entradas de matriz VS que são associadas a uma ordem maior do que 1, elevar ao quadro cada uma das entradas selecionadas para formar entradas elevadas ao quadrado correspondentes e, para cada fileira da matriz VS, somar todas as entradas elevadas ao quadro para gerar um quociente de direcionalidade para um vetor correspondente da matriz VS. Em alguns exemplos, cada fileira da matriz VS inclui 25 entradas. Em um exemplo, a seleção das entradas de cada fileira da matriz VS associada à ordem maior do que 1 compreende selecionar todas as entradas começando em uma 5a entrada de cada fileira da matriz VS e terminando em uma 25a entrada de cada fileira da matriz VS. Em alguns exemplos, o método inclui adicionalmente selecionar um subconjunto dos vetores para representar os objetos de áudio distintos. Em um exemplo, a seleção do subconjunto compreende selecionar quatro vetores da matriz VS, e os quatro vetores selecionados têm os quatro maiores quocientes de direcionalidade de todos os vetores da matriz VS. Em alguns exemplos, a determinação de que o subconjunto selecionado dos vetores representa os objetos de áudio distintos baseia-se tanto na direcionalidade quanto em uma energia de cada vetor.[0952] In one example, the method additionally includes multiplying the matrix V by the matrix S to generate a matrix VS, where the matrix VS includes one or more vectors. In some examples, the method additionally includes selecting VS matrix entries that are associated with an order greater than 1, framing each of the selected entries to form corresponding squared entries, and, for each row of the VS matrix, summing all the inputs raised to the frame to generate a directionality quotient for a corresponding vector of the VS matrix. In some examples, each row of the VS matrix includes 25 entries. In one example, selecting entries from each row of the VS matrix associated with order greater than 1 comprises selecting all entries starting with a 5th entry of each row of the VS matrix and ending with a 25th entry of each row of the VS matrix. In some examples, the method additionally includes selecting a subset of the vectors to represent the distinct audio objects. In one example, subset selection comprises selecting four vectors from the VS matrix, and the four selected vectors have the four highest directionality quotients of all vectors from the VS matrix. In some examples, the determination that the selected subset of the vectors represents the distinct audio objects is based on both the directionality and an energy of each vector.

[0953] Em alguns exemplos, um método inclui determinar, com o uso das informações com base na direcionalidade, um ou mais primeiros vetores que descrevem os componentes distintos do campo sonoro e um ou mais segundos vetores que descrevem os componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos realizando-se uma transformação em relação à pluralidade de coeficientes harmônicos esféricos. Em um exemplo, a transformação compreende uma decomposição de valor singular que gera uma matriz U representativa dos vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa dos valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa dos vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos. Em um exemplo, a transformação compreende uma análise de componente principal para identificar os componentes distintos do campo sonoro e os componentes de segundo plano do campo sonoro.[0953] In some examples, a method includes determining, using information based on directionality, one or more first vectors that describe the distinct components of the sound field and one or more second vectors that describe the background components of the field. sound, both the one or more first vectors and the one or more second vectors generated by at least performing a transformation with respect to the plurality of spherical harmonic coefficients. In one example, the transformation comprises a singular-value decomposition that generates a matrix U representative of the left-hand singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of the singular values of the plurality of spherical harmonic coefficients, and a matrix V representative of the vectors singulars to the right of the plurality of spherical harmonic coefficients. In one example, the transformation comprises principal component analysis to identify the distinct components of the sound field and the background components of the sound field.

[0954] Em alguns exemplos, um dispositivo é configurado ou operável de outra maneira para realizar qualquer uma das técnicas descritas no presente documento ou qualquer combinação das técnicas. Em alguns exemplos, um meio de armazenamento legível por computador é codificado com instruções que, quando executadas, fazem com que um ou mais processadores realizem qualquer uma das técnicas descritas no presente documento ou qualquer combinação das técnicas. Em alguns exemplos, um dispositivo inclui meios para realizar qualquer uma das técnicas descritas no presente documento ou qualquer combinação das técnicas.[0954] In some examples, a device is configured or otherwise operable to perform any of the techniques described herein or any combination of the techniques. In some examples, a computer-readable storage medium is encoded with instructions that, when executed, cause one or more processors to perform any of the techniques described herein or any combination of the techniques. In some examples, a device includes means for performing any of the techniques described herein or any combination of the techniques.

[0955] Isto é, os aspectos anteriores das técnicas podem permitir que o dispositivo de codificação de áudio 510G seja configurado para operar em conformidade com as cláusulas a seguir.[0955] That is, prior aspects of the techniques may allow the 510G audio encoding device to be configured to operate in accordance with the following clauses.

[0956] Cláusula 134954-1B. Um dispositivo, tal como o dispositivo de codificação de áudio 510G que compreende: um ou mais processadores configurados para identificar um ou mais objetos de áudio distintos de um ou mais coeficientes harmônicos esféricos associados aos objetos de áudio, com base em uma direcionalidade e uma energia determinadas para um ou mais dentre os objetos de áudio.[0956] Clause 134954-1B. A device, such as the 510G audio encoding device, comprising: one or more processors configured to identify one or more audio objects distinct from one or more spherical harmonic coefficients associated with the audio objects, based on a directionality and an energy determined for one or more of the audio objects.

[0957] Cláusula 134954-2B. O dispositivo da cláusula 134954- IB, em que os um ou mais processadores são adicionalmente configurados para determinar uma ou ambas dentre a direcionalidade e a energia dos um ou mais objetos de áudio com base nos coeficientes harmônicos esféricos associados aos objetos de áudio.[0957] Clause 134954-2B. The device of clause 134954-IB, wherein the one or more processors are further configured to determine one or both of the directionality and energy of the one or more audio objects based on the spherical harmonic coefficients associated with the audio objects.

[0958] Cláusula 134954-3B. O dispositivo de qualquer uma das reivindicações 1B ou 2B ou combinações das mesmas, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação aos coeficientes harmônicos esféricos representativos do campo sonoro para gerar uma matriz U representativa dos vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa dos valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa dos vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e representar a pluralidade de coeficientes harmônicos esféricos como uma função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V, em que os um ou mais processadores são configurados para determinar a respectiva direcionalidade dos um ou mais objetos de áudio com base, pelo menos em parte, na matriz V, e em que os um ou mais processadores são configurados para determinar a respectiva energia dos um ou mais objetos de áudio com base, pelo menos em parte, na matriz S.[0958] Clause 134954-3B. The device of any one of claims 1B or 2B or combinations thereof, wherein the one or more processors are further configured to perform a singular value decomposition with respect to spherical harmonic coefficients representative of the sound field to generate a matrix U representative of the vectors left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of the singular values of the plurality of spherical harmonic coefficients and a matrix V representative of the right singular vectors of the plurality of spherical harmonic coefficients and representing the plurality of spherical harmonic coefficients as a function of at least a portion of one or more of the U matrix, the S matrix and the V matrix, wherein the one or more processors are configured to determine the respective directionality of the one or more audio objects based at least in part , in matrix V, and where the one or more processors are configured to determine the respective energy of one or more audio objects based, at least in part, on the matrix S.

[0959] Cláusula 134954-4B. O dispositivo da cláusula 134954-3B, em que os um ou mais processadores são adicionalmente configurados para multiplicar a matriz V pela matriz S para gerar uma matriz VS, sendo que a matriz VS inclui um ou mais vetores.[0959] Clause 134954-4B. The device of clause 134954-3B, wherein the one or more processors are further configured to multiply the matrix V by the matrix S to generate a matrix VS, the matrix VS including one or more vectors.

[0960] Cláusula 134954-5B. O dispositivo da cláusula 134954-4B, em que os um ou mais processadores são adicionalmente configurados para selecionar entradas de cada fileira da matriz VS que são associadas a uma ordem maior do que 1, elevar ao quadro cada uma das entradas selecionadas para formar entradas elevadas ao quadrado correspondentes e, para cada fileira da matriz VS, somar todas as entradas elevadas ao quadro para gerar um quociente de direcionalidade para um vetor correspondente da matriz VS.[0960] Clause 134954-5B. The device of clause 134954-4B, wherein the one or more processors are further configured to select entries from each row of the VS matrix that are associated with an order greater than 1, frame each of the selected entries to form high entries squared and, for each row of the VS matrix, sum all entries raised to the frame to generate a directionality quotient for a corresponding vector of the VS matrix.

[0961] Cláusula 134954-6B. O dispositivo de qualquer uma das reivindicações 5B e 6B ou combinação das mesmas, em que cada fileira da matriz VS inclui 25 entradas.[0961] Clause 134954-6B. The device of any one of claims 5B and 6B or a combination thereof, wherein each row of the VS matrix includes 25 inputs.

[0962] Cláusula 134954-7B. O dispositivo da cláusula 134954-6B, em que os um ou mais processadores são configurados para selecionar todas as entradas começando em uma 5aentrada de cada fileira da matriz VS e terminando em uma 25a entrada de cada fileira da matriz VS.[0962] Clause 134954-7B. The device of clause 134954-6B, wherein the one or more processors are configured to select all entries starting at a 5th entry in each row of the VS array and ending at a 25th entry in each row of the VS array.

[0963] Cláusula 134954-8B. O dispositivo de qualquer uma dentre a cláusula 134954-6B e a cláusula 134954-7B ou combinação das mesmas, em que os um ou mais processadores são adicionalmente configurados para selecionar um subconjunto dos vetores para representar objetos de áudio distintos.[0963] Clause 134954-8B. The device of either clause 134954-6B and clause 134954-7B or a combination thereof, wherein the one or more processors are further configured to select a subset of the vectors to represent distinct audio objects.

[0964] Cláusula 134954-9B. O dispositivo da cláusula 134954-8B, em que os um ou mais processadores são configurados para selecionar quatro vetores da matriz VS, e em que os quatro vetores selecionados têm os quatro maiores quocientes de direcionalidade de todos os vetores da matriz VS.[0964] Clause 134954-9B. The device of clause 134954-8B, where the one or more processors are configured to select four vectors from the VS matrix, and where the four selected vectors have the four highest directionality quotients of all vectors from the VS matrix.

[0965] Cláusula 134954-10B. O dispositivo de qualquer uma dentre a cláusula 134954-6B e a cláusula 134954-7B ou combinação das mesmas, em que os um ou mais processadores são adicionalmente configurados para determinar que o subconjunto selecionado dos vetores que representam os objetos de áudio distintos baseia-se tanto na direcionalidade quanto em uma energia de cada vetor.[0965] Clause 134954-10B. The device of either clause 134954-6B and clause 134954-7B or a combination thereof, wherein the one or more processors are further configured to determine that the selected subset of vectors representing distinct audio objects is based on both in directionality and in an energy of each vector.

[0966] Cláusula 134954-1C. Um dispositivo, tal como o dispositivo de codificação de áudio 510G que compreende: um ou mais processadores configurados para determinar, com o uso das informações com base na direcionalidade, um ou mais primeiros vetores que descrevem os componentes distintos do campo sonoro e um ou mais segundos vetores que descrevem os componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos realizando-se uma transformação em relação à pluralidade de coeficientes harmônicos esféricos.[0966] Clause 134954-1C. A device, such as the 510G audio encoding device, comprising: one or more processors configured to determine, using directionality-based information, one or more first vectors that describe the distinct components of the sound field, and one or more second vectors describing the background components of the sound field, both the one or more first vectors and the one or more second vectors generated by at least performing a transformation with respect to the plurality of spherical harmonic coefficients.

[0967] Cláusula 134954-2C. O método da cláusula 134954-1C, em que a transformação compreende uma decomposição de valor singular que gera uma matriz U representativa dos vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa dos valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa dos vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos.[0967] Clause 134954-2C. The method of clause 134954-1C, wherein the transformation comprises a singular value decomposition that generates a matrix U representative of the left singular vectors of the plurality of spherical harmonic coefficients, a matrix S representative of the singular values of the plurality of spherical harmonic coefficients, and a matrix V representative of the singular vectors to the right of the plurality of spherical harmonic coefficients.

[0968] Cláusula 134954-3C. O método da cláusula 134954-2C, que compreende adicionalmente as operações citadas por qualquer combinação da cláusula 134954-1A à cláusula 134954-12A e cláusula 134954-1B à cláusula 134954-9B.[0968] Clause 134954-3C. The method of clause 134954-2C, which further comprises the operations recited by any combination of clause 134954-1A to clause 134954-12A and clause 134954-1B to clause 134954-9B.

[0969] Cláusula 134954-4C. O método da cláusula 134954-1C, em que a transformação compreende uma análise de componente principal para identificar os componentes distintos do campo sonoro e os componentes de segundo plano do campo sonoro.[0969] Clause 134954-4C. The method of clause 134954-1C, wherein the transformation comprises principal component analysis to identify the distinct components of the sound field and the background components of the sound field.

[0970] A Figura 40H é um diagrama de blocos que ilustra o dispositivo de codificação de áudio exemplificativo 510H que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descrevem dois ou três campos de som dimensionais. O dispositivo de codificação de áudio 510H pode ser similar ao dispositivo de codificação de áudio 510G em que o dispositivo de codificação de áudio 510H inclui uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de fluxo de bits 516. Além disso, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510H pode ser similar a esta do dispositivo de codificação de áudio 510G em que a unidade de compressão de áudio 512 inclui uma unidade de decomposição 518 e uma unidade de extração de componente de campo sonoro 520G, que pode operar similarmente a unidades similares do dispositivo de codificação de áudio 510G. Em alguns exemplos, o dispositivo de codificação de áudio 510H pode incluir uma unidade de quantização 534, conforme descrito em relação às Figuras 40D e 40E, para quantizar um ou mais vetores de qualquer um dos vetores UDIST 525C, os vetores UBG 525D, os vetores VTDIST 525E e os vetores VTBG 525J.[0970] Figure 40H is a block diagram illustrating the exemplary audio encoding device 510H that can perform various aspects of the techniques described in this disclosure to compress spherical harmonic coefficients that describe two or three dimensional sound fields. The audio encoding device 510H may be similar to the audio encoding device 510G in that the audio encoding device 510H includes an audio compression unit 512, an audio encoding unit 514, and a stream generation unit. bits 516. Furthermore, the audio compression unit 512 of the audio encoding device 510H may be similar to that of the audio encoding device 510G wherein the audio compression unit 512 includes a decomposition unit 518 and a 520G sound field component extraction unit, which can operate similarly to similar units of 510G audio encoding device. In some examples, the audio encoding device 510H may include a quantization unit 534, as described with respect to Figures 40D and 40E, to quantize one or more vectors of any of the UDIST 525C vectors, the UBG 525D vectors, the 525D vectors, the VTDIST 525E and the VTBG 525J vectors.

[0971] A unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510H pode, entretanto, se diferenciar da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510G em que a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510H inclui uma unidade adicional denotada como a unidade de interpolação 550. A unidade de interpolação 550 pode representar uma unidade que interpola subquadros de um primeiro quadro de áudio dos subquadros do primeiro quadro de áudio e um quadro de áudio temporariamente subsequente ou precedente, conforme descrito em mais detalhes abaixo em relação às Figuras 45 e 45B. A unidade de interpolação 550 pode, na realização dessa interpolação, reduzir a complexidade computacional (em termos de ciclos de processamento e/ou consumo de memória) reduzindo-se potencialmente a extensão a qual exige-se que a unidade de decomposição 518 decomponha os SHC 511. Nesse aspecto, a unidade de interpolação 550 pode realizar as operações similares àquelas descritas acima em relação à unidade de interpolação espaço-temporal 50 do dispositivo de codificação de áudio 24 mostrado no exemplo da Figura 4.[0971] The audio compression unit 512 of the audio encoding device 510H may, however, differ from the audio compression unit 512 of the audio encoding device 510G in that the audio compression unit 512 of the encoding device audio unit 510H includes an additional unit denoted as interpolation unit 550. Interpolation unit 550 may represent a unit that interpolates subframes of a first audio frame from subframes of the first audio frame and a temporarily subsequent or preceding audio frame, as described in more detail below with respect to Figures 45 and 45B. The interpolation unit 550 can, in performing this interpolation, reduce computational complexity (in terms of processing cycles and/or memory consumption) by potentially reducing the extent to which the decomposition unit 518 is required to decompose the SHC 511. In this regard, the interpolation unit 550 can perform operations similar to those described above with respect to the spatiotemporal interpolation unit 50 of the audio encoding device 24 shown in the example of Figure 4.

[0972] Isto é, a decomposição de valor singular realizada pela unidade de decomposição 518 consume potencialmente muita memória e/ou processador, enquanto também, em alguns exemplos, leva quantidades extensivas de tempo para decompor os SHC 511, especialmente na medida em que a ordem dos SHC 511 aumenta. A fim de reduzir a quantidade de tempo e tornar a compressão dos SHC 511 mais eficaz (em termos de ciclos de processamento e/ou consumo de memória), as técnicas descritas nesta revelação podem fornecer a interpolação de um ou mais subquadros do primeiro quadro de áudio, em que cada um dos subquadros pode representar versões decompostas dos SHC 511. Em vez de realizar a SVD em relação ao quadro inteiro, as técnicas podem permitir que a unidade de decomposição 518 decomponha um primeiro subquadro de um primeiro quadro de áudio, gerando uma matriz V 519’.[0972] That is, the singular value decomposition performed by the decomposition unit 518 potentially consumes a lot of memory and/or processor, while also, in some examples, it takes extensive amounts of time to decompose the SHC 511, especially as the order of SHC 511 increases. In order to reduce the amount of time and make SHC 511 compression more efficient (in terms of processing cycles and/or memory consumption), the techniques described in this disclosure may provide for interpolation of one or more subframes of the first frame of data. audio, where each of the subframes may represent decomposed versions of the SHC 511. Instead of performing SVD over the entire frame, the techniques may allow the decomposition unit 518 to decompose a first subframe from a first audio frame, generating a V matrix 519'.

[0973] A unidade de decomposição 518 pode também decompor um segundo subquadro de um segundo quadro de áudio, em que esse segundo quadro de áudio pode ser temporariamente subsequente ou temporariamente precedente ao primeiro quadro de áudio. A unidade de decomposição 518 pode emitir uma matriz V 519’ para esse subquadro do segundo quadro de áudio. A unidade de interpolação 550 pode, então, interpolar os subquadros restantes do primeiro quadro de áudio com base nas matrizes V 519’ decompostas a partir do primeiro e segundo subquadros, emitindo a matriz V 519, a matriz S 519B e a matriz U 519C, em que as decomposições para os subquadros restantes podem ser computadas com base nos SHC 511, na matriz V 519A para o primeiro quadro de áudio e nas matrizes V interpoladas 519 para os subquadros restantes do primeiro quadro de áudio. A interpolação pode, portanto, evitar a computação das decomposições para os subquadros restantes do primeiro quadro de áudio.[0973] Decomposing unit 518 may also decompose a second subframe of a second audio frame, wherein that second audio frame may be temporarily subsequent or temporarily preceding the first audio frame. The decomposition unit 518 may output a V matrix 519' for that subframe of the second audio frame. The interpolation unit 550 can then interpolate the remaining subframes of the first audio frame based on the V matrices 519' decomposed from the first and second subframes, outputting the V matrix 519, the S matrix 519B and the U matrix 519C, wherein the decompositions for the remaining subframes can be computed based on the SHC 511, the V matrix 519A for the first audio frame, and the interpolated V matrices 519 for the remaining subframes of the first audio frame. Interpolation can therefore avoid computing the decays for the remaining subframes of the first audio frame.

[0974] Além disso, conforme notado acima, a matriz U 519C pode não ser contínua de quadro para quadro, em que os componentes distintos da matriz U 519C decomposta a partir de um primeiro quadro de áudio dos SHC 511 podem ser especificados em fileiras e/ou colunas diferentes do que na matriz U 519C decomposta a partir de um segundo quadro de áudio dos SHC 511. Realizando-se essa interpolação, a descontinuidade pode ser reduzida dado que uma interpolação linear pode ter um efeito de suavização que pode reduzir quaisquer artefatos introduzidos devido aos limites de quadro (ou, em outras palavras, a segmentação dos SHC 511 em quadros). Usar a matriz V 519’ para realizar essa interpolação e, então, recuperar as matrizes U 519C com base na matriz V interpolada 519’ dos SHC 511 pode suavizar quaisquer efeitos da reordenação da matriz U 519C.[0974] Also, as noted above, the U 519C matrix may not be continuous from frame to frame, whereby the discrete components of the U 519C matrix decomposed from a first audio frame of the SHC 511s may be specified in rows and /or different columns than in the U 519C matrix decomposed from a second audio frame from the SHC 511. By performing this interpolation, the discontinuity can be reduced as a linear interpolation can have a smoothing effect that can reduce any artifacts introduced due to frame limits (or, in other words, the segmentation of SHC 511s into frames). Using the V matrix 519' to perform this interpolation and then retrieving the U matrices 519C based on the V interpolated matrix 519' of the SHC 511 can smooth out any effects of reordering the U matrix 519C.

[0975] Em operação, a unidade de interpolação 550 pode interpolar um ou mais subquadros de um primeiro quadro de áudio de uma primeira decomposição, por exemplo, a matriz V 519’, de uma porção de uma primeira pluralidade de coeficientes harmônicos esféricos 511 incluída no primeiro quadro e uma segunda decomposição, por exemplo, a matriz V 519' de uma porção de uma segunda pluralidade de coeficientes harmônicos esféricos 511 incluída em um segundo quadro para gerar os coeficientes harmônicos esféricos interpolados decompostos para os um ou mais subquadros.[0975] In operation, the interpolation unit 550 may interpolate one or more subframes of a first audio frame of a first decomposition, e.g., the V matrix 519', from a portion of a first plurality of spherical harmonic coefficients 511 included in the first frame and a second decomposition, for example, matrix V 519' of a portion of a second plurality of spherical harmonic coefficients 511 included in a second frame to generate the decomposed interpolated spherical harmonic coefficients for the one or more subframes.

[0976] Em alguns exemplos, a primeira decomposição compreende a primeira matriz V 519' representativa dos vetores singulares à direita da porção da primeira pluralidade de coeficientes harmônicos esféricos 511. Igualmente, em alguns exemplos, a segunda decomposição compreende a segunda matriz V 519' representativa dos vetores singulares à direita da porção da segunda pluralidade de coeficientes harmônicos esféricos.[0976] In some examples, the first decomposition comprises the first matrix V 519' representative of the singular vectors to the right of the portion of the first plurality of spherical harmonic coefficients 511. Likewise, in some examples, the second decomposition comprises the second matrix V 519' representative of the singular vectors to the right of the portion of the second plurality of spherical harmonic coefficients.

[0977] A unidade de interpolação 550 pode realizar uma interpolação temporal em relação aos um ou mais subquadros com base na primeira matriz V 519’ e na segunda matriz V 519’. Isto é, a unidade de interpolação 550 pode interpolar temporariamente, por exemplo, o segundo, o terceiro e o quarto subquadros dentre quatro subquadros totais para o primeiro quadro de áudio com base em uma matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio e a matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio. Em alguns exemplos, essa interpolação temporal é uma interpolação temporal linear, em que a matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio é ponderada mais pesada ao interpolar o segundo subquadro do primeiro quadro de áudio do que ao interpolar o quarto subquadro do primeiro quadro de áudio. Ao interpolar o terceiro subquadro, as matrizes V 519’ podem ser ponderadas igualmente. Ao interpolar o quarto subquadro, a matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio pode ser mais pesadamente ponderada do que a matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio.[0977] The interpolation unit 550 may perform temporal interpolation with respect to the one or more subframes based on the first V matrix 519' and the second V matrix 519'. That is, the interpolation unit 550 can temporarily interpolate, for example, the second, third and fourth subframes out of four total subframes for the first audio frame based on a V matrix 519' decomposed from the first subframe of the first audio frame and the V matrix 519' decomposed from the first subframe of the second audio frame. In some examples, this temporal interpolation is a linear temporal interpolation, where the matrix V 519' decomposed from the first subframe of the first audio frame is weighted heavier when interpolating the second subframe of the first audio frame than when interpolating the fourth subframe of the first audio frame. By interpolating the third subframe, the V arrays 519' can be weighted equally. By interpolating the fourth subframe, the V matrix 519' decomposed from the first subframe of the second audio frame can be more heavily weighted than the V matrix 519' decomposed from the first subframe of the first audio frame.

[0978] Em outras palavras, a interpolação temporal linear pode ponderar as matrizes V 519’ dada a proximidade de um dos subquadros do primeiro quadro de áudio a ser interpolado. Para o segundo subquadro a ser interpolado, a matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio é ponderada mais pesadamente dada a sua proximidade ao segundo subquadro a ser interpolado do que a matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio. Os pesos podem ser equivalentes por essa razão ao interpolar o terceiro subquadro com base nas matrizes V 519’. O peso aplicado à matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio pode ser maior do que este aplicado à matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio dado que o quarto subquadro a ser interpolado é mais próximo ao primeiro subquadro do segundo quadro de áudio do que ao primeiro subquadro do primeiro quadro de áudio.[0978] In other words, linear temporal interpolation can weight V 519' matrices given the proximity of one of the subframes of the first audio frame to be interpolated. For the second subframe to be interpolated, the V matrix 519' decomposed from the first subframe of the first audio frame is weighted more heavily given its proximity to the second subframe to be interpolated than the V matrix 519' decomposed from the first subframe of the second audio frame. The weights can be equivalent for that reason when interpolating the third subframe based on the V 519' matrices. The weight applied to the V matrix 519' decomposed from the first subframe of the second audio frame can be greater than that applied to the V matrix 519' decomposed from the first subframe of the first audio frame as the fourth subframe is to be interpolated is closer to the first subframe of the second audio frame than to the first subframe of the first audio frame.

[0979] Embora, em alguns exemplos, apenas um primeiro subquadro de cada quadro de áudio seja usado para realizar a interpolação, a porção da primeira pluralidade de coeficientes harmônicos esféricos pode compreender dois de quatro subquadros da primeira pluralidade de coeficientes harmônicos esféricos 511. Nesses e em outros exemplos, a porção da segunda pluralidade de coeficientes harmônicos esféricos 511 compreende dois de quatro subquadros da segunda pluralidade de coeficientes harmônicos esféricos 511.[0979] Although, in some examples, only a first subframe of each audio frame is used to perform the interpolation, the portion of the first plurality of spherical harmonic coefficients may comprise two of four subframes of the first plurality of spherical harmonic coefficients 511. In such and in other examples, the portion of the second plurality of spherical harmonic coefficients 511 comprises two of four subframes of the second plurality of spherical harmonic coefficients 511.

[0980] Conforme notado acima, um único dispositivo, por exemplo, o dispositivo de codificação de áudio 510H, pode realizar a interpolação enquanto também decompõe a porção da primeira pluralidade de coeficientes harmônicos esféricos para gerar as primeiras decomposições da porção da primeira pluralidade de coeficientes harmônicos esféricos. Nesses e em outros exemplos, a unidade de decomposição 518 pode decompor a porção da segunda pluralidade de coeficientes harmônicos esféricos para gerar as segundas decomposições da porção da segunda pluralidade de coeficientes harmônicos esféricos 511. Embora descritas em relação a um único dispositivo, dois ou mais dispositivos podem realizar as técnicas descritas nesta revelação, em que um dos dois dispositivos realiza a decomposição e o outro dentre os dispositivos realiza a interpolação em conformidade com as técnicas descritas nesta revelação.[0980] As noted above, a single device, for example the audio encoding device 510H, can perform the interpolation while also decomposing the portion of the first plurality of spherical harmonic coefficients to generate the first decompositions of the portion of the first plurality of coefficients spherical harmonics. In these and other examples, the decomposition unit 518 may decompose the portion of the second plurality of spherical harmonic coefficients to generate the second decompositions of the portion of the second plurality of spherical harmonic coefficients 511. Although described with respect to a single device, two or more devices can perform the techniques described in this disclosure, wherein one of the two devices performs the decomposition and the other of the devices performs the interpolation in accordance with the techniques described in this disclosure.

[0981] Em outras palavras, o áudio 3D com base em harmônicas esféricas pode ser uma representação paramétrica do campo de pressão 3D em termos de funções de base ortogonal em uma esfera. Quanto maior a ordem N da representação, potencialmente maior é a resolução espacial e, frequentemente, maior é o número de coeficientes harmônicos esféricos (SH) (para um total de (N+1)2 coeficientes). Para muitas aplicações, uma compressão de largura de banda dos coeficientes pode ser exigida para ter a capacidade de transmitir e armazenar os coeficientes eficazmente. Essas técnicas direcionadas nesta revelação podem fornecer um processo de redução de dimensionalidade com base em quadro que usa a Decomposição de Valor Singular (SVD). A análise SVD pode decompor cada quadro de coeficientes em três matrizes U, S e V. Em alguns exemplos, as técnicas podem manipular alguns dos vetores em U como componentes direcionais do campo sonoro subjacente. Entretanto, quando manipulados dessa maneira, esses vetores (em U) são descontínuos de quadro para quadro - embora os mesmos representem o mesmo componente de áudio distinto. Essas descontinuidades podem levar a artefatos significativos quando os componentes são alimentados através de codificadores de áudio de transformada.[0981] In other words, 3D audio based on spherical harmonics can be a parametric representation of the 3D pressure field in terms of orthogonal basis functions on a sphere. The higher the N order of the representation, the potentially higher the spatial resolution and often the greater the number of spherical harmonic (SH) coefficients (for a total of (N+1)2 coefficients). For many applications, bandwidth compression of the coefficients may be required to be able to efficiently transmit and store the coefficients. These techniques addressed in this disclosure can provide a frame-based dimensionality reduction process that uses Singular Value Decomposition (SVD). SVD analysis can decompose each frame of coefficients into three matrices U, S, and V. In some examples, the techniques can manipulate some of the U-vectors as directional components of the underlying sound field. However, when manipulated in this way, these (U-shaped) vectors are discontinuous from frame to frame - even though they represent the same distinct audio component. These discontinuities can lead to significant artifacts when components are fed through transform audio encoders.

[0982] As técnicas descritas nesta revelação podem abordar essa descontinuidade. Isto é, as técnicas podem se basear na observação de que a matriz V pode ser interpretada como eixos geométricos espaciais ortogonais no domínio de Harmônicas Esféricas. A matriz U pode representar uma projeção dos dados de Harmônicas Esféricas (HOA) em termos daquelas funções de base, em que a descontinuidade pode ser atribuída às funções de base (V) que mudam a cada quadro - e são, portanto, descontínuas. Isso é diferente da decomposição similar, tal como a Transformada de Fourier, em que as funções de base são, em alguns exemplos, constantes de quadro para quadro. Nesses termos, a SVD pode ser considerada como um algoritmo de busca de compatibilidade. As técnicas descritas nesta revelação podem permitir a unidade de interpolação 550 para manter a continuidade entre as funções de base (V) de quadro para quadro - através da interpolação entre os mesmos.[0982] The techniques described in this disclosure can address this discontinuity. That is, the techniques can be based on the observation that the matrix V can be interpreted as orthogonal spatial geometric axes in the domain of Spherical Harmonics. The matrix U can represent a projection of the Spherical Harmonics (HOA) data in terms of those basis functions, where the discontinuity can be attributed to the basis functions (V) that change every frame - and are therefore discontinuous. This is different from similar decomposition, such as the Fourier Transform, where the basis functions are, in some instances, constants from frame to frame. In these terms, SVD can be considered as a compatibility search algorithm. The techniques described in this disclosure may allow the interpolation unit 550 to maintain continuity between the base (V) functions from frame to frame - by interpolation therebetween.

[0983] Em alguns exemplos, as técnicas permitem que a unidade de interpolação 550 divida o quadro dos dados de SH em quatro subquadros, conforme descrito acima e adicionalmente descrito abaixo em relação às Figuras. 45 e 45B. A unidade de interpolação 550 pode, então, computar a SVD para o primeiro subquadro. Similarmente, computa-se a SVD para o primeiro subquadro do segundo quadro. Para cada um dentre o primeiro quadro e o segundo quadro, a unidade de interpolação 550 pode converter os vetores em V em um mapa espacial projetando-se os vetores em uma esfera (com o uso de uma matriz de projeção tal como uma matriz de projeto T). A unidade de interpolação 550 pode, então, interpretar os vetores em V como formados em uma esfera. Para interpolar as matrizes V para os três subquadros entre o primeiro subquadro do primeiro quadro o primeiro subquadro do próximo quadro, a unidade de interpolação 550 pode, então, interpolar esses formatos espaciais - e, então, transformar os mesmos de volta para vetores de SH por meio da inversão da matriz de projeção. As técnicas desta revelação podem, dessa maneira, fornecer uma transição suave entre as matrizes V.[0983] In some examples, the techniques allow the interpolation unit 550 to divide the frame of the SH data into four subframes, as described above and further described below with respect to the Figures. 45 and 45B. The interpolation unit 550 can then compute the SVD for the first subframe. Similarly, the SVD is computed for the first subframe of the second frame. For each of the first frame and second frame, the interpolation unit 550 can convert the V vectors into a spatial map by projecting the vectors onto a sphere (using a projection matrix such as a design matrix). T). The interpolation unit 550 can then interpret the vectors in V as formed on a sphere. To interpolate the V matrices for the three subframes between the first subframe of the first frame and the first subframe of the next frame, the interpolation unit 550 can then interpolate these spatial formats - and then transform them back to vectors of SH through the inversion of the projection matrix. The techniques of this disclosure can thus provide a smooth transition between V matrices.

[0984] Desse modo, o dispositivo de codificação de áudio 510H pode ser configurado para realizar vários aspectos das técnicas estabelecidas abaixo em relação às cláusulas a seguir.[0984] In this way, the 510H audio encoding device can be configured to perform various aspects of the techniques set forth below in relation to the following clauses.

[0985] Cláusula 135054-1A. Um dispositivo, tal como o dispositivo de codificação de áudio 510H, que compreende: um ou mais processadores configurados para interpolar um ou mais subquadros de um primeiro quadro de uma primeira decomposição de uma porção de uma primeira pluralidade de coeficientes harmônicos esféricos incluída no primeiro quadro e uma segunda decomposição de uma porção de uma segunda pluralidade de coeficientes harmônicos esféricos incluída em um segundo quadro para gerar os coeficientes harmônicos esféricos interpolados decompostos para os um ou mais subquadros.[0985] Clause 135054-1A. A device, such as audio encoding device 510H, comprising: one or more processors configured to interpolate one or more subframes of a first frame from a first decomposition of a portion of a first plurality of spherical harmonic coefficients included in the first frame and a second decomposition of a portion of a second plurality of spherical harmonic coefficients included in a second frame to generate the decomposed interpolated spherical harmonic coefficients for the one or more subframes.

[0986] Cláusula 135054-2A. O dispositivo da cláusula 135054-1A, em que a primeira decomposição compreende uma primeira matriz V representativa dos vetores singulares à direita da porção da primeira pluralidade de coeficientes harmônicos esféricos.[0986] Clause 135054-2A. The device of clause 135054-1A, wherein the first decomposition comprises a first matrix V representative of the singular vectors to the right of the portion of the first plurality of spherical harmonic coefficients.

[0987] Cláusula 135054-3A. O dispositivo da cláusula 135054-1A, em que a segunda decomposição compreende uma segunda matriz V representativa dos vetores singulares à direita da porção da segunda pluralidade de coeficientes harmônicos esféricos.[0987] Clause 135054-3A. The device of clause 135054-1A, wherein the second decomposition comprises a second matrix V representative of the singular vectors to the right of the portion of the second plurality of spherical harmonic coefficients.

[0988] Cláusula 135054-4A. O dispositivo da cláusula 135054-1A, em que a primeira decomposição compreende uma primeira matriz V representativa dos vetores singulares à direita da porção da primeira pluralidade de coeficientes harmônicos esféricos, e em que a segunda decomposição compreende uma segunda matriz V representativa dos vetores singulares à direita da porção da segunda pluralidade de coeficientes harmônicos esféricos.[0988] Clause 135054-4A. The device of clause 135054-1A, wherein the first decomposition comprises a first matrix V representative of the singular vectors to the right of the portion of the first plurality of spherical harmonic coefficients, and wherein the second decomposition comprises a second matrix V representative of the singular vectors to the right. right of the portion of the second plurality of spherical harmonic coefficients.

[0989] Cláusula 135054-5A. O dispositivo da cláusula 135054-1 A, em que os um ou mais processadores são adicionalmente configurados para, ao interpolar os um ou mais subquadros, interpolar temporariamente os um ou mais subquadros com base na primeira decomposição e na segunda decomposição.[0989] Clause 135054-5A. The device of clause 135054-1A, wherein the one or more processors are further configured to, when interpolating the one or more subframes, temporarily interpolate the one or more subframes based on the first decomposition and the second decomposition.

[0990] Cláusula 135054-6A. O dispositivo da cláusula 135054-1A, em que os um ou mais processadores são adicionalmente configurados para, ao interpolar os um ou mais subquadros, projetar a primeira decomposição em um domínio espacial para gerar as primeiras decomposições projetadas, projetar a segunda decomposição no domínio espacial para gerar as segundas decomposições projetadas, interpolar espacialmente as primeiras decomposições projetadas e as segundas decomposições projetadas para gerar uma primeira decomposição projetada espacialmente interpolada e uma segunda decomposição projetada espacialmente interpolada e interpolar temporariamente os um ou mais subquadros com base na primeira decomposição projetada espacialmente interpolada e a segunda decomposição projetada espacialmente interpolada.[0990] Clause 135054-6A. The provision of clause 135054-1A, wherein the one or more processors are additionally configured to, by interpolating the one or more subframes, project the first decomposition into a spatial domain to generate the first projected decompositions, project the second decomposition into the spatial domain to generate the second projected decompositions, spatially interpolate the first projected decompositions and the second projected decompositions to generate a spatially interpolated first projected decomposition and a second spatially interpolated projected decomposition, and temporarily interpolate the one or more subframes based on the first spatially interpolated projected decomposition, and the second spatially interpolated projected decomposition.

[0991] Cláusula 135054-7A. O dispositivo da cláusula 135054-6A, em que os um ou mais processadores são adicionalmente configurados para projetar os coeficientes harmônicos esféricos temporariamente interpolados que resultam da interpolação dos um ou mais subquadros de volta para um domínio harmônico esférico.[0991] Clause 135054-7A. The device of clause 135054-6A, wherein the one or more processors are further configured to project the temporarily interpolated spherical harmonic coefficients that result from interpolating the one or more subframes back into a spherical harmonic domain.

[0992] Cláusula 135054-8A. O dispositivo da cláusula 135054-1A, em que a porção da primeira pluralidade de coeficientes harmônicos esféricos compreende um único subquadro da primeira pluralidade de coeficientes harmônicos esféricos.[0992] Clause 135054-8A. The device of clause 135054-1A, wherein the portion of the first plurality of spherical harmonic coefficients comprises a single subframe of the first plurality of spherical harmonic coefficients.

[0993] Cláusula 135054-9A. O dispositivo da cláusula 135054-1A, em que a porção da segunda pluralidade de coeficientes harmônicos esféricos compreende um único subquadro da segunda pluralidade de coeficientes harmônicos esféricos.[0993] Clause 135054-9A. The device of clause 135054-1A, wherein the portion of the second plurality of spherical harmonic coefficients comprises a single subframe of the second plurality of spherical harmonic coefficients.

[0994] Cláusula 135054-10A. O dispositivo da cláusula 135054-1A,[0994] Clause 135054-10A. The provision of clause 135054-1A,

[0995] em que o primeiro quadro é dividido em quatro subquadros, e[0995] where the first frame is divided into four subframes, and

[0996] em que a porção da primeira pluralidade de coeficientes harmônicos esféricos compreende apenas o primeiro subquadro da primeira pluralidade de coeficientes harmônicos esféricos.[0996] wherein the portion of the first plurality of spherical harmonic coefficients comprises only the first subframe of the first plurality of spherical harmonic coefficients.

[0997] Cláusula 135054-11A. O dispositivo da cláusula 135054-1A,[0997] Clause 135054-11A. The provision of clause 135054-1A,

[0998] em que o segundo quadro é dividido em quatro subquadros, e[0998] where the second frame is divided into four subframes, and

[0999] em que a porção da segunda pluralidade de coeficientes harmônicos esféricos compreende apenas o primeiro subquadro da segunda pluralidade de coeficientes harmônicos esféricos.[0999] wherein the portion of the second plurality of spherical harmonic coefficients comprises only the first subframe of the second plurality of spherical harmonic coefficients.

[1000] Cláusula 135054-12A. O dispositivo da cláusula 135054-1A, em que a porção da primeira pluralidade de coeficientes harmônicos esféricos compreende dois de quatro subquadros da primeira pluralidade de coeficientes harmônicos esféricos.[1000] Clause 135054-12A. The device of clause 135054-1A, wherein the portion of the first plurality of spherical harmonic coefficients comprises two of four subframes of the first plurality of spherical harmonic coefficients.

[1001] Cláusula 135054-13A. O dispositivo da cláusula 135054-1A, em que a porção da segunda pluralidade de coeficientes harmônicos esféricos compreende dois de quatro subquadros da segunda pluralidade de coeficientes harmônicos esféricos.[1001] Clause 135054-13A. The device of clause 135054-1A, wherein the portion of the second plurality of spherical harmonic coefficients comprises two of four subframes of the second plurality of spherical harmonic coefficients.

[1002] Cláusula 135054-14A. O dispositivo da cláusula 135054-1A, em que os um ou mais processadores são adicionalmente configurados para decompor a porção da primeira pluralidade de coeficientes harmônicos esféricos para gerar as primeiras decomposições da porção da primeira pluralidade de coeficientes harmônicos esféricos.[1002] Clause 135054-14A. The device of clause 135054-1A, wherein the one or more processors are further configured to decompose the portion of the first plurality of spherical harmonic coefficients to generate first decompositions of the portion of the first plurality of spherical harmonic coefficients.

[1003] Cláusula 135054- 15 A. O dispositivo da cláusula 135054-1 A, em que os um ou mais processadores são adicionalmente configurados para decompor a porção da segunda pluralidade de coeficientes harmônicos esféricos para gerar as segundas decomposições da porção da segunda pluralidade de coeficientes harmônicos esféricos.[1003] Clause 135054-15A. The device of clause 135054-1A, wherein the one or more processors are further configured to decompose the portion of the second plurality of spherical harmonic coefficients to generate the second decompositions of the portion of the second plurality of spherical harmonic coefficients.

[1004] Cláusula 135054-16A. O dispositivo da cláusula 135054-1A, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação à porção da primeira pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da primeira pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da primeira pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da primeira pluralidade de coeficientes harmônicos esféricos.[1004] Clause 135054-16A. The device of clause 135054-1A, wherein the one or more processors are further configured to perform a singular value decomposition with respect to the portion of the first plurality of spherical harmonic coefficients to generate a matrix U representative of left singular vectors of the first plurality of spherical harmonic coefficients, a matrix S representative of singular values of the first plurality of spherical harmonic coefficients and a matrix V representative of singular vectors to the right of the first plurality of spherical harmonic coefficients.

[1005] Cláusula 135054- 17A. O dispositivo de cláusula 135054-1A, em que o um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação à porção da segunda pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U representante de vetores singulares à esquerda da segunda pluralidade de coeficientes harmônicos esféricos, uma matriz S representante de valores singulares da segunda pluralidade de coeficientes harmônicos esféricos e uma matriz V representante de vetores singulares à direita da segunda pluralidade de coeficientes harmônicos esféricos.[1005] Clause 135054-17A. The clause device 135054-1A, wherein the one or more processors are further configured to perform a singular value decomposition with respect to the portion of the second plurality of spherical harmonic coefficients to generate a matrix U representing left singular vectors of the second plurality of spherical harmonic coefficients, a matrix S representing singular values of the second plurality of spherical harmonic coefficients and a matrix V representing singular vectors to the right of the second plurality of spherical harmonic coefficients.

[1006] Cláusula 135054-18A. O dispositivo de cláusula 135054-1A, em que cada uma dentre a primeira e a segunda pluralidade de coeficientes harmônicos esféricos representa uma representação de onda plana do campo sonoro.[1006] Clause 135054-18A. The device of clause 135054-1A, wherein each of the first and second plurality of spherical harmonic coefficients represents a plane wave representation of the sound field.

[1007] Cláusula 135054-19A. O dispositivo de cláusula 135054-1A, em que cada uma dentre a primeira e a segunda pluralidade de coeficientes harmônicos esféricos representa um ou mais objetos de áudio mono misturados entre si.[1007] Clause 135054-19A. The clause device 135054-1A, wherein each of the first and second plurality of spherical harmonic coefficients represents one or more mono audio objects mixed together.

[1008] Cláusula 135054-20A. O dispositivo de cláusula 135054-1A, em que cada uma dentre a primeira e a segunda pluralidade de coeficientes harmônicos esféricos compreende os respectivos primeiro e segundo coeficientes harmônicos esféricos que representam um campo sonoro tridimensional. [0952] cláusula 135054-21A. O dispositivo de cláusula 135054-1A, em que cada uma dentre a primeira e a segunda pluralidade de coeficientes harmônicos esféricos é associada a pelo menos uma função de base esférica que tem uma ordem maior do que um.[1008] Clause 135054-20A. The device of clause 135054-1A, wherein each of the first and second plurality of spherical harmonic coefficients comprises respective first and second spherical harmonic coefficients representing a three-dimensional sound field. [0952] clause 135054-21A. The device of clause 135054-1A, wherein each of the first and second plurality of spherical harmonic coefficients is associated with at least one spherical basis function that has an order greater than one.

[1009] Cláusula 135054-22A. O dispositivo de cláusula 135054-1A, em que cada uma dentre a primeira e a segunda pluralidade de coeficientes harmônicos esféricos é associada a pelo menos uma função de base esférica que tem uma ordem igual a quatro.[1009] Clause 135054-22A. The device of clause 135054-1A, wherein each of the first and second plurality of spherical harmonic coefficients is associated with at least one spherical basis function that has an order of four.

[1010] Embora descrito acima como sendo realizados pelo dispositivo de codificação de áudio exemplificativo 510H, os vários dispositivos de decodificação de áudio 24 e 540 também podem realizar qualquer um dos vários aspectos das técnicas estabelecidas em relação às cláusulas 135054-1A até 135054-22A.[1010] While described above as being performed by the exemplary audio encoding device 510H, the various audio decoding devices 24 and 540 may also perform any of various aspects of the techniques set forth in connection with clauses 135054-1A through 135054-22A .

[1011] A Figura 40I é um diagrama de blocos que ilustra um dispositivo de codificação de áudio exemplificativo 510I que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descrevem dois ou mais campos sonoros tridimensionais. O dispositivo de codificação de áudio exemplificativo 510I pode ser similar ao dispositivo de codificação de áudio exemplificativo 510H em que o dispositivo de codificação de áudio exemplificativo 510I inclui uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de fluxo de bits 516. Além disso, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio exemplificativo 510I pode ser similar à do dispositivo de codificação de áudio exemplificativo 510H em que a unidade de compressão de áudio 512 inclui uma unidade de decomposição 518 e uma unidade de extração de componente de campo sonoro 520, que pode operar similarmente às unidades semelhantes do dispositivo de codificação de áudio exemplificativo 510H. Em alguns exemplos, o dispositivo de codificação de áudio exemplificativo 10I pode incluir uma unidade de quantização 351/500 34, conforme descrito em relação às Figuras 3D e 3E, para quantizar um ou mais vetores de qualquer um dentre UDIST 25C, UBG 25D, VTDIST 25E e VTBG 25J.[1011] Fig. 40I is a block diagram illustrating an exemplary audio encoding device 510I that can perform various aspects of the techniques described in this disclosure to compress spherical harmonic coefficients that describe two or more three-dimensional sound fields. The exemplary audio encoding device 510I may be similar to the exemplary audio encoding device 510H wherein the exemplary audio encoding device 510I includes an audio compression unit 512, an audio encoding unit 514, and a generation unit. 516. In addition, the audio compression unit 512 of the exemplary audio encoding device 510I may be similar to that of the exemplary audio encoding device 510H wherein the audio compression unit 512 includes a decomposition unit. 518 and a sound field component extraction unit 520, which may operate similarly to similar units of the exemplary audio encoding device 510H. In some examples, the exemplary audio coding device 10I may include a quantizing unit 351/500 34, as described in connection with Figures 3D and 3E, for quantizing one or more vectors of any one of UDIST 25C, UBG 25D, VTDIST 25E and VTBG 25J.

[1012] Entretanto, embora tanto a unidade de compressão de áudio 512 do dispositivo de codificação de áudio exemplificativo 510I quanto a unidade de compressão de áudio 512 do dispositivo de codificação de áudio exemplificativo 10H incluam uma unidade de extração de componente de campo sonoro, a unidade de extração de componente de campo sonoro 520I do dispositivo de codificação de áudio exemplificativo 510I pode incluir um módulo adicional referido como unidade de compressão V 552. A unidade de compressão V 552 pode representar uma unidade configurada para comprimir um componente espacial do campo sonoro, isto é, um ou mais dos vetores VTDIST 539 nesse exemplo. Isto é, a decomposição de valor singular realizada em relação aos SHC pode decompor os SHC (que é representante do campo sonoro) em componentes de energia representados por vetores da matriz S, componentes de tempo representados pela matriz U e componentes especiais representados pela matriz V. A unidade de compressão V 552 pode realizar as operações similares àquelas descritas acima em relação à unidade de quantização 52.[1012] However, although both the audio compression unit 512 of the exemplary audio coding device 510I and the audio compression unit 512 of the exemplary audio coding device 10H include a sound field component extraction unit, the Sound field component extraction unit 520I of exemplary audio encoding device 510I may include an additional module referred to as V compression unit 552. V compression unit 552 may represent a unit configured to compress a spatial component of the sound field, that is, one or more of the VTDIST 539 vectors in this example. That is, the singular value decomposition performed in relation to the SHC can decompose the SHC (which is representative of the sound field) into energy components represented by vectors of the matrix S, time components represented by the matrix U and special components represented by the matrix V The V compression unit 552 can perform operations similar to those described above with respect to the quantization unit 52.

[1013] Para propósitos de exemplo, os vetores VTDIST 539 são considerados para compreender dois vetores em fileira que têm 25 elementos cada (o que implica uma representação de HOA de quarta ordem do campo sonoro). Embora descrito em relação aos dois vetores em fileira, qualquer número de vetores pode ser incluído nos vetores VTDIST 539 até (N+1)2, onde n denota a ordem da representação de HOA do campo sonoro.[1013] For example purposes, the VTDIST 539 vectors are assumed to comprise two row vectors that have 25 elements each (implying a fourth-order HOA representation of the sound field). Although described in relation to the two vectors in a row, any number of vectors can be included in the VTDIST vectors 539 through (N+1)2, where n denotes the order of the HOA representation of the sound field.

[1014] A unidade de compressão V pode receber os vetores VTDIST 539 e realizar um esquema de compressão 352/500 para gerar representações de vetor comprimido VTDIST 539’. Esse esquema de compressão pode envolver qualquer esquema de compressão concebível para comprimir os elementos de um vetor ou geralmente dados, e não deve ser limitado ao exemplo descrito abaixo em mais detalhes.[1014] The compression unit V can receive the VTDIST 539 vectors and perform a 352/500 compression scheme to generate VTDIST 539' compressed vector representations. This compression scheme can involve any conceivable compression scheme for compressing the elements of an array or generally data, and should not be limited to the example described below in more detail.

[1015] A unidade de compressão V 552 pode realizar, como um exemplo, um esquema de compressão que inclui um ou mais dentre transformar representações de ponto flutuante de cada elemento dos vetores VTDIST 539 para representações inteiras de cada elemento dos vetores VTDIST 539, uniformizar a quantização das representações inteiras dos vetores VTDIST 539 e categorização e codificação das representações inteiras quantizadas dos vetores VTDIST 539. Vários dos um ou mais processos desse esquema de compressão podem ser controlados dinamicamente por parâmetros para alcançar ou quase alcançar, como um exemplo, uma taxa de bits alvo para o fluxo de bits resultante 517.[1015] The VTDIST 552 compression unit can perform, as an example, a compression scheme that includes one or more of transforming floating-point representations of each element of the VTDIST 539 vectors to integer representations of each element of the VTDIST 539 vectors, standardizing the quantization of the integer representations of the VTDIST 539 vectors; and the categorization and encoding of the quantized integer representations of the VTDIST 539 vectors. Several of the one or more processes of this compression scheme can be dynamically controlled by parameters to reach or almost reach, as an example, a rate of target bits for the resulting bitstream 517.

[1016] Dado que cada um dos vetores VTDIST 539 são ortonormais entre si, cada um dos vetores VTDIST 539 pode ser codificado independentemente. Em alguns exemplos, conforme descrito em mais detalhes abaixo, cada elemento de cada vetor VTDIST 539 pode ser codificado com o uso do mesmo modo de codificação (definido por vários sub-modos).[1016] Since each of the VTDIST 539 vectors are orthonormal to each other, each of the VTDIST 539 vectors can be encoded independently. In some examples, as described in more detail below, each element of each VTDIST 539 array can be encoded using the same encoding mode (defined by various sub-modes).

[1017] Em qualquer caso, conforme observado acima, esse esquema de codificação pode envolver primeiro transformar as representações de ponto flutuante de cada elemento (que é, em alguns exemplos, um número de ponto de flutuamento de 32 bits) de cada um dos vetores VTDIST 539 para uma representação inteira de 16 bits. A unidade de compressão V 552 pode realizar essas transformações de ponto flutuante para inteiro multiplicando-se cada elemento de um dado um dos vetores VTDIST 539 por 215, que é, em alguns exemplos, realizado por um deslocamento à direita 353/500 por 15.[1017] In any case, as noted above, this encoding scheme may involve first transforming the floating-point representations of each element (which is, in some examples, a 32-bit floating-point number) of each of the vectors VTDIST 539 for a 16-bit integer representation. The V 552 compression unit can perform these floating-point-to-integer transformations by multiplying each element of a given one of the VTDIST 539 vectors by 215, which is, in some examples, performed by a right shift 353/500 by 15.

[1018] A unidade de compressão V 552 pode, então, realizar a quantização uniforme em relação a todos os elementos do dado um dos vetores VTDIST 539. A unidade de compressão V 552 pode identificar um tamanho de etapa de quantização com base em um valor, que pode ser denotado como um parâmetro de nbits. A unidade de compressão V 552 pode dinamicamente determinar esse parâmetro de nbits com base em uma taxa de bits alvo. A unidade de compressão V 552 pode determinar o tamanho de etapa de quantização como uma função desse parâmetro de nbits. Como um exemplo, a unidade de compressão V 552 pode determinar o tamanho de etapa de quantização (denotada como “delta” ou “ ” nesta revelação) como igual a 2l6-nbits. Nesse exemplo, se nbits é igual a seis, delta é igual a 210 e existem 26 níveis de quantização. Nesse aspecto, para um elemento de vetor , o elemento de vetor quantizado q é igual a

Figure img0062
Figure img0063
[1018] The compression unit V 552 can then perform uniform quantization with respect to all elements of the data one of the vectors VTDIST 539. The compression unit V 552 can identify a quantization step size based on a value , which can be denoted as an nbits parameter. The V compression unit 552 can dynamically determine this nbit parameter based on a target bit rate. The V compression unit 552 can determine the quantization step size as a function of this nbit parameter. As an example, the V 552 compression unit can set the quantization step size (denoted as “delta” or “ ” in this disclosure) to be equal to 2l6-nbits. In this example, if nbits equals six, delta equals 210 and there are 26 levels of quantization. In this respect, for a vector element , the quantized vector element q is equal to
Figure img0062
Figure img0063

[1019] A unidade de compressão V 552 pode, então, realizar a categorização e a codificação residual dos elementos de vetor quantizados. Como um exemplo, a unidade de compressão V 552 pode, para um dado elemento de vetor quantizado q identificar uma categoria (determinando-se um identificador de categoria cid) a qual esse elemento corresponde com o uso da equação a seguir:

Figure img0064
[1019] The V compression unit 552 can then perform categorization and residual encoding of the quantized vector elements. As an example, the compression unit V 552 can, for a given quantized vector element q identify a category (by determining a category identifier cid) to which that element corresponds using the following equation:
Figure img0064

[1020] A unidade de compressão V 552 pode, então, codificar por Huffman esse cid de índice de categoria, enquanto também identifica um bit de sinal que indica se q é um valor positivo ou um valor negativo. A unidade de compressão V 552 pode identificar a seguir um resíduo nessa categoria. Como um exemplo, a unidade de 354/500 compressão V 552 pode determinar esse resíduo de acordo com a equação a seguir:

Figure img0065
[1020] The V compression unit 552 can then Huffman-encode this category index cid, while also identifying a sign bit that indicates whether q is a positive value or a negative value. The V 552 compression unit can next identify a residue in this category. As an example, the 354/500 compression unit V 552 can determine this residual according to the following equation:
Figure img0065

[1021] A unidade de compressão V 552 pode, então, codificar em bloco esse resíduo com cid-l bits.[1021] The V compression unit 552 can then block encode this residue with cid-l bits.

[1022] O exemplo a seguir ilustra um exemplo simplificado dessa categorização e processo de codificação residual. Primeiro, assume-se que nbits é igual a seis de modo que q [-31,31]. A seguir, assume-se o seguinte:

Figure img0066
[1022] The following example illustrates a simplified example of this categorization and residual encoding process. First, nbits is assumed to be six so that q [-31,31]. The following is assumed:
Figure img0066

[1023] Além disso, assume-se o seguinte:

Figure img0067
Figure img0068
[1023] In addition, the following is assumed:
Figure img0067
Figure img0068

[1024] Assim, para um q = [6, -17, 0, 0, 3], o seguinte pode ser determinado:[1024] So for a q = [6, -17, 0, 0, 3], the following can be determined:

[1025] » cid = 3,5,0,0,2[1025] » cid = 3,5,0,0,2

[1026] » sinal = 1,0,x,x,l[1026] » sign = 1,0,x,x,l

[1027] » resíduo = 2,1,x,x, 1[1027] » residual = 2,1,x,x, 1

[1028] » Bits para 6 = ‘0010’ + ‘ + ‘ 10’[1028] » Bits for 6 = '0010' + ' + '10'

[1029] » Bits para -17 = ‘00111 ‘ + ‘0’ + ‘0001 ‘[1029] » Bits for -17 = '00111 ' + '0' + '0001 '

[1030] » Bits para 0 = ‘0’[1030] » Bits for 0 = ‘0’

[1031] » Bits para 0 = ‘0’[1031] » Bits for 0 = '0'

[1032] » Bits para 3 = ‘000 ‘ + ‘1’ + ‘1 ‘[1032] » Bits for 3 = '000 ' + '1' + '1 '

[1033] » Bits Total = 7+ 10+ 1 + 1 +5 = 24[1033] » Total Bits = 7+ 10+ 1 + 1 +5 = 24

[1034] » Bits médio = 24/5 = 4,8[1034] » Average bits = 24/5 = 4.8

[1035] Embora não mostrado no exemplo simplificado supracitado, a unidade de compressão V 552 pode selecionar diferentes livros de códigos de Huffman para diferentes valores de nbits durante a codificação do cid. Em alguns exemplos, a unidade de compressão V 552 pode fornecer uma tabela de codificação de Huffman diferente para valores de nbits 6,..., 15. Além disso, a unidade de compressão V 552 pode incluir cinco livros de códigos de 356/500 Huffman diferentes para cada um dos diferentes valores de nbits na faixa de 6, 15 para um total de 50 livros de códigos de Huffman. Nesse aspecto, a unidade de compressão V 552 pode incluir uma pluralidade de diferentes livros de códigos de Huffman para acomodar a codificação do cid em diversos contextos estatísticos diferentes.[1035] Although not shown in the above simplified example, the V 552 compression unit can select different Huffman codebooks for different nbit values during cid encoding. In some examples, the compression unit V 552 may provide a different Huffman codebook for values of nbits 6,..., 15. In addition, the compression unit V 552 may include five 356/500 codebooks. different Huffman values for each of the different nbit values in the range of 6, 15 for a total of 50 Huffman codebooks. In this regard, the V compression unit 552 may include a plurality of different Huffman codebooks to accommodate cid encoding in a number of different statistical contexts.

[1036] Para ilustrar, a unidade de compressão V 552 pode, para cada um dos valores de nbits, incluir um primeiro livro de códigos de Huffman para codificar os elementos de vetor de um a quatro, um segundo livro de códigos de Huffman para codificar os elementos de vetor de cinco a nove, um terceiro livro de códigos de Huffman para codificar os elementos de vetor de nove para cima. Esses primeiros três livros de códigos de Huffman podem ser usados quando o um dos vetores VTDIST 539 a ser comprimido não é previsto a partir de um temporalmente subsequente que corresponde a um dentre os vetores VTDIST 539 e não é representante de informações espaciais de um objeto de áudio sintético (aquele definido, por exemplo, originalmente por um objeto de áudio modulado de código por pulso (PCM)). A unidade de compressão V 552 pode incluir adicionalmente, para cada um dos valores de nbits, um quarto livro de códigos de Huffman para codificar o um dos vetores VTDIST 539 quando esse um dos vetores VTDIST 539 é previsto a partir de um temporalmente subsequente que corresponde a um dos vetores VTDIST 539. A unidade de compressão V 552 também pode incluir, para cada um dos valores de nbits, um quinto livro de códigos de Huffman para codificar o um dos vetores VTDIST 539 quando esse um dos vetores VTDIST 539 é representante de um objeto de áudio sintético. Os vários livros de códigos de Huffman podem ser desenvolvidos para cada um desses diferentes contextos estatísticos, isto é, o contexto não previsto e não 357/500 sintético, o contexto previsto e o contexto sintético nesse exemplo.[1036] To illustrate, the V compression unit 552 may, for each of the nbit values, include a first Huffman codebook for encoding vector elements one through four, a second Huffman codebook for encoding vector elements five through nine, a third Huffman codebook for coding vector elements nine and up. These first three Huffman codebooks can be used when the one of the VTDIST 539 vectors to be compressed is not predicted from a temporally subsequent one that corresponds to one of the VTDIST 539 vectors and is not representative of spatial information from a data object. synthetic audio (that defined, for example, originally by a pulse code modulated (PCM) audio object). The V-compression unit 552 may additionally include, for each of the nbit values, a fourth Huffman codebook to encode the one of the VTDIST vectors 539 when that one of the VTDIST vectors 539 is predicted from a temporally subsequent one that corresponds to one of the VTDIST 539 vectors. The VTDIST 552 compression unit may also include, for each of the nbit values, a fifth Huffman codebook to encode the one of the VTDIST 539 vectors when that one of the VTDIST 539 vectors is representative of a synthetic audio object. Huffman's various codebooks can be developed for each of these different statistical contexts, that is, the unanticipated and non-synthetic context, the predicted context, and the synthetic context in this example.

[1037] A tabela a seguir ilustra a seleção de tabela de Huffman e os bits a serem especificados no fluxo de bits para permitir que a unidade de descompressão selecione a tabela de Huffman apropriada:

Figure img0069
[1037] The following table illustrates the Huffman table selection and the bits to be specified in the bitstream to allow the decompression unit to select the appropriate Huffman table:
Figure img0069

[1038] Na tabela supracitada, o modo de previsão (“Pred mode”) indica se a previsão foi realizada para o vetor atual, enquanto que Tabela de Huffman (“info de HT”) indica as informações de livro de códigos de Huffman adicionais (ou tabela) usadas para selecionar uma dentre as tabelas de Huffman de uma a cinco.[1038] In the above table, the prediction mode (“Pred mode”) indicates whether the prediction was performed for the current vector, while the Huffman Table (“HT info”) indicates additional Huffman codebook information (or table) used to select one of Huffman tables one through five.

[1039] A tabela a seguir ilustra adicionalmente esse processo de seleção de tabela de Huffman dados vários contextos ou cenários estatísticos.

Figure img0070
[1039] The following table further illustrates this Huffman table selection process given various statistical contexts or scenarios.
Figure img0070

[1040] Na tabela supracitada, a coluna “Registro” indica o contexto de codificação quando o vetor 358/500 é representante de um objeto de áudio que foi registrado enquanto que a coluna “Sintético” indica um contexto de codificação para quando o vetor é representativo de um objeto de áudio sintético. A fileira “Sem Previsão” indica o contexto de codificação quando a previsão não é realizada em relação aos elementos de vetor, enquanto que a fileira “Com previsão” indica o contexto de codificação quando a previsão é realizada em relação aos elementos de vetor. Conforme mostrado nessa tabela, a unidade de compressão V 552 seleciona HT{1, 2, 3} quando o vetor é representante de um objeto de áudio registrado e a previsão não é realizada em relação aos elementos de vetor. A unidade de compressão V 552 seleciona HT5 quando o objeto de áudio é representando de um objeto de áudio sintético e a previsão não é realizada em relação aos elementos de vetor. A unidade de compressão V 552 seleciona HT4 quando o vetor é representante de um objeto de áudio registrado e a previsão é realizada em relação aos elementos de vetor. A unidade de compressão V 552 seleciona HT5 quando o objeto de áudio é representante de um objeto de áudio sintético e a previsão é realizada em relação aos elementos de vetor.[1040] In the above table, the column “Record” indicates the encoding context when the 358/500 vector is representative of an audio object that has been registered while the column “Synthetic” indicates an encoding context for when the vector is representative of a synthetic audio object. The row “Without Prediction” indicates encoding context when prediction is not performed against vector elements, while row “With prediction” indicates encoding context when prediction is performed against vector elements. As shown in this table, the compression unit V 552 selects HT{1, 2, 3} when the vector is representative of a recorded audio object and prediction is not performed with respect to vector elements. The V 552 compression unit selects HT5 when the audio object is represented from a synthetic audio object and prediction is not performed with respect to vector elements. The V compression unit 552 selects HT4 when the vector is representative of a recorded audio object and prediction is performed with respect to vector elements. The V 552 compression unit selects HT5 when the audio object is representative of a synthetic audio object and the prediction is performed with respect to vector elements.

[1041] Dessa maneira, as técnicas podem permitir que um dispositivo de compressão de áudio comprima um componente espacial de um campo sonoro, onde o componente espacial é gerado realizando-se uma síntese com base em relação a uma pluralidade de coeficientes harmônicos esféricos.[1041] In this way, the techniques can allow an audio compression device to compress a spatial component of a sound field, where the spatial component is generated by performing a synthesis based on a plurality of spherical harmonic coefficients.

[1042] A Figura 43 é um diagrama que ilustra a unidade de compressão V 552 mostrada na Figura 40I em mais detalhes. No exemplo da Figura 43, a unidade de compressão V 552 inclui uma unidade de quantização uniforme 600, uma unidade de nbits 602, uma unidade de previsão 604, uma unidade de modo de previsão 606 (“Pred Mode Unit 606”), uma 359/500 unidade de codificação residual e de categoria 608 e uma unidade de seleção de tabela de Huffman 610. A unidade de quantização uniforme 600 representa uma unidade configurada para realizar a quantização descrita acima em relação a um dos componentes especiais denotado como no exemplo da Figura 43 (que pode representar qualquer um dos vetores VTDIST 539). A unidade de nbits 602 representa uma unidade configurada para determinar o parâmetro ou valor de nbits.[1042] Figure 43 is a diagram illustrating the V compression unit 552 shown in Figure 40I in more detail. In the example of Fig. 43, the V compression unit 552 includes a uniform quantization unit 600, an nbit unit 602, a prediction unit 604, a prediction mode unit 606 ("Pred Mode Unit 606"), a 359 /500 residual and category coding unit 608 and a Huffman table selection unit 610. The uniform quantization unit 600 represents a unit configured to perform the quantization described above with respect to one of the special components denoted as in the example in Fig. 43 (which can represent any of the VTDIST 539 vectors). Unit of nbits 602 represents a unit configured to determine the parameter or value of nbits.

[1043] A unidade de previsão 604 representa uma unidade configurada para realizar a previsão em relação ao componente espacial quantizado denotado como q no exemplo da Figura 43. A unidade de previsão 604 pode realizar a previsão realizando-se uma subtração de elemento do um dos vetores VTDIST atual 539 por um temporalmente subsequente que corresponde a um dos vetores VTDIST 539. O resultado dessa previsão pode ser referido como um componente espacial previsto.[1043] The prediction unit 604 represents a unit configured to perform the prediction with respect to the quantized spatial component denoted as q in the example of Fig. 43. The prediction unit 604 can perform the prediction by performing an element subtraction from one of the current VTDIST vectors 539 by a temporally subsequent one that corresponds to one of the VTDIST vectors 539. The result of this prediction can be referred to as a predicted spatial component.

[1044] A unidade de modo de previsão 606 pode representar uma unidade configurada para selecionar o modo de previsão. A unidade de seleção de tabela de Huffman 610 pode representar uma unidade configurada para selecionar uma tabela de Huffman apropriada para codificar o cid. A unidade de modo de previsão 606 e a unidade de seleção de tabela de Huffman 610 podem operar, como um exemplo, de acordo com o seguinte pseudocódigo:[1044] Prediction mode unit 606 may represent a unit configured to select prediction mode. The Huffman table selection unit 610 may represent a unit configured to select an appropriate Huffman table to encode the cid. The prediction mode unit 606 and the Huffman table selection unit 610 may operate, as an example, according to the following pseudocode:

[1045] Para um dado nbits, recuperar todas as Tabelas de Huffman que têm nbits[1045] For a given nbits, retrieve all Huffman Tables that have nbits

[1046] B00 = 0; B01 = 0; B10 = 0; B11 = 0; // inicializar para computar os bits esperados por modo de codificação[1046] B00 = 0; B01 = 0; B10 = 0; B11 = 0; // initialize to compute expected bits per encoding mode

[1047] para m = 1:(# elementos no vetor)[1047] for m = 1:(# elements in vector)

[1048] // calcular número esperado de bits para um elemento de vetor v(m)[1048] // calculate expected number of bits for a vector element v(m)

[1049] // sem previsão e com o uso da Tabela de Huffman 5[1049] // without prediction and using Huffman's Table 5

[1050] B00 = B00 + calcular_bits(v(m) , HT5);[1050] B00 = B00 + calculate_bits(v(m) , HT5);

[1051] // sem previsão e com o uso da Tabela de Huffman {1,2,3}[1051] // without prediction and using Huffman's Table {1,2,3}

[1052] B01 = B01 + calcular_bits(v(m) , HTq); q em {1,2,3}[1052] B01 = B01 + calculate_bits(v(m) , HTq); q in {1,2,3}

[1053] // calcular número esperado de bits para previsão residual[1053] // calculate expected number of bits for residual prediction

[1054] e(m e(m) ) = v(m) - vp(m); // vp(m) : elemento de vetor de quadro[1054] e(m e(m) ) = v(m) - vp(m); // vp(m) : frame vector element

[1055] anterior // com previsão e com o uso da Tabela de Huffman 4[1055] previous // with prediction and using Huffman's Table 4

[1056] B10 = B10 + calcular_bits(e(m) , HT4);[1056] B10 = B10 + calculate_bits(e(m) , HT4);

[1057] // com previsão e com o uso da Tabela de Huffman 5[1057] // with prediction and using Huffman's Table 5

[1058] B11 = B11 + calcular_bits(e(m) , HT5);[1058] B11 = B11 + calculate_bits(e(m) , HT5);

[1059] fim[1059] end

[1060] // encontrar um melhor modo de previsão e tabela de Huffman que rendam bits mínimos[1060] // find a better prediction mode and Huffman table that yield minimum bits

[1061] // melhor modo de previsão e tabela de Huffman são sinalizados por pflag e Htflag, respectivamente[1061] // best prediction mode and Huffman table are flagged by pflag and Htflag respectively

[1062] [Be, id] = mín([BOO B01 B10 B11]);[1062] [Be, id] = min([BOO B01 B10 B11]);

[1063] Comutar Caso 1: id[1063] Switch Case 1: id

[1064] Caso 1:pflag = 0; HTflag = 0;[1064] Case 1:pflag = 0; HTflag = 0;

[1065] Caso 2: pflag = 0; HTflag = 1;[1065] Case 2: pflag = 0; HTflag = 1;

[1066] Caso 3: pflag = 1; HTflag = 0;[1066] Case 3: pflag = 1; HTflag = 0;

[1067] Caso 4: pflag = 1; HTflag = 1;[1067] Case 4: pflag = 1; HTflag = 1;

[1068] fim A unidade de codificação residual e de categoria 608 pode representar uma unidade configurada para realizar a categorização e a codificação residual de um componente espacial previsto ou o componente espacial quantizado (quando a previsão é desativada) da maneira descrita em mais detalhes abaixo.[1068] end Residual and category encoding unit 608 may represent a unit configured to perform categorization and residual encoding of a predicted spatial component or the quantized spatial component (when prediction is turned off) in the manner described in more detail below .

[1069] Conforme mostrado no exemplo da Figura 43, a unidade de compressão V 552 pode emitir vários parâmetros ou valores para inclusão no fluxo de bits 517 ou informações de lado (que pode o próprio ser um fluxo de bits separado a partir do fluxo de bits 517). Assumindo-se que as informações são especificadas no fluxo de bits 517, a unidade de compressão V 552 pode emitir o valor de nbits, o modo de previsão e as informações de tabela de Huffman para a unidade de geração de fluxo de bits 516 juntamente com a versão comprimida do componente espacial (mostrado como componente espacial comprimido 539’ no exemplo da Figura 40I), que nesse exemplo pode ser referir ao código de Huffman selecionado para codificar o cid, o bit de sinal e o resíduo codificado em blocos. O valor de nbits pode ser especificado uma vez no fluxo de bits 517 para todos os vetores VTDIST 539, enquanto o modo de previsão e as informações de tabela de Huffman podem ser especificadas para cada um dos vetores VTDIST 539. A porção do fluxo de bits que especifica a versão comprimida do componente espacial é mostrada no exemplo das Figuras 10B e 10c.[1069] As shown in the example of Figure 43, the V compression unit 552 can output various parameters or values for inclusion in the bit stream 517 or side information (which itself can be a separate bit stream from the bit stream 517). bits 517). Assuming the information is specified in the bitstream 517, the V compression unit 552 can output the nbits value, prediction mode and Huffman table information to the bitstream generating unit 516 along with the compressed version of the spatial component (shown as compressed spatial component 539' in the example of Fig. 40I), which in this example may refer to the Huffman code selected to encode the cid, the sign bit, and the block-coded residue. The value of nbits can be specified once in the 517 bit stream for all VTDIST 539 arrays, while the prediction mode and Huffman table information can be specified for each of the VTDIST 539 arrays. The bit stream portion that specifies the compressed version of the spatial component is shown in the example of Figures 10B and 10c.

[1070] Dessa maneira, o dispositivo de codificação de áudio exemplificativo 510H pode realizar vários aspectos das técnicas estabelecidas em relação às seguintes cláusulas.[1070] In this manner, the exemplary audio encoding device 510H can perform various aspects of the techniques set forth in relation to the following clauses.

[1071] Cláusula 141541-1A. Um dispositivo, tal como o dispositivo de codificação de áudio exemplificativo 510H, que compreende: um ou mais processadores configurados para obter um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, em que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[1071] Clause 141541-1A. A device, such as exemplary audio encoding device 510H, comprising: one or more processors configured to obtain a bit stream comprising a compressed version of a spatial component of a sound field, wherein the spatial component is generated by performing A vector-based synthesis is performed with respect to a plurality of spherical harmonic coefficients.

[1072] Cláusula 141541-2A. O dispositivo de cláusulas 141541-1A, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de um campo que especifica um modo de previsão usado durante a compressão do componente espacial.[1072] Clause 141541-2A. The clause device 141541-1A, wherein the compressed version of the spatial component is represented in the bit stream using, at least in part, a field that specifies a prediction mode used during compression of the spatial component.

[1073] Cláusula 141541-3A. O dispositivo de qualquer combinação de cláusula 141541-1A e cláusula 141541-2A, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de informações de tabela de Huffman que especificam uma tabela de Huffman usada durante a compressão do componente espacial.[1073] Clause 141541-3A. The device of any combination of clause 141541-1A and clause 141541-2A, where the compressed version of the spatial component is represented in the bitstream using, at least in part, Huffman table information that specifies a table of Huffman used during compression of the spatial component.

[1074] Cláusula 141541-4A. O dispositivo de qualquer combinação de cláusula 141541-1A até a cláusula 141541-3A, em que a versão comprimida do componente espacial é representada no fluxo de bits com uso, pelo menos em parte, de um campo que indica um valor que expressa um tamanho de etapa de quantização ou uma variável do mesmo usada durante a compressão do componente espacial.[1074] Clause 141541-4A. The device of any combination of clause 141541-1A through clause 141541-3A, where the compressed version of the spatial component is represented in the bit stream using, at least in part, a field that indicates a value that expresses a size of quantization step or a variable of the same used during the compression of the spatial component.

[1075] Cláusula 141541-5A. O dispositivo de cláusula 141541-4A, em que o valor compreende um valor de nbits.[1075] Clause 141541-5A. The clause device 141541-4A, wherein the value comprises an nbit value.

[1076] Cláusula 141541-6A. O dispositivo de qualquer combinação de cláusula 141541-4A e cláusula 141541-5A, em que o fluxo de bits compreende uma versão comprimida de uma pluralidade de componentes especiais do campo sonoro do qual a versão comprimida do componente espacial é incluída, e em que o valor expressa o tamanho de etapa de quantização ou uma variável do mesmo usada durante a compressão da pluralidade de componentes especiais.[1076] Clause 141541-6A. The device of any combination of clause 141541-4A and clause 141541-5A, wherein the bit stream comprises a compressed version of a plurality of special components of the sound field of which the compressed version of the spatial component is included, and wherein the value expresses the quantization step size or a variable thereof used during compression of the plurality of special components.

[1077] Cláusula 141541-7A. O dispositivo de qualquer combinação de cláusula 141541-1A até a cláusula 141541-6A, em que a versão comprimida do componente espacial é representada no fluxo de bits com uso, pelo menos em parte, de um código de Huffman para representar um identificador de categoria que identifica uma categoria de compressão a qual o componente espacial corresponde.[1077] Clause 141541-7A. The device of any combination of clause 141541-1A through clause 141541-6A, where the compressed version of the spatial component is represented in the bitstream using, at least in part, a Huffman code to represent a category identifier which identifies a compression category to which the spatial component corresponds.

[1078] Cláusula 141541-8A. O dispositivo de qualquer combinação de cláusula 141541-1A até a cláusula 141541-7A, em que a versão comprimida do componente espacial é representada no fluxo de bits com uso, pelo menos em parte, de um bit de sinal que identifica se o componente espacial é um valor positivo ou um valor negativo.[1078] Clause 141541-8A. The device of any combination of clause 141541-1A through clause 141541-7A, wherein the compressed version of the spatial component is represented in the bit stream using, at least in part, a sign bit that identifies whether the spatial component is a positive value or a negative value.

[1079] Cláusula 141541-9A. O dispositivo de qualquer combinação de cláusula 141541-1A até a cláusula 141541-8A, em que a versão comprimida do componente espacial é presentada no fluxo de bits com uso, pelo menos em parte, de um código de Huffman para representar um valor residual do componente espacial.[1079] Clause 141541-9A. The device of any combination of clause 141541-1A through clause 141541-8A, wherein the compressed version of the spatial component is presented in the bit stream using, at least in part, a Huffman code to represent a residual value of the spatial component.

[1080] Cláusula 141541-10A. O dispositivo de qualquer combinação de cláusula 141541-1A até cláusula 141541-9A, em que o dispositivo compreende um dispositivo de codificação de áudio exemplificativo e um dispositivo de geração de fluxo de bits.[1080] Clause 141541-10A. The device of any combination of clause 141541-1A through clause 141541-9A, wherein the device comprises an exemplary audio encoding device and a bit stream generating device.

[1081] Cláusula 141541-12A. O dispositivo de qualquer combinação de cláusula 141541-1A até a cláusula 141541-11A, em que a síntese com base em vetor compreende uma decomposição de valor singular.[1081] Clause 141541-12A. The device of any combination of clause 141541-1A through clause 141541-11A, wherein the vector-based synthesis comprises a single-valued decomposition.

[1082] Embora descrito como sendo realizadas pelo dispositivo de codificação de áudio 510H, as técnicas também podem ser realizadas por qualquer um dos dispositivos de decodificação de áudio 24 e/ou 540.[1082] While described as being performed by the 510H audio encoding device, the techniques can also be performed by any of the 24 and/or 540 audio decoding devices.

[1083] Dessa maneira, o dispositivo de codificação de áudio exemplificativo 510H pode realizar adicionalmente vários aspectos das técnicas estabelecidas em relação às seguintes cláusulas.[1083] In this manner, the exemplary audio encoding device 510H can additionally perform various aspects of the techniques set forth in connection with the following clauses.

[1084] Cláusula 141541-1D. Um dispositivo, tal como o dispositivo de codificação de áudio exemplificativo 510H, que compreende: um ou mais processadores configurados para gerar um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[1084] Clause 141541-1D. A device, such as exemplary audio encoding device 510H, comprising: one or more processors configured to generate a bit stream comprising a compressed version of a spatial component of a sound field, the spatial component generated by performing a vector-based synthesis with respect to a plurality of spherical harmonic coefficients.

[1085] Cláusula 141541-2D. O dispositivo de cláusula 141541-1D, em que o um ou mais processadores são configurados adicionalmente para, durante a geração do fluxo de bits, gerar o fluxo de bits para incluir um campo que especifica um modo de previsão usado durante a compressão do componente espacial.[1085] Clause 141541-2D. The clause device 141541-1D, wherein the one or more processors are additionally configured to, during bitstream generation, generate the bitstream to include a field specifying a prediction mode used during spatial component compression .

[1086] Cláusula 141541-3D. O dispositivo de qualquer combinação de cláusula 141541-1D e cláusula 141541-2D, em que o um ou mais processadores são configurados adicionalmente para, durante a geração do fluxo de bits, gerar o fluxo de bits para incluir informações de tabela de Huffman que especificam uma tabela de Huffman usada durante a compressão do componente espacial.[1086] Clause 141541-3D. The device of any combination of clause 141541-1D and clause 141541-2D, wherein the one or more processors are additionally configured to, during bitstream generation, generate the bitstream to include Huffman table information that specifies a Huffman table used during spatial component compression.

[1087] Cláusula 141541-4D. O dispositivo de qualquer combinação de cláusula 141541-1D até a cláusula 141541-3D, em que o um ou mais processadores são configurados adicionalmente para, durante a geração do fluxo de bits, gerar o fluxo de bits para incluir um campo que indica um valor que expressa um tamanho de etapa de quantização ou uma variável do mesmo usada durante a compressão do componente espacial.[1087] Clause 141541-4D. The device of any combination of clause 141541-1D through clause 141541-3D, wherein the one or more processors are additionally configured to, during bitstream generation, generate the bitstream to include a field indicating a value which expresses a quantization step size or a variable thereof used during the compression of the spatial component.

[1088] Cláusula 141541-5D. O dispositivo de cláusula 141541-4D, em que o valor compreende um valor de nbits.[1088] Clause 141541-5D. The clause device 141541-4D, wherein the value comprises an nbit value.

[1089] Cláusula 141541-6D. O dispositivo de qualquer combinação de cláusula 141541-4D e cláusula 141541-5D, em que o um ou mais processadores são configurados adicionalmente para, durante a geração do fluxo de bits, gerar o fluxo de bits para incluir uma versão comprimida de uma pluralidade de componentes especiais do campo sonoro do qual a versão comprimida do componente espacial é incluída, e em que o valor expressa o tamanho de etapa de quantização ou uma variável do mesmo usada durante a compressão da pluralidade de componentes especiais.[1089] Clause 141541-6D. The device of any combination of clause 141541-4D and clause 141541-5D, wherein the one or more processors are further configured to, during bitstream generation, generate the bitstream to include a compressed version of a plurality of special components of the sound field from which the compressed version of the spatial component is included, and where the value expresses the quantization step size or a variable thereof used during compression of the plurality of special components.

[1090] Cláusula 141541-7D. O dispositivo de qualquer combinação de cláusula 141541-1D até a cláusula 141541-6D, em que o um ou mais processadores são configurados adicionalmente para, durante a geração do fluxo de bits, gerar o fluxo de bits para incluir um código de Huffman para representa um identificador de categoria que identifica uma categoria de compressão a qual o componente espacial corresponde.[1090] Clause 141541-7D. The device of any combination of clause 141541-1D through clause 141541-6D, wherein the one or more processors are additionally configured to, during bitstream generation, generate the bitstream to include a Huffman code to represent a category identifier that identifies a compression category to which the spatial component corresponds.

[1091] Cláusula 141541-8D. O dispositivo de qualquer combinação de cláusula 141541-1D até a cláusula 141541-7D, em que o um ou mais processadores são configurados adicionalmente para, durante a geração do fluxo de bits, gerar o fluxo de bits para incluir um bit de sinal que identifica se o componente espacial é um valor positivo ou um valor negativo.[1091] Clause 141541-8D. The device of any combination of clause 141541-1D through clause 141541-7D, wherein the one or more processors are additionally configured to, during bit stream generation, generate the bit stream to include a sign bit that identifies whether the spatial component is a positive value or a negative value.

[1092] Cláusula 141541-9D. O dispositivo de qualquer combinação de cláusula 141541-1D até a cláusula 141541-8D, em que o um ou mais processadores são configurados adicionalmente para, durante a geração do fluxo de bits, gerar o fluxo de bits para incluir um código de Huffman para representar um valor residual do componente espacial.[1092] Clause 141541-9D. The device of any combination of clause 141541-1D through clause 141541-8D, wherein the one or more processors are additionally configured to, during bitstream generation, generate the bitstream to include a Huffman code to represent a residual value of the spatial component.

[1093] Cláusula 141541-10D. O dispositivo de qualquer combinação de cláusula 141541-1D até a cláusula 141541-10D, em que a síntese com base em vetor compreende uma decomposição de valor singular.[1093] Clause 141541-10D. The device of any combination of clause 141541-1D through clause 141541-10D, wherein the vector-based synthesis comprises a single-valued decomposition.

[1094] O dispositivo de codificação de áudio exemplificativo 510H pode adicionalmente se configurado para implantar vários aspectos das técnicas conforme estabelecidas nas seguintes cláusulas.[1094] The exemplary audio encoding device 510H may further be configured to implement various aspects of the techniques as set out in the following clauses.

[1095] Cláusula 141541-1E. Um dispositivo, tal como o dispositivo de codificação de áudio exemplificativo 510H, que compreende: um ou mais processadores configurados para comprimir um componente espacial de um campo sonoro, em que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[1095] Clause 141541-1E. A device, such as exemplary audio encoding device 510H, comprising: one or more processors configured to compress a spatial component of a sound field, wherein the spatial component is generated by performing vector-based synthesis with respect to to a plurality of spherical harmonic coefficients.

[1096] Cláusula 141541-2E. O dispositivo de cláusula 141541-1E, em que o um ou mais processadores são configurados adicionalmente para, durante a compressão do componente espacial, converter o componente espacial de uma representação de ponto flutuante para uma representação inteira.[1096] Clause 141541-2E. The clause device 141541-1E, wherein the one or more processors are additionally configured to, during compression of the spatial component, convert the spatial component from a floating point representation to an integer representation.

[1097] Cláusula 141541-3E. O dispositivo de qualquer combinação de cláusula 141541-1E e cláusula 141541-2E, em que o um ou mais processadores são configurados adicionalmente para, durante a compressão do componente espacial, determinar dinamicamente um valor indicativo de um tamanho de etapa de quantização, e quantizar o componente espacial com base no valor para gerar um componente espacial quantizado.[1097] Clause 141541-3E. The device of any combination of clause 141541-1E and clause 141541-2E, wherein the one or more processors are additionally configured to, during spatial component compression, dynamically determine a value indicative of a quantization step size, and quantize the spatial component based on the value to generate a quantized spatial component.

[1098] Cláusula 141541-4E. O dispositivo dequalquer combinação de reivindicações 1E a 3E, em que o um ou mais processadores são configurados adicionalmente para, durante a compressão do componente espacial, identificar uma categoria a qual o componente espacial corresponde.[1098] Clause 141541-4E. The device of any combination of claims 1E to 3E, wherein the one or more processors are further configured to, during compression of the spatial component, identify a category to which the spatial component corresponds.

[1099] Cláusula 141541-5E. O dispositivo de qualquer combinação de cláusula 141541-1E até a cláusula 141541-4E, em que o um ou mais processadores são configurados adicionalmente para, durante a compressão do componente espacial, identificar um valor residual para o componente espacial.[1099] Clause 141541-5E. The device of any combination of clause 141541-1E through clause 141541-4E, wherein the one or more processors are further configured to, during compression of the spatial component, identify a residual value for the spatial component.

[1100] Cláusula 141541-6E. O dispositivo de qualquer combinação de cláusula 141541-1E até a cláusula 141541-5E, em que o um ou mais processadores são configurados adicionalmente para, durante a compressão do componente espacial, realizar uma previsão em relação ao componente espacial e a um componente espacial subsequente para gerar um componente espacial previsto.[1100] Clause 141541-6E. The device of any combination of clause 141541-1E through clause 141541-5E, wherein the one or more processors are additionally configured to, during spatial component compression, perform a prediction with respect to the spatial component and a subsequent spatial component to generate a predicted spatial component.

[1101] Cláusula 141541-7E. O dispositivo de qualquer combinação de cláusula 141541-1E, em que o um ou mais processadores são configurados adicionalmente para, durante a compressão do componente espacial, converter o componente espacial a partir de uma representação de ponto flutuante para uma representação inteira, determinar dinamicamente um valor indicativo de um tamanho de etapa de quantização, quantizar a representação inteira do componente espacial com base no valor para gerar um componente espacial quantizado, identificar uma categoria a qual o componente espacial corresponde com base no componente espacial quantizado para gerar um identificador de categoria, determinar um sinal do componente espacial, identificar um valor residual para o componente espacial com base no componente espacial quantizado e no identificador de categoria e gerar uma versão comprimida do componente espacial com base no identificador de categoria, no sinal e no valor residual.[1101] Clause 141541-7E. The device of any combination of clause 141541-1E, wherein the one or more processors are additionally configured to, during compression of the spatial component, convert the spatial component from a floating-point representation to an integer representation, dynamically determine a indicative value of a quantization step size, quantize the entire representation of the spatial component based on the value to generate a quantized spatial component, identify a category to which the spatial component corresponds based on the quantized spatial component to generate a category identifier, determine a signal from the spatial component, identify a residual value for the spatial component based on the quantized spatial component and the category identifier, and generate a compressed version of the spatial component based on the category identifier, signal, and residual value.

[1102] Cláusula 141541-8E. O dispositivo de qualquer combinação de cláusula 141541-1E, em que o um ou mais processadores são configurados adicionalmente para, durante a compressão do componente espacial, converter o componente espacial a partir de uma representação de ponto flutuante para uma representação inteira, determinar dinamicamente um valor indicativo de um tamanho de etapa de quantização, quantizar a representação inteira do componente espacial com base no valor para gerar um componente espacial quantizado, realizar uma previsão em relação ao componente espacial e a um componente espacial subsequente para gerar um componente espacial previsto, identificar uma categoria a qual o componente espacial previsto corresponde com base no componente espacial quantizado para gerar um identificador de categoria, determinar um sinal do componente espacial, identificar um valor residual para o componente espacial com base no componente espacial quantizado e no identificador de categoria e gerar uma versão comprimida do componente espacial com base no identificador de categoria, no sinal e no valor residual.[1102] Clause 141541-8E. The device of any combination of clause 141541-1E, wherein the one or more processors are additionally configured to, during compression of the spatial component, convert the spatial component from a floating-point representation to an integer representation, dynamically determine a indicative value of a quantization step size, quantize the entire representation of the spatial component based on the value to generate a quantized spatial component, perform a prediction against the spatial component and a subsequent spatial component to generate a predicted spatial component, identify a category to which the predicted spatial component corresponds based on the quantized spatial component to generate a category identifier, determine a signal from the spatial component, identify a residual value for the spatial component based on the quantized spatial component and the category identifier, and generate a compressed version of the spatial component based on the category identifier, the sign and the residual value.

[1103] Cláusula 141541-9E. O dispositivo de qualquer combinação de cláusula 141541-1E até a cláusula 141541-8E, em que a síntese com base em vetor compreende uma decomposição de valor singular.[1103] Clause 141541-9E. The device of any combination of clause 141541-1E through clause 141541-8E, wherein the vector-based synthesis comprises a single-valued decomposition.

[1104] Os vários aspectos das técnicas podem, além disso, permitir que o dispositivo de codificação de áudio 510H seja configurado para operar conforme estabelecido nas seguintes cláusulas.[1104] Various aspects of the techniques may further allow the 510H audio encoding device to be configured to operate as set out in the following clauses.

[1105] Cláusula 141541-1F. Um dispositivo, tal como o dispositivo de codificação de áudio exemplificativo 510H, que compreende: um ou mais processadores configurados para identificar um livro de códigos de Huffman para usar durante a compressão de um componente espacial atual de uma pluralidade de componentes especiais com base em uma ordem do componente espacial atual em relação aos remanescentes da pluralidade de componentes especiais, em que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[1105] Clause 141541-1F. A device, such as exemplary audio encoding device 510H, comprising: one or more processors configured to identify a Huffman codebook for use in compressing a current spatial component from a plurality of special components based on a order of the current spatial component with respect to the remainder of the plurality of special components, wherein the spatial component is generated by performing vector-based synthesis with respect to a plurality of spherical harmonic coefficients.

[1106] Cláusula 141541-2F. O dispositivo de cláusula 141541-3F, em que o um ou mais processadores são configurados adicionalmente para realizar qualquer combinação das etapas enumeradas em cláusula 141541-1A até a cláusula 141541-12A, cláusula 141541-1B até a cláusula 141541-10B e cláusula 141541-1C até a cláusula 141541-9C.[1106] Clause 141541-2F. The clause 141541-3F device, wherein the one or more processors are additionally configured to perform any combination of the steps enumerated in clause 141541-1A through clause 141541-12A, clause 141541-1B through clause 141541-10B and clause 141541 -1C through clause 141541-9C.

[1107] Os vários aspectos das técnicas podem, além disso, permitir que o dispositivo de codificação de áudio 510H seja configurado para operar conforme estabelecido nas seguintes cláusulas.[1107] Various aspects of the techniques may further allow the 510H audio encoding device to be configured to operate as set out in the following clauses.

[1108] Cláusula 141541-1H. Um dispositivo, tal como o dispositivo de codificação de áudio 510H, que compreende: um ou mais processadores configurados para determinar um tamanho de etapa de quantização a ser usado durante a compressão de um componente espacial de um campo sonoro, em que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[1108] Clause 141541-1H. A device, such as audio encoding device 510H, comprising: one or more processors configured to determine a quantization step size to be used when compressing a spatial component of a sound field, wherein the spatial component is generated by performing vector-based synthesis against a plurality of spherical harmonic coefficients.

[1109] Cláusula 141541-2H. O dispositivo de cláusula 141541-1H, em que o um ou mais processadores são configurados adicionalmente para, durante a determinação do tamanho de etapa de quantização, determinar o tamanho de etapa de quantização com base em uma taxa de bits alvo.[1109] Clause 141541-2H. The clause 141541-1H device, wherein the one or more processors are additionally configured to, during quantization step size determination, determine the quantization step size based on a target bit rate.

[1110] Cláusula 141541-3H. O dispositivo de cláusula 141541-1H, em que o um ou mais processadores são configurados adicionalmente para, durante a seleção de um dentre a pluralidade de tamanhos de etapa de quantização, determinar uma estimativa de um número de bits usado para representar o componente espacial, e determinar o tamanho de etapa de quantização com base em uma diferença entre a estimativa e uma taxa de bits alvo.[1110] Clause 141541-3H. The device of clause 141541-1H, wherein the one or more processors are further configured to, during selection of one of a plurality of quantization step sizes, determine an estimate of a number of bits used to represent the spatial component, and determining the quantization step size based on a difference between the estimate and a target bitrate.

[1111] Cláusula 141541-4H. O dispositivo de cláusula 141541-1H, em que o um ou mais processadores são configurados adicionalmente para, durante a seleção de um dentre a pluralidade de tamanhos de etapa de quantização, determinar uma estimativa de um número de bits usado para representar o componente espacial, determinar uma diferença entre a estimativa e uma taxa de bits alvo e determinar o tamanho de etapa de quantização adicionando-se a diferença para a taxa de bits alvo.[1111] Clause 141541-4H. The device of clause 141541-1H, wherein the one or more processors are further configured to, during selection of one of a plurality of quantization step sizes, determine an estimate of a number of bits used to represent the spatial component, determine a difference between the estimate and a target bitrate and determine the quantization step size by adding the difference to the target bitrate.

[1112] Cláusula 141541-5H. O dispositivo de cláusula 141541-3H ou cláusula 141541-4H, em que o um ou mais processadores são configurados adicionalmente para, durante a determinação da estimativa do número de bits, calcular o estimado do número de bits que devem ser gerados para o componente espacial dado um livro de códigos que corresponde à taxa de bits alvo.[1112] Clause 141541-5H. The device of clause 141541-3H or clause 141541-4H, wherein the one or more processors are additionally configured to, during the determination of the number of bits estimate, calculate the estimate of the number of bits that should be generated for the spatial component given a codebook that corresponds to the target bitrate.

[1113] Cláusula 141541-6H. O dispositivo de cláusula 141541-3H ou cláusula 141541-4H, em que o um ou mais processadores são configurados adicionalmente para, durante a determinação da estimativa do número de bits, calcular o estimado do número de bits que devem ser gerados para o componente espacial dado um modo de codificação usado durante a compressão do componente espacial.[1113] Clause 141541-6H. The device of clause 141541-3H or clause 141541-4H, wherein the one or more processors are additionally configured to, during the determination of the number of bits estimate, calculate the estimate of the number of bits that should be generated for the spatial component given an encoding mode used during compression of the spatial component.

[1114] Cláusula 141541-7H. O dispositivo de cláusula 141541-3H ou cláusula 141541-4H, em que o um ou mais processadores são configurados adicionalmente para, durante a determinação da estimativa do número de bits, calcular uma primeira estimativa do número de bits que devem ser gerados para o componente espacial dado um primeiro modo de codificação a ser usado durante a compressão do componente espacial, calcular uma segunda estimativa do número de bits que devem ser gerados para o componente espacial dado um segundo modo de codificação a ser usado durante a compressão do componente espacial, selecionar aquele da primeira estimativa e da segunda estimativa que tem o menor número de bits a ser usado como a estimativa determinada do número de bits.[1114] Clause 141541-7H. The device of clause 141541-3H or clause 141541-4H, wherein the one or more processors are additionally configured to, during the determination of the number of bits estimate, calculate a first estimate of the number of bits that should be generated for the component given a first encoding mode to be used during compression of the spatial component, calculate a second estimate of the number of bits that should be generated for the spatial component given a second encoding mode to be used during compression of the spatial component, select the one of the first estimate and the second estimate that has the smallest number of bits to use as the given estimate of the number of bits.

[1115] Cláusula 141541-8H. O dispositivo de cláusula 141541-3H ou cláusula 141541-4H, em que o um ou mais processadores são configurados adicionalmente para, durante a determinação da estimativa do número de bits, identificar um identificador de categoria que identifica uma categoria a qual o componente espacial corresponde, identificar um comprimento de bit de um valor residual para o componente espacial que resultaria durante a compressão do componente espacial que corresponde à categoria e determinar a estimativa do número de bits através, pelo menos em parte, da adição de um número de bits usado para representar o identificador de categoria para o comprimento de bit do valor residual.[1115] Clause 141541-8H. The device of clause 141541-3H or clause 141541-4H, wherein the one or more processors are further configured to, during the determination of the number of bits estimate, identify a category identifier that identifies a category to which the spatial component corresponds , identify a bit length of a residual value for the spatial component that would result during compression of the spatial component that corresponds to the category, and determine the estimate of the number of bits by, at least in part, adding a number of bits used to represent the category identifier for the residual value bit length.

[1116] Cláusula 141541-9H. O dispositivo de qualquer combinação de cláusula 141541-1H até a cláusula 141541-8H, em que a síntese com base em vetor compreende uma decomposição de valor singular.[1116] Clause 141541-9H. The device of any combination of clause 141541-1H through clause 141541-8H, wherein the vector-based synthesis comprises a single-valued decomposition.

[1117] Embora descrito como sendo realizadas pelo dispositivo de codificação de áudio 510H, as técnicas estabelecidas nas cláusulas acima, cláusula 141541-lH até a cláusula 141541-9H, também podem ser realizadas pelo dispositivo de decodificação de áudio 540D.[1117] While described as being performed by the audio encoding device 510H, the techniques set forth in the above clauses, clause 141541-1H through clause 141541-9H, may also be performed by the audio decoding device 540D.

[1118] Adicionalmente, os vários aspectos das técnicas podem permitir que o dispositivo de codificação de áudio 510H seja configurado para operar conforme estabelecido nas seguintes cláusulas.[1118] Additionally, various aspects of the techniques may allow the 510H audio encoding device to be configured to operate as set forth in the following clauses.

[1119] Cláusula 141541-1J. Um dispositivo, tal como o dispositivo de codificação de áudio 510J, que compreende: um ou mais processadores configurados para selecionar um dentre uma pluralidade de livros de códigos a ser usado durante a compressão de um componente espacial de um campo sonoro, em que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[1119] Clause 141541-1J. A device, such as audio encoding device 510J, comprising: one or more processors configured to select one of a plurality of codebooks to be used during compression of a spatial component of a sound field, wherein the component space is generated by performing vector-based synthesis against a plurality of spherical harmonic coefficients.

[1120] Cláusula 141541-2J. O dispositivo de cláusula 141541-1J, em que o um ou mais processadores são configurados adicionalmente para, durante a seleção de um dentre a pluralidade de livros e códigos, determinar uma estimativa de um número de bits usado para representar o componente espacial com o uso de cada um da pluralidade de livros de códigos, e selecionar aquele da pluralidade de livros de códigos que resultou na estimativa determinada que tem o menor número de bits.[1120] Clause 141541-2J. The device of clause 141541-1J, wherein the one or more processors are additionally configured to, during the selection of one of the plurality of books and codes, determine an estimate of a number of bits used to represent the spatial component using from each of the plurality of codebooks, and selecting that of the plurality of codebooks that resulted in the determined estimate having the fewest bits.

[1121] Cláusula 141541-3J. O dispositivo de cláusula 141541-1J, em que o um ou mais processadores são configurados adicionalmente para, durante a seleção de um dentre a pluralidade de livros de códigos, determinar uma estimativa de um número de bits usado para representar o componente espacial com uso de um ou mais da pluralidade de livros de códigos, em que o um ou mais da pluralidade de livros de códigos é selecionado com base em uma ordem de elementos do componente espacial a serem comprimidos em relação a outros elementos do componente espacial.[1121] Clause 141541-3J. The device of clause 141541-1J, wherein the one or more processors are further configured to, during the selection of one of the plurality of codebooks, determine an estimate of a number of bits used to represent the spatial component using one or more of the plurality of codebooks, wherein the one or more of the plurality of codebooks is selected based on an order of spatial component elements to be compressed relative to other spatial component elements.

[1122] Cláusula 141541-4J. O dispositivo de cláusula 141541-1J, em que o um ou mais processadores são configurados adicionalmente para, durante a seleção de um dentre a pluralidade de livros de códigos, determinar uma estimativa de um número de bits usado para representa o componente espacial com uso de um da pluralidade de livros de códigos projetado para ser usado quando o componente espacial não é previsto a partir de um componente espacial subsequente.[1122] Clause 141541-4J. The device of clause 141541-1J, wherein the one or more processors are further configured to, during the selection of one of the plurality of codebooks, determine an estimate of a number of bits used to represent the spatial component using one of a plurality of codebooks designed to be used when the spatial component is not predicted from a subsequent spatial component.

[1123] Cláusula 141541-5J. O dispositivo de cláusula 141541-1J, em que o um ou mais processadores são configurados adicionalmente para, durante a seleção de um dentre a pluralidade de livros de códigos, determinar uma estimativa de um número de bits usado para representa o componente espacial com uso de um da pluralidade de livros de códigos projetado para ser usado quando o componente espacial é previsto a partir de um componente espacial subsequente.[1123] Clause 141541-5J. The device of clause 141541-1J, wherein the one or more processors are further configured to, during the selection of one of the plurality of codebooks, determine an estimate of a number of bits used to represent the spatial component using one of a plurality of codebooks designed to be used when the spatial component is predicted from a subsequent spatial component.

[1124] Cláusula 141541-6J. O dispositivo de cláusula 141541-1J, em que o um ou mais processadores são configurados adicionalmente para, durante a seleção de um dentre a pluralidade de livros de códigos, determinar uma estimativa de um número de bits usado para representar o componente espacial com uso de um da pluralidade de livros de códigos projetado pata ser usado quando o componente espacial é representante de um objeto de áudio sintético no campo sonoro.[1124] Clause 141541-6J. The device of clause 141541-1J, wherein the one or more processors are further configured to, during the selection of one of the plurality of codebooks, determine an estimate of a number of bits used to represent the spatial component using one of a plurality of codebooks designed for use when the spatial component is representative of a synthetic audio object in the sound field.

[1125] Cláusula 141541-7J. O dispositivo de cláusula 141541-1J, em que o objeto de áudio sintético compreende um objeto de áudio modulado de código por pulso (PCM).[1125] Clause 141541-7J. The clause 141541-1J device, wherein the synthetic audio object comprises a pulse code modulated (PCM) audio object.

[1126] Cláusula 141541-8J. O dispositivo de cláusula 141541-1J, em que o um ou mais processadores são configurados adicionalmente para, durante a seleção de um dentre a pluralidade de livros de códigos, determinar uma estimativa de um número de bits usado para representar o componente espacial com o uso de um da pluralidade de livros de códigos projetado para ser usado quando o componente espacial é representante de um objeto de áudio registrado no campo sonoro.[1126] Clause 141541-8J. The device of clause 141541-1J, wherein the one or more processors are additionally configured to, during the selection of one of the plurality of codebooks, determine an estimate of a number of bits used to represent the spatial component using of one of a plurality of codebooks designed to be used when the spatial component is representative of an audio object registered in the sound field.

[1127] Cláusula 141541-9J. O dispositivo de qualquer combinação de reivindicações 1J a 8J, em que a síntese com base em vetor compreende uma decomposição de valor singular.[1127] Clause 141541-9J. The device of any combination of claims 1J to 8J, wherein the vector-based synthesis comprises a singular value decomposition.

[1128] Em cada um dos vários exemplos descritos acima, deve ser entendido que o dispositivo de codificação de áudio 510 pode realizar um método ou de outra forma compreender meios para cada etapa do método para o qual o dispositivo de codificação de áudio 510 seja configurado para realizar. Em alguns exemplos, esses meios podem compreender uma ou mais processadores. Em alguns exemplos, o um ou mais processadores podem representar um processador de propósito especial configurado por meio de instruções armazenadas a uma mídia de armazenamento legível por computador não transitória. Em outras palavras, os vários aspectos das técnicas em cada um dos conjuntos de exemplos de codificação podem fornecer uma mídia de armazenamento legível por computador não transitória que tem armazenada na mesma, instruções que, quando executadas, fazem com que o um ou mais processadores realizem o método para o qual o dispositivo de codificação de áudio 510 foi configurado para realizar.[1128] In each of the various examples described above, it is to be understood that the audio encoding device 510 may perform a method or otherwise comprise means for each step of the method for which the audio encoding device 510 is configured to perform. In some examples, these means may comprise one or more processors. In some examples, the one or more processors may represent a special-purpose processor configured through instructions stored on non-transient computer-readable storage media. In other words, the various aspects of the techniques in each of the sets of encoding examples can provide a non-transient computer-readable storage medium that has stored on it instructions that, when executed, cause the one or more processors to perform the method for which the audio encoding device 510 was configured to perform.

[1129] A Figura 40J é um diagrama de blocos que ilustra um dispositivo de codificação de áudio exemplificativo 510J que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descrevem dois ou mais campos sonoros tridimensionais. O dispositivo de codificação de áudio exemplificativo 510J pode ser similar ao dispositivo de codificação de áudio exemplificativo 510G em que o dispositivo de codificação de áudio exemplificativo 510J inclui uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de fluxo de bits 516. Além disso, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio exemplificativo 510J pode ser similar à do dispositivo de codificação de áudio exemplificativo 510G em que a unidade de compressão de áudio 512 inclui uma unidade de decomposição 518 e uma unidade de extração de componente de campo sonoro 520, que pode operar similarmente às unidades semelhantes do dispositivo de codificação de áudio exemplificativo 510I. Em alguns exemplos, o dispositivo de codificação de áudio exemplificativo 510J pode incluir uma unidade de quantização 534, conforme descrito em relação às Figuras 40D a 40E, para quantizar um ou mais vetores de qualquer um dos vetores UDIST 525C, os vetores UBG 525D, os vetores VTDIST 525E e os vetores VTBG 525J.[1129] Figure 40J is a block diagram illustrating an exemplary audio encoding device 510J that can perform various aspects of the techniques described in this disclosure to compress spherical harmonic coefficients that describe two or more three-dimensional sound fields. The exemplary audio encoding device 510J may be similar to the exemplary audio encoding device 510G in that the exemplary audio encoding device 510J includes an audio compression unit 512, an audio encoding unit 514 and a generation unit. 516. In addition, the audio compression unit 512 of the exemplary audio coding device 510J may be similar to that of the exemplary audio coding device 510G wherein the audio compression unit 512 includes a decomposition unit. 518 and a sound field component extraction unit 520, which may operate similarly to similar units of the exemplary audio encoding device 510I. In some examples, the exemplary audio encoding device 510J may include a quantization unit 534, as described with respect to Figures 40D through 40E, for quantizing one or more vectors of any of the UDIST vectors 525C, the UBG vectors 525D, the VTDIST 525E vectors and the VTBG 525J vectors.

[1130] A unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510J pode, entretanto, diferir da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510G em que a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510J inclui uma unidade adicional denotada como unidade de interpolação 550. A unidade de interpolação 550 pode representar uma unidade que interpola subquadros de um primeiro quadro de áudio a partir dos subquadros do primeiro quadro de áudio e um segundo temporalmente subsequente ou quadro de áudio precedente, conforme descrito em mais detalhes abaixo em relação às Figuras 45 e 45B. A unidade de interpolação 550 pode, ao realizar essa interpolação, reduzir a complexidade computacional (em termos de ciclos de processamento e/ou consumo de memória) por potencialmente reduzir a extensão a qual a unidade de decomposição 518 é exigida para decompor os SHC 511. A unidade de interpolação 550 pode operar de uma maneira similar à descrita acima em relação à unidade de interpolação 550 dos dispositivos de codificação de áudio 510H e 510I mostrados nos exemplos das Figuras 40H e 40I.[1130] The audio compression unit 512 of the audio encoding device 510J may, however, differ from the audio compression unit 512 of the audio encoding device 510G in that the audio compression unit 512 of the audio encoding device 512 audio 510J includes an additional unit denoted interpolation unit 550. Interpolation unit 550 may represent a unit that interpolates subframes of a first audio frame from subframes of the first audio frame and a temporally subsequent second or preceding audio frame , as described in more detail below with respect to Figures 45 and 45B. The interpolation unit 550 can, by performing this interpolation, reduce computational complexity (in terms of processing cycles and/or memory consumption) by potentially reducing the extent to which the decomposition unit 518 is required to decompose the SHC 511. Interpolation unit 550 may operate in a similar manner as described above with respect to interpolation unit 550 of audio coding devices 510H and 510I shown in the examples of Figures 40H and 40I.

[1131] Em operação, a unidade de interpolação 200 pode interpolar um ou mais subquadros de um primeiro quadro de áudio a partir de uma primeira decomposição, por exemplo, a matriz V 19’, de uma porção de uma primeira pluralidade de coeficientes harmônicos esféricos 11 incluídos no primeiro quadro e uma segunda decomposição, por exemplo, a matriz V 19’, de uma porção de uma segunda pluralidade de coeficientes harmônicos esféricos 11 incluídos em um segundo quadro para gerar coeficientes harmônicos esféricos interpolados decompostos para o um ou mais subquadros.[1131] In operation, the interpolation unit 200 may interpolate one or more subframes of a first audio frame from a first decomposition, e.g., the V matrix 19', of a portion of a first plurality of spherical harmonic coefficients 11 included in the first frame and a second decomposition, e.g. matrix V 19', of a portion of a second plurality of spherical harmonic coefficients 11 included in a second frame to generate interpolated spherical harmonic coefficients decomposed for the one or more subframes.

[1132] A unidade de interpolação 550 pode obter coeficientes harmônicos esféricos interpolados decompostos por um segmento de tempo por, pelo menos em parte, realizar uma interpolação em relação a uma primeira decomposição de uma primeira pluralidade de coeficientes harmônicos esféricos e uma decomposição de uma segunda pluralidade de coeficientes harmônicos esféricos. A unidade de suavização 554 pode aplicar os coeficientes harmônicos esféricos interpolados decompostos para suavizar pelo menos um dentre componentes especiais e componentes de tempo da primeira pluralidade de coeficientes harmônicos esféricos e da segunda pluralidade de coeficientes harmônicos esféricos. A unidade de suavização 554 pode gerar matrizes UDIST suavizadas 525C’ conforme descritas acima em relação às Figuras 37 a 39 A primeira e segunda decomposições podem se referir aos V1T 556, V2T 556B na Figura 40J.[1132] The interpolation unit 550 can obtain interpolated spherical harmonic coefficients decomposed by a time segment by, at least in part, performing an interpolation with respect to a first decomposition of a first plurality of spherical harmonic coefficients and a decomposition of a second plurality of spherical harmonic coefficients. Smoothing unit 554 may apply the decomposed interpolated spherical harmonic coefficients to smooth at least one of special components and time components of the first plurality of spherical harmonic coefficients and the second plurality of spherical harmonic coefficients. Smoothing unit 554 can generate smoothed UDIST matrices 525C' as described above with respect to Figures 37 to 39. The first and second decompositions can refer to V1T 556, V2T 556B in Figure 40J.

[1133] Em alguns casos, VT ou outros vetores V ou matrizes V pode ser emitido em uma versão quantizada para interpolação. Dessa maneira, os vetores V para a interpolação podem ser idênticos aos vetores V no decodificador, que também realiza a interpolação do vetor V, por exemplo, para recuperar o sinal multidimensional.[1133] In some cases, VT or other V vectors or V matrices may be output in a quantized version for interpolation. In this way, the V vectors for the interpolation can be identical to the V vectors in the decoder, which also performs the V vector interpolation, for example, to recover the multidimensional signal.

[1134] Em alguns exemplos, a primeira decomposição compreende a primeira matriz V 519’ representante de vetores singulares à direita da porção da primeira pluralidade de coeficientes harmônicos esféricos 511. De forma semelhante, em alguns exemplos, a segunda decomposição compreende a segunda matriz V 519’ representante de vetores singulares à direita da porção da segunda pluralidade de coeficientes harmônicos esféricos.[1134] In some examples, the first decomposition comprises the first matrix V 519' representative of singular vectors to the right of the portion of the first plurality of spherical harmonic coefficients 511. Similarly, in some examples, the second decomposition comprises the second matrix V 519' representative of singular vectors to the right of the portion of the second plurality of spherical harmonic coefficients.

[1135] A unidade de interpolação 550 pode realizar uma interpolação temporal em relação ao um ou mais subquadros com base na primeira V 519’ e na segunda matriz V 19’. Isto é, a unidade de interpolação 550 pode interpolar temporalmente, por exemplo, o segundo, terceiro e quarto subquadros de um total de quatro subquadros para o primeiro quadro de áudio com base em uma matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio e na matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio. Em alguns exemplos, essa interpolação temporal é uma interpolação temporal linear, onde a matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio é ponderada mais fortemente durante a interpolação do segundo subquadro do primeiro quadro de áudio do que durante a interpolação do quarto subquadro do primeiro quadro de áudio. Durante a interpolação do terceiro subquadro, as matrizes V 519’ podem ser ponderadas igualmente. Durante a interpolação do quarto subquadro, a matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio pode ser mais fortemente ponderada do que a matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio.[1135] Interpolation unit 550 may perform temporal interpolation with respect to the one or more subframes based on the first V 519' and the second V matrix 19'. That is, the interpolation unit 550 can temporally interpolate, for example, the second, third and fourth subframes of a total of four subframes for the first audio frame based on a V matrix 519' decomposed from the first subframe of the first audio frame and in the V matrix 519' decomposed from the first subframe of the second audio frame. In some examples, this temporal interpolation is linear temporal interpolation, where the matrix V 519' decomposed from the first subframe of the first audio frame is weighted more heavily during interpolation of the second subframe of the first audio frame than during interpolation of the fourth subframe of the first audio frame. During the interpolation of the third subframe, the V arrays 519' may be weighted equally. During the interpolation of the fourth subframe, the V matrix 519' decomposed from the first subframe of the second audio frame can be more heavily weighted than the V matrix 519' decomposed from the first subframe of the first audio frame.

[1136] Em outras palavras, a interpolação temporal linear pode ponderar as matrizes V 519’ dada a proximidade de um dos subquadros do primeiro quadro de áudio a ser interpolado. Para o segundo subquadro a ser interpolado, a matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio é ponderada mais fortemente dada sua proximidade ao segundo subquadro a ser interpolado do que a matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio. Os pesos podem ser equivalentes por essa razão durante a interpolação do terceiro subquadro com base nas matrizes V 519’. O peso aplicado à matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio pode ser maior do que o aplicado à matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio dado que o quarto subquadro a ser interpolado está mais próximo ao primeiro subquadro do segundo quadro de áudio do que o primeiro subquadro do primeiro quadro de áudio.[1136] In other words, linear temporal interpolation can weight V matrices 519' given the proximity of one of the subframes of the first audio frame to be interpolated. For the second subframe to be interpolated, the V matrix 519' decomposed from the first subframe of the first audio frame is weighted more heavily given its proximity to the second subframe to be interpolated than the V matrix 519' decomposed from the first subframe of the second audio frame. The weights may be equivalent for that reason during the interpolation of the third subframe based on the V matrices 519'. The weight applied to the V matrix 519' decomposed from the first subframe of the second audio frame can be greater than that applied to the V matrix 519' decomposed from the first subframe of the first audio frame as the fourth subframe is to be interpolated is closer to the first subframe of the second audio frame than the first subframe of the first audio frame.

[1137] Em alguns exemplos, a unidade de interpolação 550 pode projetar a primeira matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio em um domínio espacial para gerar as primeiras decomposições projetadas. Em alguns exemplos, essa projeção inclui uma projeção em uma esfera (por exemplo, com o uso de uma matriz de projeção, tal como uma matriz de projeto em T). A unidade de interpolação 550 pode, então, projetar a segunda matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio no domínio espacial para gerar as segundas decomposições projetadas. A unidade de interpolação 550 pode, então, interpolar espacialmente (o que novamente pode ser uma interpolação linear) as primeiras decomposições projetadas e as segundas decomposições projetadas para gerar uma primeira decomposição projetada espacialmente interpolada e uma segunda decomposição projetada espacialmente interpolada. A unidade de interpolação 550 pode, então, interpolar temporalmente o um ou mais subquadros com base na primeira decomposição projetada espacialmente interpolada e na segunda decomposição projetada espacialmente interpolada.[1137] In some examples, the interpolation unit 550 can project the first V matrix 519' decomposed from the first subframe of the first audio frame into a spatial domain to generate the first projected decompositions. In some examples, this projection includes a projection onto a sphere (for example, using a projection matrix, such as a T-design matrix). The interpolation unit 550 can then project the second decomposed V matrix 519' from the first subframe of the second audio frame into the spatial domain to generate the second projected decompositions. The interpolation unit 550 can then spatially interpolate (which again can be a linear interpolation) the first projected decompositions and the second projected decompositions to generate a first spatially interpolated projected decomposition and a second spatially interpolated projected decomposition. The interpolation unit 550 can then temporally interpolate the one or more subframes based on the first spatially interpolated projected decomposition and the second spatially interpolated projected decomposition.

[1138] Nesse exemplo onde a unidade de interpolação 550 espacialmente e, depois, temporalmente projeta as matrizes V 519’, a unidade de interpolação 550 pode projetar os coeficientes harmônicos esféricos temporalmente interpolados que resultam da interpolação do um ou mais subquadros de volta a um domínio harmônico esférico, gerando desse modo a matriz V 519, a matriz S 519B e a matriz U 519C.[1138] In this example where the interpolation unit 550 spatially and then temporally projects the V arrays 519', the interpolation unit 550 can project the temporally interpolated spherical harmonic coefficients that result from interpolation of the one or more subframes back to a spherical harmonic domain, thereby generating the V matrix 519, the S matrix 519B and the U matrix 519C.

[1139] Em alguns exemplos, a porção da primeira pluralidade de coeficientes harmônicos esféricos compreende um único subquadro da primeira pluralidade de coeficientes harmônicos esféricos 511. Em alguns exemplos, a porção da segunda pluralidade de coeficientes harmônicos esféricos compreende um único subquadro da segunda pluralidade de coeficientes harmônicos esféricos 511. Em alguns exemplos, esse único subquadro a partir do qual as matrizes V 19’ são decompostas é o primeiro subquadro.[1139] In some examples, the portion of the first plurality of spherical harmonic coefficients comprises a single subframe of the first plurality of spherical harmonic coefficients 511. In some examples, the portion of the second plurality of spherical harmonic coefficients comprises a single subframe of the second plurality of spherical harmonic coefficients. spherical harmonic coefficients 511. In some examples, that single subframe from which the V matrices 19' are decomposed is the first subframe.

[1140] Em alguns exemplos, o primeiro quadro é dividido em quatro subquadros. Nesses e outros exemplos, a porção da primeira pluralidade de coeficientes harmônicos esféricos compreende somente o primeiro subquadro da pluralidade de coeficientes harmônicos esféricos 511. Nesses e outros exemplos, o segundo quadro é dividido em quatro subquadros, e a porção da segunda pluralidade de coeficientes harmônicos esféricos 511 compreende somente o primeiro subquadro da segunda pluralidade de coeficientes harmônicos esféricos 511.[1140] In some examples, the first frame is divided into four subframes. In these and other examples, the portion of the first plurality of spherical harmonic coefficients comprises only the first subframe of the plurality of spherical harmonic coefficients 511. In these and other examples, the second frame is divided into four subframes, and the portion of the second plurality of spherical harmonic coefficients spherical harmonics 511 comprises only the first subframe of the second plurality of spherical harmonic coefficients 511.

[1141] Embora, em alguns exemplos, somente um primeiro subquadro de cada quadro de áudio seja usado para realizar a interpolação, a porção da primeira pluralidade de coeficientes harmônicos esféricos pode compreender dois de quatro subquadros da primeira pluralidade de coeficientes harmônicos esféricos 511. Nesses e outros exemplos, a porção da segunda pluralidade de coeficientes harmônicos esféricos 511 compreende dois de quatro subquadros da segunda pluralidade de coeficientes harmônicos esféricos 511.[1141] Although, in some examples, only a first subframe of each audio frame is used to perform interpolation, the portion of the first plurality of spherical harmonic coefficients may comprise two of four subframes of the first plurality of spherical harmonic coefficients 511. In such and other examples, the portion of the second plurality of spherical harmonic coefficients 511 comprises two of four subframes of the second plurality of spherical harmonic coefficients 511.

[1142] Conforme observado acima, um dispositivo único, por exemplo, dispositivo de codificação de áudio 510J, pode realizar a interpolação enquanto também decompõe a porção da primeira pluralidade de coeficientes harmônicos esféricos para gerar as primeiras decomposições da porção da primeira pluralidade de coeficientes harmônicos esféricos. Nesses e outros exemplos, a unidade de decomposição 518 pode decompor a porção da segunda pluralidade de coeficientes harmônicos esféricos para gerar as segundas decomposições da porção da segunda pluralidade de coeficientes harmônicos esféricos. Embora descrito em relação a um dispositivo único, dois ou mais dispositivos podem realizar as técnicas descritas nesta revelação, em que um dos dois dispositivos realiza a decomposição e o outro dos dispositivos realiza a interpolação de acordo com as técnicas descritas nesta revelação.[1142] As noted above, a single device, for example, audio encoding device 510J, can perform the interpolation while also decomposing the portion of the first plurality of spherical harmonic coefficients to generate the first decompositions of the portion of the first plurality of spherical harmonic coefficients spherical. In these and other examples, the decomposition unit 518 may decompose the portion of the second plurality of spherical harmonic coefficients to generate second decompositions of the portion of the second plurality of spherical harmonic coefficients. While described with respect to a single device, two or more devices can perform the techniques described in this disclosure, wherein one of the two devices performs decomposition and the other of the devices performs interpolation in accordance with the techniques described in this disclosure.

[1143] Em alguns exemplos, a unidade de decomposição 518 pode realizar uma decomposição de valor singular em relação à porção da primeira pluralidade de coeficientes harmônicos esféricos 511 para gerar uma matriz V 519’ (assim como uma matriz S 519B’ e uma matriz U 519C’, que não são mostradas para facilidade de propósitos de ilustração) representante de vetores singulares à direita da primeira pluralidade de coeficientes harmônicos esféricos 511. Nesses e outros exemplos, a unidade de decomposição 518 pode realizar a decomposição de valor singular em relação à porção da segunda pluralidade de coeficientes harmônicos esféricos 511 para gerar uma matriz V 519’ (assim como uma matriz S 519B’ e uma matriz U 519C’, que não são mostradas para facilidade de propósitos de ilustração) representante de vetores singulares à direita da segunda pluralidade de coeficientes harmônicos esféricos.[1143] In some examples, the decomposition unit 518 may perform a singular value decomposition with respect to the portion of the first plurality of spherical harmonic coefficients 511 to generate a V matrix 519' (as well as an S matrix 519B' and a U matrix 519C', which are not shown for ease of illustration purposes) representative of singular vectors to the right of the first plurality of spherical harmonic coefficients 511. In these and other examples, the decomposition unit 518 can perform singular value decomposition with respect to the portion of the second plurality of spherical harmonic coefficients 511 to generate a V matrix 519' (as well as an S matrix 519B' and a U matrix 519C', which are not shown for ease of illustration purposes) representative of right-hand singular vectors of the second plurality of spherical harmonic coefficients.

[1144] Em alguns exemplos, conforme observado acima, cada uma das primeira e segunda pluralidades de coeficientes harmônicos esféricos representam uma representação de onda plana do campo sonoro. Nesses e outros exemplos, cada uma das primeira e segunda pluralidades de coeficientes harmônicos esféricos 511 representam um ou mais objetos de áudio mono misturados entre si.[1144] In some examples, as noted above, each of the first and second pluralities of spherical harmonic coefficients represents a plane wave representation of the sound field. In these and other examples, each of the first and second pluralities of spherical harmonic coefficients 511 represents one or more mono audio objects mixed together.

[1145] Em outras palavras, o áudio 3D com base em harmônicos esféricos pode ser uma representação paramétrica do campo de pressão 3D em termos de funções de base ortogonal em uma esfera. Quanto maior a ordem de N da representação, potencialmente maior será a resolução espacial, e frequentemente maior será o número de coeficientes harmônicos esféricos (SH) (para um total de (N+1)2 coeficientes). Para muitas aplicações, pode ser exigido uma compressão de largura de banda dos coeficientes para ter a capacidade de transmitir e armazenar os coeficientes de modo eficiente. Essas técnicas direcionadas nesta revelação podem fornecer um processo de redução de dimensionalidade com base em quadro com o uso de Decomposição de Valor Singular (SVD). A análise de SVD pode decompor cada quadro de coeficientes em três matrizes U, S e V. Em alguns exemplos, as técnicas podem lidar com alguns dos vetores em U como componentes direcionais do campo sonoro subjacente. Entretanto, quando tratados dessa maneira, esses vetores (em U) são descontínuos de quadro a quadro - mesmo que os mesmos representem o mesmo componente de áudio distinto. Essas descontinuidades podem levar a artefatos significantes quando os componentes são alimentados através de codificadores de áudio de transformada.[1145] In other words, 3D audio based on spherical harmonics can be a parametric representation of the 3D pressure field in terms of orthogonal basis functions on a sphere. The higher the N order of the representation, the potentially higher the spatial resolution, and often the greater the number of spherical harmonic (SH) coefficients (for a total of (N+1)2 coefficients). For many applications, bandwidth compression of the coefficients may be required to be able to efficiently transmit and store the coefficients. These techniques addressed in this disclosure can provide a frame-based dimensionality reduction process using Singular Value Decomposition (SVD). SVD analysis can decompose each frame of coefficients into three matrices U, S and V. In some examples, the techniques can deal with some of the U-vectors as directional components of the underlying sound field. However, when treated this way, these (U-shaped) vectors are discontinuous from frame to frame - even though they represent the same distinct audio component. These discontinuities can lead to significant artifacts when components are fed through transform audio encoders.

[1146] As técnicas descritas nesta revelação podem abordar essa descontinuidade. Isto é, as técnicas podem estar baseadas na observação que a matriz V pode ser interpretada como eixos geométricos espaciais ortogonais no domínio de Harmônicos Esféricos. A matriz U pode representar uma projeção dos dados Harmônicos Esféricos (HOA) em termos dessas funções de base, onde a descontinuidade pode ser atribuída às funções de base (V) que alteram todo quadro - e as mesmas são, portanto, descontínuas. Isso é diferente de decomposição similar, tal como a transformada de Fourier, onde as funções de base são, em alguns exemplos, constantes de quadro a quadro. Nesses termos, a SVD pode ser considerada como de um algoritmo de busca de compatibilidade. As técnicas descritas nesta revelação podem permitir que a unidade de interpolação 550 mantenha a continuidade entre as funções de base (V) de quadro a quadro - através da interpolação entre as mesmas.[1146] The techniques described in this disclosure can address this discontinuity. That is, the techniques can be based on the observation that the matrix V can be interpreted as orthogonal spatial axes in the domain of Spherical Harmonics. The matrix U can represent a projection of the Spherical Harmonics (HOA) data in terms of these basis functions, where the discontinuity can be attributed to the basis functions (V) that change every frame - and they are therefore discontinuous. This is different from similar decomposition, such as the Fourier transform, where the basis functions are, in some instances, constants from frame to frame. In these terms, SVD can be considered as a compatibility search algorithm. The techniques described in this disclosure may allow the interpolation unit 550 to maintain continuity between the base (V) functions from frame to frame - by interpolating between them.

[1147] Em alguns exemplos, as técnicas permitem que a unidade de interpolação 550 divida o quadro de dados de SH em quatro subquadros, conforme descrito acima e descrito adicionalmente abaixo em relação às Figuras 45 e 45B. A unidade de interpolação 550 pode, então, computar a SVD para o primeiro subquadro. Similarmente, computamos a SVD para o primeiro subquadro do segundo quadro. Para cada um do primeiro quadro e do segundo quadro, a unidade de interpolação 550 pode converter os vetores em V para um mapa espacial projetando- se os vetores em uma esfera (com o uso de uma matriz de projeção tal como uma matriz de projeto em T). A unidade de interpolação 550 pode, então, interpretar os vetores em V como formatos em uma esfera. Para interpolar as matrizes V para os três subquadros entre o primeiro subquadro do primeiro quadro e o primeiro subquadro do quadro seguinte, a unidade de interpolação 550 pode, então, interpolar esses formatos espaciais - e, então, transformar os mesmo de volta aos vetores SH através da inversa da matriz de projeção. As técnicas desta revelação podem, dessa maneira, fornecer uma transição suave entre as matrizes V.[1147] In some examples, the techniques allow the interpolation unit 550 to divide the SH data frame into four subframes as described above and described further below with respect to Figures 45 and 45B. The interpolation unit 550 can then compute the SVD for the first subframe. Similarly, we compute the SVD for the first subframe of the second frame. For each of the first and second frames, the interpolation unit 550 can convert the V vectors to a spatial map by projecting the vectors onto a sphere (using a projection matrix such as a project matrix in T). The interpolation unit 550 can then interpret the vectors in V as shapes on a sphere. To interpolate the V matrices for the three subframes between the first subframe of the first frame and the first subframe of the next frame, the interpolation unit 550 can then interpolate these spatial formats - and then transform them back to vectors SH through the inverse of the projection matrix. The techniques of this disclosure can thus provide a smooth transition between V matrices.

[1148] As Figuras 41 e 41D são diagramas de blocos, em que cada um ilustra um dispositivo de decodificação de áudio exemplificativo 540A-540D que pode realizar vários aspectos das técnicas descritas nesta revelação para decodificar coeficientes harmônicos esféricos que descrevem campos sonoros de duas ou três dimensões. O dispositivo de decodificação de áudio 540A pode representar qualquer dispositivo que tenha a capacidade de decodificar dados de áudio, tal como um computador de mesa, um computador do tipo laptop, uma estação de trabalho, um computador do tipo tablet ou tipo slate, um dispositivo de gravação de áudio dedicado, um telefone celular (que inclui os chamados “telefones inteligente”), um dispositivo leitor de mídia pessoal, um dispositivo de jogos pessoal ou qualquer outro tipo de dispositivo que tenha a capacidade de decodificar dados de áudio.[1148] Figures 41 and 41D are block diagrams, each of which illustrates an exemplary audio decoding device 540A-540D that can perform various aspects of the techniques described in this disclosure for decoding spherical harmonic coefficients that describe sound fields of two or more three dimensions. The 540A audio decoding device can represent any device that has the ability to decode audio data, such as a desktop computer, a laptop computer, a workstation, a tablet or slate type computer, a audio recording device, a cell phone (which includes so-called “smart phones”), a personal media player device, a personal gaming device, or any other type of device that has the ability to decode audio data.

[1149] Em alguns exemplos, o dispositivo de decodificação de áudio 540A realiza um processo de decodificação de áudio que é recíproco ao processo de codificação de áudio realizado por qualquer um dos dispositivos de codificação de áudio 510 ou 510B com a exceção de realizar a redução de ordem (conforme descrito acima em relação aos exemplos das Figuras 40B a 40J), que é, em alguns exemplos, usada pelos dispositivos de codificação de áudio 510B a 510J para facilitar a remoção de dados irrelevantes estranhos.[1149] In some examples, the audio decoding device 540A performs an audio decoding process that is reciprocal to the audio encoding process performed by any of the audio encoding devices 510 or 510B with the exception of performing reduction of order (as described above with respect to the examples of Figures 40B to 40J), which is, in some examples, used by audio encoding devices 510B to 510J to facilitate the removal of extraneous extraneous data.

[1150] Embora mostrado como um dispositivo único, isto é, o dispositivo 540A no exemplo da Figura 41, os vários componentes ou unidades referenciados abaixo como sendo incluídos dentro do dispositivo 540A podem formar dispositivos separados que são externos do dispositivo 540. Em outras palavras, embora descrito nesta revelação como sendo realizadas por um dispositivo único, isto é, o dispositivo 540A no exemplo da Figura 41, as técnicas podem ser implantadas ou de outra forma, realizadas por um sistema que compreende múltiplos dispositivos, onde cada um desses dispositivos pode cada um incluir um ou mais dos vários componentes ou unidades descritos em mais detalhes abaixo. Consequentemente, as técnicas não devem ser limitadas a esse respeito, ao exemplo da Figura 41.[1150] Although shown as a single device, i.e., device 540A in the example of Figure 41, the various components or units referenced below as being included within device 540A may form separate devices that are external to device 540. In other words , although described in this disclosure as being performed by a single device, i.e., the device 540A in the example of Figure 41, the techniques may be implanted or otherwise performed by a system comprising multiple devices, where each such device may each include one or more of the various components or units described in more detail below. Consequently, the techniques should not be limited in this regard to the example in Figure 41.

[1151] Conforme mostrado no exemplo da Figura 41, o dispositivo de decodificação de áudio 540A compreende uma unidade de extração 542, uma unidade de decodificação de áudio 544, uma unidade matemática 546 e uma unidade de renderização de áudio 548. A unidade de extração 542 representa uma unidade configurada para extrair os coeficientes harmônicos esféricos de segundo plano reduzidos codificados 515B, os vetores UDIST * SDIST codificados 515A e os vetores VTDIST 525E a partir do fluxo de bits 517. A unidade de extração 542 emite os coeficientes harmônicos esféricos de segundo plano reduzidos codificados 515B e os vetores UDIST * SDIST codificados 515A para a unidade de decodificação de áudio 544, enquanto também emite a matriz VTDIST 525E para a unidade matemática 546. Nesse aspecto, a unidade de extração 542 pode operar de uma maneira similar à unidade de extração 72 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5.[1151] As shown in the example of Figure 41, the audio decoding device 540A comprises an extraction unit 542, an audio decoding unit 544, a math unit 546 and an audio rendering unit 548. The extraction unit 542 represents a unit configured to extract 515B coded reduced background spherical harmonic coefficients, 515A coded UDIST * SDIST vectors, and 525E VTDIST vectors from bit stream 517. Extractor unit 542 outputs spherical second harmonic coefficients. 515B encoded reduced planes and 515A encoded UDIST * SDIST vectors to the audio decoding unit 544, while also outputting the VTDIST matrix 525E to the math unit 546. In this regard, the extraction unit 542 may operate in a similar manner to the unit extraction 72 of the audio decoding device 24 shown in the example of Figure 5.

[1152] A unidade de decodificação de áudio 544 representa uma unidade para decodificar os dados de áudio codificados (frequentemente de acordo com um esquema de decodificação de áudio recíproco, tal como um esquema de decodificação de AAC) de modo a recuperar os vetores UDIST * SDIST 527 e os coeficientes harmônicos esféricos de segundo plano reduzidos 529. A unidade de decodificação de áudio 544 emite os vetores UDIST * SDIST 527 e os coeficientes harmônicos esféricos de segundo plano reduzidos 529 para a unidade matemática 546. Nesse aspecto, a unidade de decodificação de áudio 544 pode operar de uma maneira similar à unidade de decodificação psicoacústica 80 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5.[1152] Audio decoding unit 544 represents a unit for decoding the encoded audio data (often according to a reciprocal audio decoding scheme, such as an AAC decoding scheme) in order to recover the UDIST* vectors SDIST 527 and reduced background spherical harmonic coefficients 529. The audio decoding unit 544 outputs the UDIST * SDIST vectors 527 and reduced background spherical harmonic coefficients 529 to the math unit 546. In this regard, the decoding unit 544 can operate in a similar manner to the psychoacoustic decoding unit 80 of the audio decoding device 24 shown in the example of Figure 5.

[1153] A unidade matemática 546 pode representar uma unidade configurada para realizar a soma e a multiplicação de matriz (assim como, em alguns exemplos, qualquer outra operação matemática de matriz). A unidade matemática 546 pode primeiramente realizar uma multiplicação de matriz dos vetores UDIST * SDIST 527 pela matriz VTDIST 525E. A unidade matemática 546 pode, então, adicionar o resultado da multiplicação dos vetores UDIST * SDIST 527 pela matriz VTDIST 525E pelos coeficientes harmônicos esféricos de segundo plano reduzidos 529 (os quais, novamente, podem se referir ao resultado da multiplicação da matriz UBG 525D pela matriz SBG 525B e, então, pela matriz VTBG 525F) ao resultado da multiplicação de matriz dos vetores UDIST * SDIST 527 pela matriz VTDIST 525E para gerar a versão reduzida dos coeficientes harmônicos esféricos originais 11, os quais são denotados como coeficientes harmônicos esféricos recuperados 547. A unidade matemática 546 pode emitir os coeficientes harmônicos esféricos recuperados 547 para a unidade de renderização de áudio 548. Nesse aspecto, a unidade matemática 546 pode operar de uma maneira similar à unidade de formulação de primeiro plano 78 e a unidade de formulação de coeficiente de HOA 82 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5.[1153] Math unit 546 can represent a unit configured to perform matrix addition and multiplication (as well as, in some examples, any other matrix math operation). The math unit 546 may first perform a matrix multiplication of the UDIST * SDIST vectors 527 by the VTDIST matrix 525E. The math unit 546 can then add the result of multiplying the UDIST * SDIST vectors 527 by the VTDIST matrix 525E by the reduced background spherical harmonic coefficients 529 (which, again, can refer to the result of multiplying the UBG matrix 525D by the matrix SBG 525B and then matrix VTBG 525F) to the result of matrix multiplication of vectors UDIST * SDIST 527 by matrix VTDIST 525E to generate the reduced version of the original spherical harmonic coefficients 11, which are denoted as recovered spherical harmonic coefficients 547 The math unit 546 may output the recovered spherical harmonic coefficients 547 to the audio rendering unit 548. In this regard, the math unit 546 may operate in a similar manner to the foreground formulation unit 78 and the coefficient formulation unit 546. of HOA 82 of the audio decoding device 24 shown in the example of Figure 5.

[1154] A unidade de renderização de áudio 548 representa uma unidade configurada para render os canais 549A-549N (os “canais 549”, que também podem ser genericamente referidos como os “dados de áudio de multicanal 549” ou como “alimentos de alto-falantes 549”). A unidade de renderização de áudio 548 pode aplicar uma transformada (frequentemente expressada na forma de uma matriz) aos coeficientes harmônicos esféricos recuperados 547. Visto que os coeficientes harmônicos esféricos recuperados 547 descrevem o campo sonoro em três dimensões, os coeficientes harmônicos esféricos recuperados 547 representam um formato de áudio que facilita a renderização dos dados de áudio de multicanal 549A de uma maneira que tenha a capacidade de acomodar a maioria de geometrias de alto-falantes de decodificador local (que pode ser referir à geometria dos alto-falantes que irão reproduzir dados de áudio de multicanal 549). Mais informações sobre a renderização dos dados de áudio de multicanal 549A são descritas acima em relação à Figura 48.[1154] The 548 audio rendering unit represents a unit configured to render the 549A-549N channels (the “549 channels”, which may also be generically referred to as the “549 multi-channel audio data” or “high -speakers 549”). The audio rendering unit 548 can apply a transform (often expressed as a matrix) to the recovered spherical harmonic coefficients 547. Since the recovered spherical harmonic coefficients 547 describe the sound field in three dimensions, the recovered spherical harmonic coefficients 547 represent an audio format that facilitates the rendering of 549A multichannel audio data in a way that has the ability to accommodate most local decoder speaker geometries (which may refer to the geometry of the speakers that will play data multichannel audio stream 549). More information on rendering the 549A multichannel audio data is described above with respect to Figure 48.

[1155] Embora descrito no contexto dos dados de áudio de multicanal 549A sendo dados de áudio de multicanal de som surround 549, a unidade de renderização de áudio 48 também pode realizar uma forma de binauralização para binauralizar os coeficientes harmônicos esféricos recuperados 549A e desse modo, gerar dois canais binauralmente renderizados 549. Consequentemente, as técnicas não devem ser limitadas a formas de som surround de dados de áudio de multicanal, mas podem incluir dados de áudio de multicanal binauralizados.[1155] Although described in the context of the multichannel audio data 549A being multichannel surround sound audio data 549, the audio rendering unit 48 can also perform a form of binauralization to binauralize the recovered spherical harmonic coefficients 549A and thereby , generate two binaurally rendered channels 549. Consequently, the techniques should not be limited to surround sound forms of multichannel audio data, but may include binauralized multichannel audio data.

[1156] As várias cláusulas listadas abaixo podem apresentar vários aspectos das técnicas descritas nesta revelação.[1156] The various clauses listed below may present various aspects of the techniques described in this disclosure.

[1157] Cláusula 132567-1B. Um dispositivo, tal como o dispositivo de decodificação de áudio 540, que compreende: um ou mais processadores configurados para determinar um ou mais primeiros vetores que descrevem componentes distintos do campo sonoro e um ou mais segundos vetores que descrevem componentes de segundo plano do campo sonoro, tanto o um ou mais primeiros vetores quanto o um ou mais segundos vetores gerados pelo menos através da realização de uma decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos.[1157] Clause 132567-1B. A device, such as audio decoding device 540, comprising: one or more processors configured to determine one or more first vectors that describe distinct components of the sound field and one or more second vectors that describe background components of the sound field , both the one or more first vectors and the one or more second vectors generated at least by performing a singular value decomposition with respect to the plurality of spherical harmonic coefficients.

[1158] Cláusula 132567-2B. O dispositivo de cláusula 132567-1B, em que o um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST codificados por áudio que, antes da codificação de áudio, foram gerados através da multiplicação de um ou mais vetores UDIST codificados por áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, em que a matriz U e a matriz S são geradas pelo menos através da realização da decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos, e em que o um ou mais processadores são configurados adicionalmente para decodificar por áudio o um ou mais vetores UDIST * SDIST codificados por áudio para gerar uma versão decodificada por áudio do um ou mais vetores UDIST * SDIST codificados por áudio.[1158] Clause 132567-2B. The device of clause 132567-1B, wherein the first one or more vectors comprise one or more audio-encoded UDIST * SDIST vectors that, prior to audio encoding, were generated by multiplying one or more audio-encoded UDIST vectors from a matrix U by one or more SDIST vectors of a matrix S, wherein the matrix U and the matrix S are generated at least by performing singular-value decomposition with respect to the plurality of spherical harmonic coefficients, and wherein the one or more processors are additionally configured to audio decode the one or more audio encoded UDIST * SDIST arrays to generate an audio decoded version of the one or more audio encoded UDIST * SDIST arrays.

[1159] Cláusula 132567-3B. O dispositivo de cláusula 132567-1B, em que o um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST codificados por áudio que, antes da codificação de áudio, foram gerados através da multiplicação de um ou mais vetores UDIST codificados por áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e um ou mais vetores VTDIST de uma transposta de uma matriz V, em que a matriz U, a matriz S e a matriz V são geradas pelo menos através da realização da decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos, e em que o um ou mais processadores são configurados adicionalmente para decodificar por áudio o um ou mais vetores UDIST * SDIST codificados por áudio para gerar uma versão decodificada por áudio do um ou mais vetores UDIST * SDIST codificados por áudio.[1159] Clause 132567-3B. The device of clause 132567-1B, wherein the first one or more vectors comprise one or more audio-encoded UDIST * SDIST vectors that, prior to audio encoding, were generated by multiplying one or more audio-encoded UDIST vectors from a matrix U by one or more SDIST vectors from a matrix S, and one or more vectors VTDIST from a transpose of a matrix V, where the matrix U, matrix S, and matrix V are generated at least by performing the decomposition of singular value with respect to the plurality of spherical harmonic coefficients, and wherein the one or more processors are additionally configured to audio decode the one or more audio encoded UDIST * SDIST vectors to generate an audio decoded version of the one or more vectors UDIST*SDIST audio encoded.

[1160] Cláusula 132567-4B. O dispositivo de cláusula 132567-3B, em que o um ou mais processadores são configurados adicionalmente para multiplicar os vetores UDIST * SDIST pelos vetores VTDIST para recuperar os da pluralidade de harmônicos esféricos representantes dos componentes distintos do campo sonoro.[1160] Clause 132567-4B. The clause device 132567-3B, wherein the one or more processors are further configured to multiply the UDIST * SDIST vectors by the VTDIST vectors to recover those of the plurality of spherical harmonics representing the distinct components of the sound field.

[1161] Cláusula 132567-5B. O dispositivo de cláusula 132567-1B, em que o um ou mais segundos vetores compreendem um ou mais vetores UBG * SBG * VTBG codificados por áudio que, antes da codificação por áudio, foram gerados através da multiplicação dos vetores UBG incluídos dentro de uma matriz U por vetores SBG incluídos dentro de uma matriz S e, então, por vetores VTBG incluídos dentro de uma transposta de uma matriz V, e em que a matriz S, a matriz U e a matriz V foram, cada uma, geradas pelo menos através da realização da decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos.[1161] Clause 132567-5B. The device of clause 132567-1B, wherein the one or more second vectors comprise one or more audio-encoded UBG * SBG * VTBG vectors that, prior to audio encoding, were generated by multiplying the UBG vectors included within a matrix U by vectors SBG enclosed within a matrix S and then by vectors VTBG enclosed within a transpose of a matrix V, and wherein the matrix S, the matrix U and the matrix V were each generated by at least performing the singular value decomposition with respect to the plurality of spherical harmonic coefficients.

[1162] Cláusula 132567-6B. O dispositivo de cláusula 132567-1B, em que o um ou mais segundos vetores compreendem um ou mais vetores UBG * SBG * VTBG codificados por áudio que, antes da codificação por áudio, foram gerados através da multiplicação de vetores UBG incluídos dentro de uma matriz U por vetores SBG incluídos dentro de uma matriz S e, então, por vetores VTBG incluídos dentro de uma transposta de uma matriz V, e em que a matriz S, a matriz U e a matriz V foram geradas pelo menos através da realização da decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos, e em que o um ou mais processadores são configurados adicionalmente para decodificar por áudio o um ou mais vetores UBG * SBG * VTBG codificados por áudio para gerar um ou mais vetores UBG * SBG * VTBG decodificados por áudio.[1162] Clause 132567-6B. The device of clause 132567-1B, wherein the one or more second vectors comprise one or more audio-encoded UBG * SBG * VTBG vectors that, prior to audio encoding, were generated by multiplying UBG vectors included within a matrix U by SBG vectors included within a matrix S and then by vectors VTBG included within a transpose of a matrix V, and where the matrix S, the matrix U and the matrix V were generated at least by performing the decomposition of singular value with respect to the plurality of spherical harmonic coefficients, and wherein the one or more processors are additionally configured to audio decode the one or more audio-encoded UBG * SBG * VTBG vectors to generate one or more UBG * SBG * vectors VTBG decoded by audio.

[1163] Cláusula 132567-7B. O dispositivo de cláusula 132567-1B, em que o um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST codificados por áudio que, antes da codificação por áudio, foram gerados através da multiplicação de um ou mais vetores UDIST codificados por áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e um ou mais vetores VTDIST de uma transposta de uma matriz V, em que a matriz U, a matriz S e a matriz V foram geradas pelo menos através da realização da decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos, e em que o um ou mais processadores são configurados adicionalmente para decodificar por áudio o um ou mais vetores UDIST * SDIST codificados por áudio para gerar o um ou mais vetores UDIST * SDIST vetores, e multiplicar os vetores UDIST * SDIST vetores pelos vetores VTDIST para recuperar os da pluralidade de coeficientes harmônicos esféricos que descrevem os componentes distintos do campo sonoro, em que o um mais segundos vetores compreendem um ou mais vetores UBG * SBG * VTBG codificados por áudio que, antes da codificação por áudio, foram gerados através da multiplicação de vetores UBG incluídos dentro da matriz U por vetores SBG incluídos dentro da matriz S e, então, por vetores VTBG incluídos dentro da transposta da matriz V, e em que o um ou mais processadores são configurados adicionalmente para decodificar por áudio o um ou mais vetores UBG * SBG * VTBG codificados por áudio para recuperar pelo menos uma porção da pluralidade dos coeficientes harmônicos esféricos que descrevem componentes de segundo plano do campo sonoro, e adiciona a pluralidade de coeficientes harmônicos esféricos que descrevem os componentes distintos do campo sonoro à pelo menos porção da pluralidade dos coeficientes harmônicos esféricos que descrevem componentes de segundo plano do campo sonoro para gerar uma versão reconstruída da pluralidade de coeficientes harmônicos esféricos.[1163] Clause 132567-7B. The device of clause 132567-1B, wherein the first one or more vectors comprise one or more audio-encoded UDIST * SDIST vectors that, prior to audio-encoding, were generated by multiplying one or more audio-encoded UDIST vectors from a matrix U by one or more SDIST vectors from a matrix S, and one or more vectors VTDIST from a transpose of a matrix V, where the matrix U, matrix S, and matrix V were generated at least by performing the decomposition of singular value with respect to the plurality of spherical harmonic coefficients, and wherein the one or more processors are additionally configured to audio decode the one or more audio-encoded UDIST * SDIST vectors to generate the one or more UDIST * SDIST vectors, and multiply the UDIST * SDIST vectors by the VTDIST vectors to recover those of the plurality of spherical harmonic coefficients that describe the distinct components of the sound field, where the plus one is The second vectors comprise one or more audio-encoded UBG * SBG * VTBG vectors that, prior to audio coding, were generated by multiplying UBG vectors included within matrix U by SBG vectors included within matrix S and then by vectors VTBG included within the transpose matrix V, and wherein the one or more processors are additionally configured to audio decode the one or more audio encoded UBG * SBG * VTBG vectors to recover at least a portion of the plurality of spherical harmonic coefficients that describe background components of the sound field, and adds the plurality of spherical harmonic coefficients that describe the distinct components of the sound field to at least a portion of the plurality of spherical harmonic coefficients that describe background components of the sound field to generate a reconstructed version of the sound field. plurality of spherical harmonic coefficients.

[1164] Cláusula 132567-8B. O dispositivo da cláusula 132567-1B, em que os um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST que, antes da codificação de áudio, foram gerados multiplicando-se um ou mais vetores UDIST codificados em áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e um ou mais vetores VTDIST de uma transposta de uma matriz V, em que a matriz U, a matriz S e a matriz V foram geradas pelo menos realizando-se a decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos, e em que os um ou mais processadores são configurados adicionalmente para determinar um valor D que indica o número de vetores a serem extraídos de um fluxo de bits para formar os um ou mais vetores UDIST * SDIST e os um ou mais vetores VTDIST.[1164] Clause 132567-8B. The device of clause 132567-1B, wherein the first one or more vectors comprise one or more UDIST*SDIST vectors which, prior to audio encoding, were generated by multiplying one or more audio-encoded UDIST vectors from a matrix U by one or more SDIST vectors from a matrix S, and one or more VTDIST vectors from a transpose of a matrix V, where the matrix U, the matrix S, and the matrix V were generated at least by performing the single-valued decomposition into with respect to the plurality of spherical harmonic coefficients, and wherein the one or more processors are additionally configured to determine a D value that indicates the number of vectors to be extracted from a bit stream to form the one or more UDIST*SDIST vectors and the one or more VTDIST vectors.

[1165] Cláusula 132567-9B. O dispositivo da cláusula 132567-10B, em que os um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST que, antes da codificação de áudio, foram gerados multiplicando-se um ou mais vetores UDIST codificados em áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e um ou mais vetores VTDIST de uma transposta de uma matriz V, em que a matriz U, a matriz S e a matriz V foram geradas pelo menos realizando-se a decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos, e em que os um ou mais processadores são configurados adicionalmente para determinar um valor D em um quadro de áudio, em uma base de quadro de áudio, que indica o número de vetores a serem extraídos de um fluxo de bits para formar os um ou mais vetores UDIST * SDIST e os um ou mais vetores VTDIST.[1165] Clause 132567-9B. The device of clause 132567-10B, wherein the first one or more vectors comprise one or more UDIST * SDIST vectors that, prior to audio encoding, were generated by multiplying one or more audio-encoded UDIST vectors of a matrix U by one or more SDIST vectors from a matrix S, and one or more VTDIST vectors from a transpose of a matrix V, where the matrix U, the matrix S, and the matrix V were generated at least by performing the single-valued decomposition into with respect to the plurality of spherical harmonic coefficients, and wherein the one or more processors are additionally configured to determine a D value in an audio frame, on an audio frame basis, which indicates the number of vectors to be extracted from a stream of bits to form the one or more UDIST * SDIST vectors and the one or more VTDIST vectors.

[1166] Cláusula 132567-1G. Um dispositivo, como o dispositivo de decodificação de áudio 540, que compreende: um ou mais processadores configurados para determinar um ou mais primeiros vetores que descrevem componentes distintos de um campo sonoro e um ou mais segundos vetores que descrevem componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos realizando-se uma decomposição de valor único em relação a dados de áudio de multicanais que representam pelo menos uma porção do campo sonoro.[1166] Clause 132567-1G. A device, such as the audio decoding device 540, comprising: one or more processors configured to determine one or more first vectors that describe distinct components of a sound field and one or more second vectors that describe background components of the sound field , both the one or more first vectors and the one or more second vectors generated by at least performing a single-value decomposition against multichannel audio data representing at least a portion of the sound field.

[1167] Cláusula 132567-2G. O dispositivo da cláusula 132567- 1G, em que os dados de áudio de multicanais compreendem uma pluralidade de coeficientes harmônicos esféricos.[1167] Clause 132567-2G. The device of clause 132567-1G, wherein the multichannel audio data comprises a plurality of spherical harmonic coefficients.

[1168] Cláusula 132567-3G. O dispositivo da cláusula 132567-2G, em que os um ou mais processadores são configurados adicionalmente para realizar qualquer combinação da cláusula 132567-2B a cláusula 132567-9B.[1168] Clause 132567-3G. The clause 132567-2G device, wherein the one or more processors are further configured to perform any combination of clause 132567-2B to clause 132567-9B.

[1169] A partir de cada uma dentre as várias cláusulas descritas acima, deve ser entendido que qualquer um dentre os dispositivos de decodificação de áudio 540A a 540D podem realizar um método ou podem compreender, de outro modo, meio para realizar cada etapa do método que os dispositivos de decodificação de áudio 540A a 540D são configurados para realizar. Em alguns exemplos, esses meios podem compreende um ou mais processadores. Em alguns exemplos, os um ou mais processadores pode representar um processador de propósito especial configurado por meio de instruções armazenadas em uma mídia de armazenamento legível por computador não transitória. Em outras palavras, vários aspectos das técnicas em cada um desses conjuntos de exemplos de codificação podem fornecer uma mídia de armazenamento legível por computador não transitória que tem instruções armazenadas na mesma que, quando executadas, fazem com que os um ou mais processadores realizem o método que os dispositivos de decodificação de áudio 540A a 540D foram configurados para realizar.[1169] From each of the various clauses described above, it is to be understood that any one of the audio decoding devices 540A to 540D may perform a method or may otherwise comprise means for performing each step of the method that the 540A to 540D audio decoding devices are configured to perform. In some examples, these means may comprise one or more processors. In some examples, the one or more processors may represent a special-purpose processor configured through instructions stored on non-transient computer-readable storage media. In other words, various aspects of the techniques in each of these sets of encoding examples can provide non-transient computer-readable storage media that have instructions stored on them that, when executed, cause the one or more processors to perform the method. that the 540A to 540D audio decoding devices have been configured to perform.

[1170] Por exemplo, uma cláusula 132567-10B pode ser derivada da cláusula 132567-1B supracitada para ser um método que compreende: determinar um ou mais primeiros vetores que descrevem componentes distintos de um campo sonoro e um ou mais segundos vetores que descrevem componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos realizando-se uma a decomposição de valor único em relação a uma pluralidade de coeficientes harmônicos esféricos que representam o campo sonoro.[1170] For example, a clause 132567-10B can be derived from the aforementioned clause 132567-1B to be a method comprising: determining one or more first vectors that describe distinct components of a sound field and one or more second vectors that describe components background of the sound field, both the one or more first vectors and the one or more second vectors generated by at least performing a single-value decomposition with respect to a plurality of spherical harmonic coefficients representing the sound field.

[1171] Como outro exemplo, uma cláusula 132567-1 IB pode ser derivada da cláusula 132567-1B supracitada para ser um dispositivo, como o dispositivo de decodificação de áudio 540, que compreende meios para determinar um ou mais primeiros vetores que descrevem componentes distintos do campo sonoro e um ou mais segundos vetores que descrevem componentes de segundo plano do campo sonoro, em que tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos realizando-se uma decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos; e meios para armazenar os um ou mais primeiros vetores e os um ou mais segundos vetores.[1171] As another example, a clause 132567-1 IB can be derived from the aforementioned clause 132567-1B to be a device, such as the audio decoding device 540, which comprises means for determining one or more first vectors that describe distinct components of the sound field and one or more second vectors describing background components of the sound field, wherein both the one or more first vectors and the one or more second vectors are generated by at least performing a single-valued decomposition with respect to the plurality of spherical harmonic coefficients; and means for storing the one or more first vectors and the one or more second vectors.

[1172] Ainda como outro exemplo, uma cláusula 132567-12B pode ser derivada a partir da cláusula 132567-1B supracitada para ser uma mídia de armazenamento legível por computador não transitória que tem instruções armazenadas na mesma que, quando executadas, fazem com que um ou mais processadores determinem um ou mais primeiros vetores que descrevem componentes distintos de um campo sonoro e um ou mais segundos vetores que descrevem componentes de segundo plano do campo sonoro, em que tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores são gerados pelo menos realizando-se uma decomposição de valor único em relação a uma pluralidade de coeficientes harmônicos esféricos incluídos em dados de áudio ambissônicos de ordem superior que descrevem o campo sonoro.[1172] As yet another example, a clause 132567-12B can be derived from the aforementioned clause 132567-1B to be a non-transient computer-readable storage medium that has instructions stored on it that, when executed, cause a or more processors determine one or more first vectors that describe distinct components of a sound field and one or more second vectors that describe background components of the sound field, where both the one or more first vectors and the one or more second vectors are generated at least by performing a single-value decomposition with respect to a plurality of spherical harmonic coefficients included in higher-order ambisonic audio data describing the sound field.

[1173] Várias cláusulas podem ser derivadas igualmente a das cláusulas 132567-2B a 132567-9B para os vários dispositivos, métodos e mídias de armazenamento legíveis por computador não transitórias derivadas conforme exemplificado acima. O mesmo pode ser realizado para as várias outras cláusulas listadas por toda a presente revelação.[1173] Various clauses may be derived similarly from clauses 132567-2B to 132567-9B for the various non-transient computer readable storage devices, methods and media derived as exemplified above. The same may be done for the various other clauses listed throughout the present disclosure.

[1174] A Figura 41B é um diagrama de blocos que ilustra um dispositivo de decodificação de áudio exemplificativo 540B que pode realizar vários aspectos das técnicas descritas na presente revelação para decodificar coeficientes harmônicos esféricos que descrevem campos de som bidimensionais ou tridimensionais. O dispositivo de decodificação de áudio 540B pode ser semelhante ao dispositivo de decodificação de áudio 540, com exceção de que, em alguns exemplos, a unidade de extração 542 pode extrair vetores VTDIST reordenados 539 em vez de vetores VTDIST 525E. Em outros exemplos, a unidade de extração 542 pode extrair os vetores VTDIST 525E e, em seguida, reordenar esses vetores VTDIST 525E com base em informações de reordenação especificadas no fluxo de bits ou inferidas (através de análise de outros vetores) para determinar os vetores VTDIST reordenados 539. Nesse aspecto, a unidade de extração 542 pode operar semelhantemente à unidade de extração 72 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5. De qualquer modo, a unidade de extração 542 pode emitir os vetores VTDIST reordenados 539 à unidade de matemática 546, em que o processo descrito acima em relação à recuperação dos coeficientes harmônicos esféricos pode ser realizado em relação a esses vetores VTDIST reordenados 539.[1174] Fig. 41B is a block diagram illustrating an exemplary audio decoding device 540B that can perform various aspects of the techniques described in the present disclosure to decode spherical harmonic coefficients that describe two-dimensional or three-dimensional sound fields. The audio decoding device 540B may be similar to the audio decoding device 540, except that in some instances, the extractor unit 542 may extract reordered VTDIST vectors 539 instead of VTDIST vectors 525E. In other examples, the extraction unit 542 can extract the VTDIST 525E vectors and then reorder these VTDIST 525E vectors based on reordering information specified in the bitstream or inferred (through analysis of other vectors) to determine the vectors Reordered VTDISTs 539. In this respect, the extraction unit 542 can operate similarly to the extraction unit 72 of the audio decoding device 24 shown in the example of Figure 5. In any case, the extraction unit 542 can output the reordered VTDIST vectors 539 to the mathematics unit 546, wherein the process described above in relation to the recovery of spherical harmonic coefficients can be performed in relation to these reordered VTDIST vectors 539.

[1175] Dessa maneira, as técnicas podem possibilitar que o dispositivo de decodificação de áudio 540B decodifique áudio de um ou mais vetores reordenados representativos de componentes distintos de um campo sonoro, os um ou mais vetores reordenados foram reordenados para facilitar a compressão dos um ou mais vetores. Nesses ou em outros exemplos, o dispositivo de decodificação de áudio 540B pode recombinar os um ou mais vetores reordenados com um ou mais vetores reordenados adicionais para recuperar coeficientes harmônicos esféricos representativos de componentes distintos do campo sonoro. Nesses e em outros exemplos, o dispositivo de decodificação de áudio 540B pode, então, recuperar uma pluralidade de coeficientes harmônicos esféricos com base nos coeficientes harmônicos esféricos representativos de componentes distintos do campo sonoro e nos coeficientes harmônicos esféricos representativos de componentes de segundo plano do campo sonoro.[1175] In this way, the techniques may enable the 540B audio decoding device to decode audio from one or more reordered vectors representing distinct components of a sound field, the one or more reordered vectors being reordered to facilitate compression of one or more more vectors. In these or other examples, the audio decoding device 540B may recombine the one or more reorder vectors with one or more additional reorder vectors to recover spherical harmonic coefficients representative of distinct components of the sound field. In these and other examples, the audio decoding device 540B can then retrieve a plurality of spherical harmonic coefficients based on spherical harmonic coefficients representative of distinct components of the sound field and spherical harmonic coefficients representative of background components of the field. sound.

[1176] Ou seja, vários aspectos das técnicas podem fornecer a configuração do dispositivo de decodificação de áudio 540B de modo a decodificar um ou mais vetores reordenados, de acordo com as cláusulas a seguir.[1176] That is, various aspects of the techniques may provide for configuring the 540B audio decoding device to decode one or more reordered vectors in accordance with the following clauses.

[1177] Cláusula 133146-1F. Um dispositivo, como o dispositivo de codificação de áudio 540B, que compreende: um ou mais processadores configurados para determinar um número de vetores correspondentes a componentes no campo sonoro.[1177] Clause 133146-1F. A device, such as audio encoding device 540B, comprising: one or more processors configured to determine a number of vectors corresponding to components in the sound field.

[1178] Cláusula 133146-2F. O dispositivo da cláusula 133146-1F, em que os um ou mais processadores são configurados para determinar o número de vetores após realizar a redução de ordem em conformidade com qualquer combinação dos exemplos descritos acima.[1178] Clause 133146-2F. The device of clause 133146-1F, wherein the one or more processors are configured to determine the number of vectors after performing order reduction in accordance with any combination of the examples described above.

[1179] Cláusula 133146-3F. O dispositivo da cláusula 133146-1F, em que os um ou mais processadores são configurados adicionalmente para realizar a redução de ordem em conformidade com qualquer combinação dos exemplos descritos acima.[1179] Clause 133146-3F. The device of clause 133146-1F, wherein the one or more processors are further configured to perform order reduction in accordance with any combination of the examples described above.

[1180] Cláusula 133146-4F. O dispositivo da cláusula 133146-1F, em que os um ou mais processadores são configurados para determinar o número de vetores a partir de um valor especificado em um fluxo de bits, e em que os um ou mais processadores são configurados adicionalmente para analisar o fluxo de bits com base no número determinado de vetores para identificar um ou mais vetores no fluxo de bits que representam componentes distintos do campo sonoro.[1180] Clause 133146-4F. The device of clause 133146-1F, where the one or more processors are configured to determine the number of vectors from a specified value in a bit stream, and where the one or more processors are additionally configured to parse the stream of bits based on the given number of vectors to identify one or more vectors in the bit stream that represent distinct components of the sound field.

[1181] Cláusula 133146-5F. O dispositivo da cláusula 133146-1F, em que os um ou mais processadores são configurados para determinar o número de vetores a partir de um valor especificado em um fluxo de bits, e em que os um ou mais processadores são configurados adicionalmente para analisar o fluxo de bits com base no número determinado de vetores para identificar um ou mais no fluxo de bits que representam componentes de segundo plano do campo sonoro.[1181] Clause 133146-5F. The device of clause 133146-1F, where the one or more processors are configured to determine the number of vectors from a specified value in a bit stream, and where the one or more processors are additionally configured to parse the stream of bits based on the given number of vectors to identify one or more in the stream of bits that represent background components of the sound field.

[1182] Cláusula 133143-1C. Um dispositivo, como o dispositivo de decodificação de áudio 540B, que compreende: um ou mais processadores configurados para reordenar um ou mais vetores reordenados representativos de componentes distintos de um campo sonoro.[1182] Clause 133143-1C. A device, such as audio decoding device 540B, comprising: one or more processors configured to reorder one or more reordered vectors representative of distinct components of a sound field.

[1183] Cláusula 133143-2C. O dispositivo da cláusula 133143-1C, em que os um ou mais processadores são configurados adicionalmente para determinar os um ou mais vetores reordenados e para determinar informações de reordenação que descreve como os um ou mais vetores reordenados foram reordenados, em que os um ou mais processadores são configurados adicionalmente para reordenar, durante a reordenação dos um ou mais vetores reordenados, os um ou mais vetores reordenados com base nas informações de reordenação determinadas.[1183] Clause 133143-2C. The provision of clause 133143-1C, wherein the one or more processors are further configured to determine the one or more reordered vectors and to determine reorder information that describes how the one or more reordered vectors were reordered, wherein the one or more processors are further configured to reorder, during reordering of the one or more reordered vectors, the one or more reordered vectors based on the determined reordering information.

[1184] Cláusula 133143-3C. O dispositivo da 1C, em que os um ou mais vetores reordenados compreende os um ou mais primeiros vetores reordenados recitados por qualquer combinação das reivindicações 1A a 18A ou qualquer combinação das reivindicações 1B a 19B, e em que os um ou mais primeiros vetores são determinados em conformidade com o método recitado por qualquer combinação das reivindicações 1A a 18A ou por qualquer combinação das reivindicações 1B a 19B.[1184] Clause 133143-3C. The device of 1C, wherein the one or more reordered vectors comprises the one or more first reordered vectors recited by any combination of claims 1A to 18A or any combination of claims 1B to 19B, and wherein the first one or more vectors are determined according to the method recited by any combination of claims 1A to 18A or any combination of claims 1B to 19B.

[1185] Cláusula 133143-4D. Um dispositivo, como o dispositivo de decodificação de áudio 540B, que compreende: um ou mais processadores configurados para decodificador em áudio um ou mais vetores reordenados representativos de componentes distintos de um campo sonoro, sendo que os um ou mais vetores reordenados foram reordenados para facilitar a compressão dos um ou mais vetores.[1185] Clause 133143-4D. A device, such as the audio decoding device 540B, comprising: one or more processors configured to decode an audio one or more reordered vectors representing distinct components of a sound field, the one or more reordered vectors being reordered to facilitate the compression of one or more vectors.

[1186] Cláusula 133143-5D. O dispositivo da cláusula 133143-4D, em que os um ou mais processadores são configurados adicionalmente para recombinar os um ou mais vetores reordenados com um ou mais vetores reordenados adicionais para recuperar os coeficientes harmônicos esféricos representativos de componentes distintos do campo sonoro.[1186] Clause 133143-5D. The device of clause 133143-4D, wherein the one or more processors are further configured to recombine the one or more reorder vectors with one or more additional reorder vectors to recover spherical harmonic coefficients representative of distinct components of the sound field.

[1187] Cláusula 133143-6D. O dispositivo da cláusula 133143-5D, em que os um ou mais processadores são configurados adicionalmente para recuperar uma pluralidade de coeficientes harmônicos esféricos com base nos coeficientes harmônicos esféricos representativos de componentes distintos do campo sonoro e nos coeficientes harmônicos esféricos representativos de componentes de segundo plano do campo sonoro.[1187] Clause 133143-6D. The device of clause 133143-5D, wherein the one or more processors are further configured to retrieve a plurality of spherical harmonic coefficients based on spherical harmonic coefficients representative of distinct components of the sound field and spherical harmonic coefficients representative of background components of the sound field.

[1188] Cláusula 133143-1E. Um dispositivo, como o dispositivo de decodificação de áudio 540B, que compreende: um ou mais processadores configurados para reordenar um ou mais vetores para gerar um ou mais primeiros vetores reordenados e, desse modo, facilitar a codificação através de um codificador de áudio herdado, em que os um ou mais vetores descrevem representam componentes distintos de um campo sonoro, e codificam em áudio os um ou mais vetores reordenados com o uso do codificador de áudio herdado a fim de gerar uma versão codificada dos um ou mais vetores reordenados.[1188] Clause 133143-1E. A device, such as audio decoding device 540B, comprising: one or more processors configured to reorder one or more vectors to generate one or more first reorder vectors and thereby facilitate encoding via a legacy audio encoder, wherein the one or more vectors describe represent distinct components of a sound field, and audio encode the one or more reordered vectors using the legacy audio encoder to generate an encoded version of the one or more reordered vectors.

[1189] Cláusula 133143-2E. O dispositivo da 1E, em que os um ou mais vetores reordenados compreende os um ou mais primeiros vetores reordenados recitados por qualquer combinação das reivindicações 1A a 18A ou qualquer combinação das reivindicações 1B a 19B, e em que os um ou mais primeiros vetores são determinados em conformidade com o método recitado por qualquer combinação das reivindicações 1A-18A ou por qualquer combinação das reivindicações 1B-19B.[1189] Clause 133143-2E. The device of 1E, wherein the one or more reordered vectors comprises the one or more first reordered vectors recited by any combination of claims 1A to 18A or any combination of claims 1B to 19B, and wherein the first one or more vectors are determined according to the method recited by any combination of claims 1A-18A or by any combination of claims 1B-19B.

[1190] A Figura 41C é um diagrama de blocos que ilustra outro dispositivo de codificação de áudio exemplificativo 540C. O dispositivo de decodificação de áudio 540C pode representar qualquer dispositivo com capacidade para decodificar dados de áudio, por exemplo, um computador de mesa, um computador do tipo laptop, uma estação de trabalho, um computador do tipo tablet ou slate, um dispositivo de gravação de áudio dedicado, um telefone celular (incluindo então chamados "telefones inteligentes”), um dispositivo pessoal de reprodução de mídia, um dispositivo pessoal de jogo, ou qualquer outro tipo de dispositivo om capacidade para decodificar dados de áudio.[1190] Fig. 41C is a block diagram illustrating another exemplary audio encoding device 540C. The 540C audio decoding device can represent any device capable of decoding audio data, for example, a desktop computer, a laptop-type computer, a workstation, a tablet or slate-type computer, a recording device audio device, a cell phone (including so-called "smart phones"), a personal media playback device, a personal gaming device, or any other type of device capable of decoding audio data.

[1191] No exemplo da Figura 41C, o dispositivo de decodificação de áudio 540C realiza um processo de decodificação de áudio que é recíproco ao processo de codificação de áudio realizado por qualquer um dentre os dispositivos de codificação de áudio 510B a 510E com exceção da realização da redução de ordem (as descrita acima em relação aos exemplos das Figuras 40B a 40J), que, em alguns exemplos, é usada pelo dispositivo de codificação de áudio 510B a 510J para facilitar a remoção de dados irrelevantes externos.[1191] In the example of Fig. 41C, the audio decoding device 540C performs an audio decoding process that is reciprocal to the audio encoding process performed by any of the audio encoding devices 510B to 510E with the exception of performing of order reduction (those described above with respect to the examples of Figures 40B to 40J), which, in some examples, is used by the audio encoding device 510B to 510J to facilitate the removal of extraneous extraneous data.

[1192] Embora mostrado como um único dispositivo, isto é, o dispositivo 540C no exemplo da Figura 41C, os vários componentes ou unidades indicados abaixo como incluídos nos dispositivo 540C podem formar dispositivos separados que são externos ao dispositivo 540C. Em outras palavras, embora descrito na presente revelação como sendo realizadas por um único dispositivo, isto é, o dispositivo 540C no exemplo da Figura 41 C, as técnicas podem ser implantadas ou, de outro modo, realizadas por um sistema que compreende múltiplos dispositivos, em que cada um desses dispositivos pode incluir, cada um, um ou mais dentre os vários componentes ou unidades descritos mais detalhadamente abaixo. Consequentemente, nesse aspecto, as técnicas não devem ser limitadas ao exemplo da Figura 41 C.[1192] Although shown as a single device, i.e., device 540C in the example of Figure 41C, the various components or units indicated below as included in device 540C may form separate devices that are external to device 540C. In other words, although described in the present disclosure as being performed by a single device, i.e., the device 540C in the example of Figure 41C, the techniques may be implemented or otherwise performed by a system comprising multiple devices, wherein each such device may each include one or more of the various components or units described in more detail below. Consequently, in this respect, the techniques should not be limited to the example in Figure 41 C.

[1193] Ademais, os dispositivos de codificação de áudio 540C podem ser semelhantes ao dispositivo de codificação de áudio 540B. No entanto, a unidade de extração 542 pode determinar os um ou mais vetores VTSMALL 521 a partir do fluxo de bits 517 em vez dos vetores VTQ_DIST 539 ou vetores VTDIST 525E reordenados (como no caso descrito em relação ao dispositivo de codificação de áudio 510 da Figura 40). Como resultado, a unidade de extração 542 pode passar os vetores VTSMALL 521 à unidade de matemática 546.[1193] Furthermore, the 540C audio encoding device may be similar to the 540B audio encoding device. However, the extraction unit 542 may determine the one or more VTSMALL arrays 521 from the bit stream 517 instead of the reordered VTQ_DIST arrays 539 or VTDIST arrays 525E (as in the case described with respect to the audio encoding device 510 of the Figure 40). As a result, the extraction unit 542 can pass the VTSMALL vectors 521 to the math unit 546.

[1194] Além disso, a unidade de extração 542 pode determinar coeficientes harmônicos esféricos de segundo plano modificação codificados em áudio 515B’ a partir do fluxo de bits 517, passando esses coeficientes 515B’ para a unidade de decodificação de áudio 544, que pode decodificar por áudio os coeficientes harmônicos esféricos de segundo plano modificados codificados 515B para recuperar os coeficientes harmônicos esféricos de segundo plano modificados 537. A unidade de decodificação de áudio 544 pode passar esses coeficientes harmônicos esféricos de segundo plano modificados 537 para a unidade de matemática 546.[1194] In addition, extraction unit 542 can determine audio-encoded modification spherical harmonic coefficients 515B' from bitstream 517, passing these coefficients 515B' to audio decoding unit 544, which can decode audio the coded modified background spherical harmonic coefficients 515B to retrieve the modified background spherical harmonic coefficients 537. The audio decoding unit 544 can pass these modified background spherical harmonic coefficients 537 to the math unit 546.

[1195] A unidade de matemática 546 pode, em seguida, multiplicar os vetores UDIST * SDIST decodificados em áudio (e possivelmente não ordenados) 527’ pelos um ou mais vetores VTSMALL 521 para recuperar os coeficientes harmônicos esféricos distintos de ordem superior. Em seguida, a unidade de matemática 546 pode somar os coeficientes harmônicos esféricos distintos de ordem superior aos coeficientes harmônicos esféricos de segundo plano modificados 537 para recuperar a pluralidade dos coeficientes harmônicos esféricos 511 ou alguma derivada dos mesmos (que podem ser uma derivada devido à de ordem realizada na unidade codificadora 510E).[1195] The math unit 546 can then multiply the audio-decoded (and possibly unordered) UDIST * SDIST vectors 527' by the one or more VTSMALL vectors 521 to retrieve the higher order distinct spherical harmonic coefficients. Then, the math unit 546 may sum the distinct higher-order spherical harmonic coefficients to the modified background spherical harmonic coefficients 537 to retrieve the plurality of the spherical harmonic coefficients 511 or some derivative thereof (which may be a derivative due to the order performed in the encoder unit 510E).

[1196] Dessa maneira, as técnicas podem possibilitar que o dispositivo de decodificação de áudio 540C determine, a partir de um fluxo de bits, pelo menos um dentre os um ou mais vetores decompostos a partir de coeficientes harmônicos esféricos que forma recombinados com coeficientes harmônicos esféricos de segundo plano para reduzir uma quantidade de bits cuja alocação é exigida para os um ou mais vetores no fluxo de bits, em que os coeficientes harmônicos esféricos descrevem um campo sonoro, e em que os coeficientes harmônicos esféricos de segundo plano descrevem um ou mais componentes de segundo plano do mesmo campo sonoro.[1196] In this way, the techniques can enable the 540C audio decoding device to determine, from a bit stream, at least one of one or more vectors decomposed from spherical harmonic coefficients that have been recombined with harmonic coefficients background spherical harmonics to reduce the amount of bits that are required to be allocated to the one or more vectors in the bit stream, where spherical harmonic coefficients describe a sound field, and where spherical background harmonic coefficients describe one or more background components of the same sound field.

[1197] Nesse aspecto, vários aspectos das técnicas podem possibilitar que o dispositivo de decodificação de áudio 540C, em alguns exemplos, sejam configurados para determinar, a partir de um fluxo de bits, pelo menos um dentre os um ou mais vetores decompostos a partir de coeficientes harmônicos esféricos que foram recombinados com coeficientes harmônicos esféricos de segundo plano, em que os coeficientes harmônicos esféricos descrevem um campo sonoro, e em que os coeficientes harmônicos esféricos de segundo plano descreveram um ou mais componentes de segundo plano do mesmo campo sonoro.[1197] In this regard, various aspects of the techniques may enable the 540C audio decoding device, in some examples, to be configured to determine, from a stream of bits, at least one of one or more vectors decomposed from of spherical harmonic coefficients that have been recombined with spherical background harmonic coefficients, where the spherical harmonic coefficients describe a sound field, and where the spherical background harmonic coefficients describe one or more background components of the same sound field.

[1198] Nesses e em outros exemplos, o dispositivo de decodificação de áudio 540C é configurado para obter, a partir do fluxo de bits, uma primeira porção dos coeficientes harmônicos esféricos que têm uma ordem igual a NBG. Nesses e em outros exemplos, o dispositivo de decodificação de áudio 540C é configurado adicionalmente para obter, a partir do fluxo de bits, uma primeira porção codificada em áudio dos coeficientes harmônicos esféricos que têm uma ordem igual a NBG, e para decodificar por áudio a primeira porção codificada em áudio dos coeficientes harmônicos esféricos para gerar uma primeira porção dos coeficientes harmônicos esféricos.[1198] In these and other examples, the audio decoding device 540C is configured to obtain from the bit stream a first portion of spherical harmonic coefficients that have an order equal to NBG. In these and other examples, the audio decoding device 540C is further configured to obtain, from the bit stream, an audio-encoded first portion of spherical harmonic coefficients having an order equal to NBG, and to audio-decode the first audio encoded portion of the spherical harmonic coefficients to generate a first portion of the spherical harmonic coefficients.

[1199] Nesses e em outros exemplos, os pelo menos um ou mais vetores compreende um ou mais vetores VTSMALL, sendo que os um ou mais vetores VTSMALL foram determinados a partir de uma transposta de uma matriz V gerada realizando-se uma decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos.[1199] In these and other examples, the at least one or more vectors comprise one or more VTSMALL vectors, with the one or more VTSMALL vectors being determined from a transpose of a matrix V generated by performing a value decomposition unique with respect to the plurality of spherical harmonic coefficients.

[1200] Nesses e em outros exemplos, o pelo menos um dentre os um ou mais vetores compreendem um ou mais vetores VTSMALL, sendo que os um ou mais vetores VTSMALL foram determinados a partir de uma transposta de uma matriz V gerada realizando-se uma decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos, e o dispositivo de decodificação de áudio 540C é configurado adicionalmente para obter, a partir do fluxo de bits, um ou mais vetores UDIST * SDIST que foram derivados de uma matriz U e de uma matriz S, em que ambos dos mesmos foram gerados realizando-se a decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos, e para multiplicar os vetores UDIST * SDIST pelos vetores VTSMALL.[1200] In these and other examples, at least one of the one or more vectors comprises one or more VTSMALL vectors, the one or more VTSMALL vectors being determined from a transpose of a matrix V generated by performing a single-value decomposition with respect to the plurality of spherical harmonic coefficients, and the audio decoding device 540C is further configured to obtain, from the bit stream, one or more UDIST*SDIST vectors that have been derived from a matrix U and from a matrix S, in which both of them were generated by performing the single-value decomposition with respect to the plurality of spherical harmonic coefficients, and to multiply the UDIST * SDIST vectors by the VTSMALL vectors.

[1201] Nesses e em outros exemplos, o pelo menos um dentre os um ou mais vetores compreendem um ou mais vetores VTSMALL, sendo que os um ou mais vetores VTSMALL foram determinados a partir de uma transposta de uma matriz V gerada realizando-se uma decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos, e o dispositivo de decodificação de áudio 540C é configurado adicionalmente para obter, a partir do fluxo de bits, um ou mais vetores UDIST * SDIST que foram derivados a partir de uma matriz U e de uma matriz S, sendo que ambos dos mesmos são gerados realizando-se a decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos, e para multiplicar os vetores UDIST * SDIST pelos vetores VTSMALL a fim de recuperar coeficientes harmônicos esféricos distintos de ordem superior de segundo plano e para somar os coeficientes harmônicos esféricos de segundo plano que incluem os coeficientes harmônicos esféricos de segundo plano distintos de ordem inferior aos coeficientes harmônicos esféricos distintos de ordem superior de segundo plano a fim recuperar, pelo menos parcialmente, a pluralidade de coeficientes harmônicos esféricos.[1201] In these and other examples, the at least one of the one or more vectors comprises one or more VTSMALL vectors, the one or more VTSMALL vectors being determined from a transpose of a matrix V generated by performing a single-value decomposition with respect to the plurality of spherical harmonic coefficients, and the audio decoding device 540C is further configured to obtain from the bit stream one or more UDIST*SDIST vectors that were derived from a matrix U and a matrix S, both of which are generated by performing the single-value decomposition with respect to the plurality of spherical harmonic coefficients, and to multiply the UDIST * SDIST vectors by the VTSMALL vectors in order to recover different spherical harmonic coefficients of higher order background and to sum the background spherical harmonic coefficients that include the distinct background spherical harmonic coefficients lower order values to distinct higher order spherical harmonic coefficients of the background in order to recover, at least partially, the plurality of spherical harmonic coefficients.

[1202] Nesses e em outros exemplos, o pelo menos um dentre os um ou mais vetores compreendem um ou mais vetores VTSMALL, sendo que os um ou mais vetores VTSMALL foram determinados a partir de uma transposta de uma matriz V gerada realizando-se uma decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos, e o dispositivo de decodificação de áudio 540C é configurado adicionalmente para obter, a partir do fluxo de bits, um ou mais vetores UDIST * SDIST que foram derivados a partir de uma matriz U e de uma matriz S, sendo que ambos dos mesmos são gerados realizando-se a decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos, e para multiplicar os vetores UDIST * SDIST pelos vetores VTSMALL a fim de recuperar coeficientes harmônicos esféricos distintos de ordem superior de segundo plano, para somar os coeficientes harmônicos esféricos de segundo plano que incluem os coeficientes harmônicos esféricos de segundo plano distintos de ordem inferior aos coeficientes harmônicos esféricos distintos de ordem superior de segundo plano a fim recuperar, pelo menos parcialmente, a pluralidade de coeficientes harmônicos esféricos e renderizar a pluralidade recuperada de coeficientes harmônicos esféricos[1202] In these and other examples, the at least one of the one or more vectors comprises one or more VTSMALL vectors, the one or more VTSMALL vectors being determined from a transpose of a matrix V generated by performing a single-value decomposition with respect to the plurality of spherical harmonic coefficients, and the audio decoding device 540C is further configured to obtain from the bit stream one or more UDIST*SDIST vectors that were derived from a matrix U and a matrix S, both of which are generated by performing the single-value decomposition with respect to the plurality of spherical harmonic coefficients, and to multiply the UDIST * SDIST vectors by the VTSMALL vectors in order to recover different spherical harmonic coefficients of higher order background, to sum the background spherical harmonic coefficients that include the distinct background spherical harmonic coefficients those of lower order to distinct higher order spherical harmonic coefficients of the background in order to at least partially recover the plurality of spherical harmonic coefficients and render the recovered plurality of spherical harmonic coefficients

[1203] A Figura 41D é um diagrama de blocos que ilustra outro dispositivo de codificação de áudio exemplificativo 540D. O dispositivo de decodificação de áudio 540D pode representar qualquer dispositivo com capacidade para decodificar dados de áudio, por exemplo, um computador de mesa, um computador do tipo laptop, uma estação de trabalho, um computador do tipo tablet ou slate, um dispositivo de gravação de áudio dedicado, um telefone celular (incluindo então chamados "telefones inteligentes”), um dispositivo pessoal de reprodução de mídia, um dispositivo pessoal de jogo, ou qualquer outro tipo de dispositivo om capacidade para decodificar dados de áudio.[1203] Fig. 41D is a block diagram illustrating another exemplary audio encoding device 540D. The 540D audio decoding device can represent any device capable of decoding audio data, e.g. a desktop computer, a laptop-type computer, a workstation, a tablet or slate-type computer, a recording device audio device, a cell phone (including so-called "smart phones"), a personal media playback device, a personal gaming device, or any other type of device capable of decoding audio data.

[1204] No exemplo da Figura 41D, o dispositivo de decodificação de áudio 540D realiza um processo de decodificação de áudio que é recíproco ao processo de codificação de áudio realizado por qualquer um dentre os dispositivos de codificação de áudio 510B a 510J com exceção da realização da redução de ordem (as descrita acima em relação aos exemplos das Figuras 40B a 40J), que, em alguns exemplos, é usada pelos dispositivos de codificação de áudio 510B a 510J para facilitar a remoção de dados irrelevantes externos.[1204] In the example of Fig. 41D, the audio decoding device 540D performs an audio decoding process that is reciprocal to the audio encoding process performed by any of the audio encoding devices 510B to 510J with the exception of performing of order reduction (those described above with respect to the examples of Figures 40B to 40J), which, in some examples, is used by audio encoding devices 510B to 510J to facilitate the removal of extraneous extraneous data.

[1205] Embora mostrado como um único dispositivo, isto é, o dispositivo 540D no exemplo da Figura 41D, os vários componentes ou unidades indicados abaixo como incluídos no dispositivo 540D podem formar dispositivos separados que são externos ao dispositivo 54DC. Em outras palavras, embora descrito na presente revelação como sendo realizadas por um único dispositivo, isto é, o dispositivo 540D no exemplo da Figura 41D, as técnicas podem ser implantadas ou, de outro modo, realizadas por um sistema que compreende múltiplos dispositivos, em que cada um desses dispositivos pode incluir, cada um, um ou mais dentre os vários componentes ou unidades descritos mais detalhadamente abaixo. Consequentemente, nesse aspecto, as técnicas não devem ser limitadas ao exemplo da Figura 41D.[1205] Although shown as a single device, i.e., device 540D in the example of Figure 41D, the various components or units indicated below as included in device 540D may form separate devices that are external to device 54DC. In other words, although described in the present disclosure as being performed by a single device, i.e., the device 540D in the example of Figure 41D, the techniques may be implanted or otherwise performed by a system comprising multiple devices, in that each such device may each include one or more of the various components or units described in more detail below. Consequently, in this respect, the techniques should not be limited to the example of Figure 41D.

[1206] Ademais, o dispositivo de decodificação de áudio 540D pode ser semelhante ao dispositivo de decodificação de áudio 540B, com exceção de que o dispositivo de decodificação de áudio 540D realizar uma descompressão V adicional que é, em geral, recíproca à compressão realizada pela unidade de compressão V 552 descrita acima em relação à Figura 401. No exemplo da Figura 41D, a unidade de extração 542 inclui uma unidade de descompressão V 555 que realizar essa descompressão V dos componentes espaciais comprimidos 539’ incluídos no fluxo de bits 517 (e, especificados, em geral, em conformidade com o exemplo mostrado em uma das Figuras 10B e 10c). A unidade de descompressão V 555 pode descomprimir os vetores VTDIST 539 com base na seguinte equação:

Figure img0071
[1206] Furthermore, the audio decoding device 540D can be similar to the audio decoding device 540B, except that the audio decoding device 540D performs additional V-decompression that is, in general, reciprocal to the compression performed by the V compression unit 552 described above with respect to Figure 401. In the example of Figure 41D, extraction unit 542 includes a V decompression unit 555 that performs such V decompression of compressed spatial components 539' included in bit stream 517 (and , specified generally in accordance with the example shown in one of Figures 10B and 10c). The V 555 decompression unit can decompress the VTDIST 539 vectors based on the following equation:
Figure img0071

[1207] Em outras palavras, a unidade de descompressão V 555 pode analisar, primeiramente, o valor nbits a partir do fluxo de bits 517 e identificar o conjunto apropriado de cinco tabelas de código de Huffman a serem usadas durante a descodificação do código de Huffman representativo do cid. Com base no modo de predição e nas informações de codificação de Huffman especificadas no fluxo de bits 517 e, possivelmente, a ordem do elemento do componente espacial em relação aos outros elementos do componente espacial, a unidade de descompressão V 555 pode identificar a tabela correta dentre as cinco tabelas de Huffman definidas para o valor de nbits analisados. Com o uso dessa tabela de Huffman, a unidade de descompressão V 555 pode decodificar o valor de cid a partir do código de Huffman. Em seguida, a unidade de descompressão V 555 pode analisar o bit de sinal e o código de bloco residual, com a decodificação do código de bloco residual a fim de identificar o residual. Em conformidade com a equação acima, a unidade de descompressão V 555 pode decodificar um dentre os vetores VTDIST 539.[1207] In other words, the V decompression unit 555 can first parse the nbits value from the bit stream 517 and identify the appropriate set of five Huffman code tables to use when decoding the Huffman code. representative of the cid. Based on the prediction mode and Huffman encoding information specified in bitstream 517 and possibly the order of the spatial component element relative to the other spatial component elements, the V decompression unit 555 can identify the correct table among the five Huffman tables defined for the value of analyzed nbits. Using this Huffman table, the V 555 decompression unit can decode the cid value from the Huffman code. Then, the V decompression unit 555 can parse the signal bit and the residual block code, with the decoding of the residual block code in order to identify the residual. In accordance with the above equation, the V 555 decompression unit can decode one of the VTDIST 539 vectors.

[1208] O supracitado pode ser resumido na

Figure img0072
Figure img0073
[1208] The above can be summarized in the
Figure img0072
Figure img0073

[1209] Na tabela de sintaxe supracitada, o primeiro comando de comutação com os quatro casos (caso 0 a 3) fornece maneira para determinar o comprimento do vetor VTDIST em termos do número de coeficientes. O primeiro caso, caso 0, indica que todos os coeficientes para os vetores VTDIST são especificados. O segundo caso, caso 1, indica que apenas esses coeficientes do vetor VTDIST correspondentes a uma ordem maior do que um MmNumOfCoeffsForAmbHOA são especificados, o que pode denotar o que é indicado como (NDIST +1) - (NBG + 1) acima. O terceiro caso, caso 2, é semelhante ao segundo caso, porém subtrai adicionalmente coeficientes identificados pelo NumOfAddAmbHoaChan, o que denota uma variável para especificar canais adicionais (em que "canais” indica um coeficiente específico correspondente a uma determinada combinação de ordem, subordem) correspondentes a uma ordem que excede a ordem NBG. O quarto caso, caso 3, indica que apenas aqueles coeficientes do vetor VTDIST deixados após a remoção dos coeficientes identificados por NumOfAddAmbHoaChan são especificados.[1209] In the above syntax table, the first switching command with the four cases (case 0 to 3) provides a way to determine the length of the VTDIST vector in terms of the number of coefficients. The first case, case 0, indicates that all coefficients for the VTDIST vectors are specified. The second case, case 1, indicates that only those coefficients of the VTDIST vector corresponding to an order greater than a MmNumOfCoeffsForAmbHOA are specified, which can denote what is denoted as (NDIST +1) - (NBG + 1) above. The third case, case 2, is similar to the second case, but additionally subtracts coefficients identified by NumOfAddAmbHoaChan, which denotes a variable to specify additional channels (where "channels" indicates a specific coefficient corresponding to a given order, suborder combination) corresponding to an order that exceeds the NBG order The fourth case, case 3, indicates that only those coefficients from the VTDIST vector left after removing the coefficients identified by NumOfAddAmbHoaChan are specified.

[1210] Após esse comando de comutação, a decisão de realizar a desquantização uniforme é controlada por NbitsQ (ou nbits, conforme denotado acima), o que resulta, caso não seja igual a 5, na aplicação da descodificação de Huffman. O valor de cid, indicado acima, é igual aos dois bits menos significantes do valor de NbitsQ. O modo de predição discutido acima é denotado como o PFlag na tabela de sintaxe acima, embora o bit de informações de HT seja denotado como o CbFlag na tabela de sintaxe acima. A sintaxe restante especifica como a decodificação ocorre de maneira substancialmente semelhante àquela descrita acima.[1210] After this switching command, the decision to perform uniform dequantization is controlled by NbitsQ (or nbits, as denoted above), which results, if not equal to 5, in the application of Huffman decoding. The value of cid, indicated above, is equal to the two least significant bits of the value of NbitsQ. The prediction mode discussed above is denoted as the PFlag in the syntax table above, although the HT info bit is denoted as the CbFlag in the syntax table above. The remaining syntax specifies how decoding takes place substantially similar to that described above.

[1211] Dessa maneira, as técnicas da presente revelação podem possibilitar que o dispositivo de decodificação de áudio 540D obtenha um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, sendo que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos, e descomprima a versão comprimida do componente espacial para obter o componente espacial.[1211] In this manner, the techniques of the present disclosure can enable the audio decoding device 540D to obtain a bit stream comprising a compressed version of a spatial component of a sound field, the spatial component being generated by performing a vector-based synthesis against a plurality of spherical harmonic coefficients, and decompress the compressed version of the spatial component to obtain the spatial component.

[1212] As demais, as técnicas podem possibilitar que o dispositivo de decodificação de áudio 540D descomprima uma versão comprimida de um componente espacial de um campo sonoro, sendo que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[1212] Other techniques may enable the 540D audio decoding device to decompress a compressed version of a spatial component of a sound field, with the spatial component being generated by performing vector-based synthesis with respect to a plurality of spherical harmonic coefficients.

[1213] Dessa maneira, o dispositivo de codificação de áudio 540D pode realizar vários aspectos das técnicas apresentados abaixo em relação às cláusulas a seguir.[1213] In this way, the 540D audio encoding device can perform various aspects of the techniques presented below in relation to the following clauses.

[1214] Cláusula 141541-1B. Um dispositivo que compreende:[1214] Clause 141541-1B. A device comprising:

[1215] um ou mais processadores configurados para obter um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, sendo que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos, e para descomprimir a versão comprimida do componente espacial para obter o componente espacial.[1215] one or more processors configured to obtain a bit stream comprising a compressed version of a spatial component of a sound field, the spatial component being generated by performing vector-based synthesis against a plurality of spherical harmonic coefficients, and to decompress the compressed version of the spatial component to obtain the spatial component.

[1216] Cláusula 141541-2B. O dispositivo da cláusula 141541-1B, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso, pelo menos parcialmente, de um campo que especifica um modo de predição usado durante a compressão do componente espacial, e em que os um ou mais processadores são configurados adicionalmente para descomprimir, durante a descompressão da versão comprimida do componente espacial, uma versão comprimida do componente espacial com base, pelo menos parcialmente, no modo de predição a fim de obter o componente espacial.[1216] Clause 141541-2B. The provision of clause 141541-1B, where the compressed version of the spatial component is represented in the bitstream using, at least partially, a field that specifies a prediction mode used during compression of the spatial component, and where the one or more processors are further configured to decompress, during decompression of the compressed version of the spatial component, a compressed version of the spatial component based at least partially on the prediction mode in order to obtain the spatial component.

[1217] Cláusula 141541-3B. O dispositivo de qualquer combinação da cláusula 141541-1B e da cláusula 141541-2B, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso, pelo menos parcialmente, das informações da tabela de Huffman que especificam uma tabela de Huffman usada durante a compressão do componente espacial, e em que os um ou mais processadores são configurados adicionalmente para, durante a descompressão da versão comprimida do componente espacial, descomprimir a versão comprimida do componente espacial com base, pelo menos parcialmente, nas informações da tabela de Huffman.[1217] Clause 141541-3B. The device of any combination of clause 141541-1B and clause 141541-2B, where the compressed version of the spatial component is represented in the bitstream using, at least partially, Huffman table information that specifies a table of Huffman used during compression of the spatial component, and where the one or more processors are additionally configured to, during decompression of the compressed version of the spatial component, decompress the compressed version of the spatial component based at least partially on the table information of Huffman.

[1218] Cláusula 141541-4B. O dispositivo de qualquer combinação da cláusula 141541-1B à cláusula 141541-3B, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso de, pelo menos parcialmente, um campo que indica um valor que expressa um tamanho de etapa de quantização ou uma variável da mesma usada durante a compressão do componente espacial, e em que os um ou mais processadores são configurados adicionalmente para, durante a descompressão da versão comprimida do componente espacial, descomprimir a versão comprimida do componente espacial com base, pelo menos parcialmente, no valor.[1218] Clause 141541-4B. The device of any combination of clause 141541-1B to clause 141541-3B, wherein the compressed version of the spatial component is represented in the bit stream using, at least partially, a field that indicates a value that expresses a size of quantization step or a variable thereof used during compression of the spatial component, and wherein the one or more processors are additionally configured to, during decompression of the compressed version of the spatial component, decompress the compressed version of the spatial component based on, at least, least partially, in value.

[1219] Cláusula 141541-5B. O dispositivo da cláusula 141541-4B, em que o valor compreende um valor de nbits.[1219] Clause 141541-5B. The device of clause 141541-4B, wherein the value comprises an nbit value.

[1220] Cláusula 141541-6B. O dispositivo de qualquer combinação da cláusula 141541-4B e da cláusula 141541-5B, em que o fluxo de bits compreende uma versão comprimida de uma pluralidade de componentes espaciais do campo sonoro cuja versão comprimida do componente espacial está incluída, em que o valor expressa o tamanho de etapa de quantização ou uma variável do mesmo usado durante a compressão da pluralidade de componentes espaciais e os um ou mais processadores são configurados adicionalmente para, durante a descompressão da versão comprimida do componente espacial, descomprimir a pluralidade de versão comprimida do componente espacial com base, pelo menos parcialmente, no valor.[1220] Clause 141541-6B. The device of any combination of clause 141541-4B and clause 141541-5B, wherein the bit stream comprises a compressed version of a plurality of spatial components of the sound field whose compressed version of the spatial component is included, wherein the value expressed the quantization step size or a variable thereof used during compression of the plurality of spatial components and the one or more processors are further configured to, during decompression of the compressed version of the spatial component, decompress the plurality of compressed version of the spatial component based, at least partially, on value.

[1221] Cláusula 141541-7B. O dispositivo de qualquer combinação da cláusula 141541-1B à cláusula 141541-6B, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso, pelo menos parcialmente, de um código de Huffman para representar um identificador de categoria que identifica uma categoria de compressão à qual o componente espacial corresponde, e em que os um ou mais processadores são configurados adicionalmente para descomprimir, durante a descompressão da versão comprimida do componente espacial, a versão comprimida do componente espacial com base, pelo menos parcialmente, no código de Huffman.[1221] Clause 141541-7B. The provision of any combination of clause 141541-1B to clause 141541-6B, wherein the compressed version of the spatial component is represented in the bitstream using, at least partially, a Huffman code to represent a category identifier that identifies a compression category to which the spatial component corresponds, and in which the one or more processors are further configured to decompress, during decompression of the compressed version of the spatial component, the compressed version of the spatial component based at least partially on the Huffman code.

[1222] Cláusula 141541-8B. O dispositivo de qualquer combinação da cláusula 141541-1B à cláusula 141541-7B, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso de, pelo menos parcialmente, um bit de sinal que identifica se o componente espacial é um valor positivo ou um valor negativo, e em que os um ou mais processadores são configurados adicionalmente para descomprimir, durante a descompressão da versão comprimida do componente espacial, a versão comprimida do componente espacial com base, pelo menos parcialmente, no bit de sinal.[1222] Clause 141541-8B. The device of any combination of clause 141541-1B to clause 141541-7B, wherein the compressed version of the spatial component is represented in the bit stream using, at least partially, a sign bit that identifies whether the spatial component is a positive value or a negative value, and wherein the one or more processors are further configured to decompress, during decompression of the compressed version of the spatial component, the compressed version of the spatial component based at least partially on the sign bit.

[1223] Cláusula 141541-9B. O dispositivo de qualquer combinação da cláusula 141541-1B à cláusula 141541-8B, em que a versão comprimida do componente espacial representada no fluxo de bits com o uso de, pelo menos parcialmente, um código de Huffman para representar um valor residual do componente espacial, e em que os um ou mais processadores são configurados adicionalmente para descomprimir, durante a descompressão da versão comprimida do componente espacial, a versão comprimida do componente espacial com base, pelo menos parcialmente, no código de Huffman.[1223] Clause 141541-9B. The device of any combination of clause 141541-1B to clause 141541-8B, wherein the compressed version of the spatial component represented in the bitstream using, at least partially, a Huffman code to represent a residual value of the spatial component , and wherein the one or more processors are further configured to decompress, during decompression of the compressed version of the spatial component, the compressed version of the spatial component based at least partially on the Huffman code.

[1224] Cláusula 141541-10B. O dispositivo de qualquer combinação da cláusula 141541-1B à cláusula 141541-10B, em que a síntese com base em vetor compreende uma decomposição de valor único.[1224] Clause 141541-10B. The device of any combination of clause 141541-1B to clause 141541-10B, wherein the vector-based synthesis comprises a single-valued decomposition.

[1225] Adicionalmente, o dispositivo de decodificação de áudio 540D pode ser configurado para realizar vários aspectos das técnicas apresentadas abaixo em relação às cláusulas a seguir.[1225] Additionally, the 540D audio decoding device can be configured to perform various aspects of the techniques presented below in relation to the following clauses.

[1226] Cláusula 141541-1C. Um dispositivo, como o dispositivo de decodificação de áudio 540D, que compreende: um ou mais processadores configurados para descomprimir uma versão comprimida de uma componente espacial de um campo sonoro, sendo que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[1226] Clause 141541-1C. A device, such as the audio decoding device 540D, comprising: one or more processors configured to decompress a compressed version of a spatial component of a sound field, the spatial component being generated by performing vector-based synthesis with respect to a plurality of spherical harmonic coefficients.

[1227] Cláusula 141541-2C. O dispositivo de qualquer combinação da cláusula 141541-1C e da cláusula 141541-2C, em que os um ou mais processadores são configurados adicionalmente para obter, durante a descompressão da versão comprimida do componente espacial, um identificador de categoria que identifica uma categoria à qual o componente espacial foi categorizado quando comprimido, obter um sinal que identifica se o componente espacial é um valor positivo ou negativo, obter um valor residual associado à versão comprimida do componente espacial e descomprimir a versão comprimida do componente espacial com base no identificador de categoria, no sinal e no valor residual.[1227] Clause 141541-2C. The device of any combination of clause 141541-1C and clause 141541-2C, wherein the one or more processors are further configured to obtain, during decompression of the compressed version of the spatial component, a category identifier that identifies a category to which the spatial component was categorized when compressed, obtain a signal that identifies whether the spatial component is a positive or negative value, obtain a residual value associated with the compressed version of the spatial component, and decompress the compressed version of the spatial component based on the category identifier, in sign and residual value.

[1228] Cláusula 141541-3C. O dispositivo da cláusula 141541-2C, em que os um ou mais processadores são configurados adicionalmente para obter, durante a obtenção do identificador de categoria, um código de Huffman representativo do identificador de categoria e para decodificar o código de Huffman para obter o identificador de categoria.[1228] Clause 141541-3C. The device of clause 141541-2C, wherein the one or more processors are further configured to obtain, during the retrieval of the category identifier, a Huffman code representative of the category identifier and to decode the Huffman code to obtain the category identifier category.

[1229] Cláusula 141541-4C. O dispositivo da cláusula 141541-3C, em que os um ou mais processadores são configurados adicionalmente para identificar, durante a decodificação do código de Huffman, uma tabela de Huffman usada para decodificar o código de Huffman com base em, pelo menos parcialmente, uma posição relativa do componente espacial em um vetor que especifica uma pluralidade de componentes espaciais.[1229] Clause 141541-4C. The device of clause 141541-3C, where the one or more processors are additionally configured to identify, during the decoding of the Huffman code, a Huffman table used to decode the Huffman code based on, at least partially, a position relative of the spatial component in a vector that specifies a plurality of spatial components.

[1230] Cláusula 141541-5C. O dispositivo de qualquer combinação da cláusula 141541-3C e da cláusula 141541-4C, em que os um ou mais processadores são configurados adicionalmente para identificar, durante a decodificação do código de Huffman, uma tabela de Huffman usada para decodificar o código de Huffman com base em, pelo menos parcialmente, um modo de predição usado durante a compressão do componente espacial.[1230] Clause 141541-5C. The device of any combination of clause 141541-3C and clause 141541-4C, wherein the one or more processors are additionally configured to identify, during Huffman code decoding, a Huffman table used to decode the Huffman code with based on, at least partially, a prediction mode used during the compression of the spatial component.

[1231] Cláusula 141541-6C. O dispositivo de qualquer combinação da cláusula 141541-3C à cláusula 141541-5C, em que os um ou mais processadores são configurados adicionalmente para identificar, durante a decodificação do código de Huffman, uma tabela de Huffman usada para decodificar o código de Huffman com base, pelo menos parcialmente, nas informações da tabela de Huffman associadas à versão comprimida do componente espacial.[1231] Clause 141541-6C. The device of any combination of clause 141541-3C to clause 141541-5C, wherein the one or more processors are additionally configured to identify, during Huffman code decoding, a Huffman table used to decode the Huffman code based on , at least partially, on the Huffman table information associated with the compressed version of the spatial component.

[1232] Cláusula 141541-7C. O dispositivo da cláusula 141541-3C, em que os um ou mais processadores são configurados adicionalmente para identificar, durante a decodificação do código de Huffman, uma tabela de Huffman usada para decodificar o código de Huffman com base, pelo menos parcialmente, em uma posição relativa do componente espacial em um vetor que especifica uma pluralidade de componentes espaciais, em um modo de predição usado durante a compressão do componente espacial e informações da tabela de Huffman associadas à versão comprimida do componente espacial.[1232] Clause 141541-7C. The device of clause 141541-3C, wherein the one or more processors are additionally configured to identify, during the decoding of the Huffman code, a Huffman table used to decode the Huffman code based at least partially on a position relative of the spatial component into a vector that specifies a plurality of spatial components, in a prediction mode used during compression of the spatial component and Huffman table information associated with the compressed version of the spatial component.

[1233] Cláusula 141541-8C. O dispositivo da cláusula 141541-2C, em que os um ou mais processadores são configurados adicionalmente para decodificar, durante obtenção do valor residual, um código de bloco representativo do valor residual a fim de obter o valor residual.[1233] Clause 141541-8C. The device of clause 141541-2C, wherein the one or more processors are further configured to decode, during residual value acquisition, a block code representative of the residual value in order to obtain the residual.

[1234] Cláusula 141541-9C. O dispositivo de qualquer combinação da cláusula 141541-1C à cláusula 141541-8C, em que a síntese com base em vetor compreende uma decomposição de valor único.[1234] Clause 141541-9C. The device of any combination of clause 141541-1C to clause 141541-8C, wherein the vector-based synthesis comprises a single-valued decomposition.

[1235] Adicionalmente, o dispositivo de decodificação de áudio 540D pode ser configurado para realizar vários aspectos das técnicas apresentadas abaixo em relação às cláusulas a seguir. Cláusula 141541-1G. Um dispositivo, como o dispositivo de decodificação de áudio 540D que compreende: um ou mais processadores configurados para identificar um livro de códigos de Huffman para uso durante a descompressão de uma versão comprimida de um atual componente espacial de uma pluralidade de componentes espaciais comprimidos com base em uma ordem da versão comprimida do atual componente espacial em relação aos componentes restantes dentre a pluralidade de componentes espaciais comprimidos, sendo que a componente espacial é gerada realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.[1235] Additionally, the 540D audio decoding device can be configured to perform various aspects of the techniques presented below in relation to the following clauses. Clause 141541-1G. A device, such as the audio decoding device 540D, comprising: one or more processors configured to identify a Huffman codebook for use in decompressing a compressed version of a current spatial component from a plurality of compressed spatial components based on in an order of the compressed version of the current spatial component with respect to the remaining components among the plurality of compressed spatial components, the spatial component being generated by performing a vector-based synthesis with respect to a plurality of spherical harmonic coefficients.

[1236] Cláusula 141541-2G. O dispositivo da cláusula 141541-1G, em que os um ou mais processadores são configurados adicionalmente para realizar qualquer combinação das etapas recitadas na cláusula 141541-1D à cláusula 141541-10D, e na cláusula 141541-1E à cláusula 141541-9E.[1236] Clause 141541-2G. The device of clause 141541-1G, wherein the one or more processors are additionally configured to perform any combination of the steps recited in clause 141541-1D to clause 141541-10D, and in clause 141541-1E to clause 141541-9E.

[1237] As Figuras 42 a 42C são, cada uma, diagramas de blocos que ilustram mais detalhadamente a unidade de redução de ordem 528A mostrada nos exemplos das Figuras 40B a 40J. A Figura 42 é um diagrama de blocos que ilustra uma unidade de redução de ordem 528, que pode representar um exemplo da unidade de redução de ordem 528A das Figuras 40B a 40J. A unidade de redução de ordem 528A pode receber ou determinar, de outro modo, uma taxa-alvo de bits 535 e realizar a redução de ordem em relação aos coeficientes harmônicos esféricos de segundo plano 531 com base apenas nessa taxa-alvo de bits 535. Em alguns exemplos, a unidade de redução de ordem 528A pode acessar uma tabela ou outras estruturas de dados que usam a taxa- alvo de bits 535 para identificar aquelas ordens e/ou subordens que devem ser removidas dos coeficientes harmônicos esféricos de segundo plano 531 a fim de gerar os coeficientes harmônicos esféricos de segundo plano reduzidos 529.[1237] Figures 42 to 42C are each block diagrams illustrating in more detail the order reduction unit 528A shown in the examples of Figures 40B to 40J. Figure 42 is a block diagram illustrating an order reduction unit 528, which may represent an example of the order reduction unit 528A of Figures 40B to 40J. Order reduction unit 528A may receive or otherwise determine a target bit rate 535 and perform order reduction with respect to background spherical harmonic coefficients 531 based only on that target bit rate 535. In some examples, the order reduction unit 528A may access a table or other data structures that use the target bit rate 535 to identify those orders and/or suborders that must be removed from the spherical background harmonic coefficients 531 to in order to generate the reduced background spherical harmonic coefficients 529.

[1238] Dessa maneira, as técnicas podem possibilitar que um dispositivo de codificação de áudio, como os dispositivos de codificação de áudio 510B a 410J, realizem, com base em uma taxa-alvo de bits 535, a redução de ordem em relação a uma pluralidade de coeficientes harmônicos esféricos ou decomposições dos mesmos, tais como, coeficientes harmônicos esféricos de segundo plano 531, a fim de gerar coeficientes harmônicos esféricos reduzidos 529 e as decomposições reduzidas dos mesmos, em que a pluralidade de coeficientes harmônicos esféricos representa um campo sonoro.[1238] In this way, the techniques can enable an audio encoding device, such as audio encoding devices 510B to 410J, to perform, based on a target bit rate 535, order reduction relative to a plurality of spherical harmonic coefficients or decompositions thereof, such as background spherical harmonic coefficients 531, in order to generate reduced spherical harmonic coefficients 529 and reduced decompositions thereof, wherein the plurality of spherical harmonic coefficients represents a sound field.

[1239] Em cada um dentre os vários exemplos descritos acima, deve ficar entendido que o dispositivo de decodificação de áudio 540 pode realizar um método ou compreende, de outro modo, meios para realizar cada etapa do método que o dispositivo de decodificação de áudio 540 é configurado para realizar, em alguns exemplos, sendo que esses meios podem compreender um ou mais processadores. Em alguns exemplos, os um ou mais processadores pode representar um processador de propósito especial configurado por meio de instruções armazenadas em uma mídia de armazenamento legível por computador não transitória. Em outras palavras, vários aspectos das técnicas em cada um desses conjuntos de exemplos de codificação podem fornecer uma mídia de armazenamento legível por computador não transitória que tem instruções armazenadas na mesma que, quando executadas, fazem com que os um ou mais processadores realizem o método que o dispositivo de decodificação de áudio 540 foi configurado para realizar.[1239] In each of the various examples described above, it is to be understood that the audio decoding device 540 may perform a method or otherwise comprises means for performing each step of the method that the audio decoding device 540 is configured to perform, in some instances, such means may comprise one or more processors. In some examples, the one or more processors may represent a special-purpose processor configured through instructions stored on non-transient computer-readable storage media. In other words, various aspects of the techniques in each of these sets of encoding examples can provide a non-transient computer-readable storage medium that has instructions stored on it that, when executed, cause the one or more processors to perform the method. that the 540 audio decoding device has been configured to perform.

[1240] A Figura 42B é um diagrama de blocos que ilustra uma unidade de redução de ordem 528B, que pode representar um exemplo da unidade de redução de ordem 528A das Figuras 40B a 40J. No exemplo da Figura 42B, em vez realizar a redução de ordem com base apenas em uma taxa- alvo de bits 535, a unidade de redução de ordem 528B pode realizar a redução de ordem com base em uma análise de conteúdo dos coeficientes harmônicos esféricos de segundo plano 531. A unidade de redução de ordem 528B pode incluir uma unidade de análise de conteúdo 536A que realiza essa análise de conteúdo.[1240] Figure 42B is a block diagram illustrating an order reduction unit 528B, which may represent an example of the order reduction unit 528A of Figures 40B to 40J. In the example of Fig. 42B, instead of performing order reduction based only on a target bit rate 535, the order reduction unit 528B can perform order reduction based on a content analysis of the spherical harmonic coefficients of background 531. Order reduction unit 528B may include a content analysis unit 536A that performs such content analysis.

[1241] Em alguns exemplos, a unidade de análise de conteúdo 536A pode incluir uma unidade de análise espacial 536A que realiza uma forma de análise de conteúdo denominada de análise espacial. A análise espacial pode envolver analisar os coeficientes harmônicos esféricos de segundo plano 531 para identificar informações espaciais que descrevem o formato ou outras propriedades espaciais dos componentes de segundo plano do campo sonoro. Com base nessas informações espaciais, a unidade de redução de ordem 528B pode identificar essas ordens e/ou subordens que devem ser removidas dos coeficientes harmônicos esféricos de segundo plano 531 a fim de gerar coeficientes harmônicos esféricos de segundo plano reduzidos 529.[1241] In some examples, the content analysis unit 536A may include a spatial analysis unit 536A that performs a form of content analysis called spatial analysis. Spatial analysis may involve analyzing the spherical background harmonic coefficients 531 to identify spatial information that describes the shape or other spatial properties of the background components of the sound field. Based on this spatial information, the order reduction unit 528B can identify those orders and/or suborders that must be removed from the spherical background harmonic coefficients 531 in order to generate reduced spherical background harmonic coefficients 529.

[1242] Em alguns exemplos, a unidade de análise de conteúdo 536A pode incluir uma unidade de análise de difusão 536B que realiza uma forma de análise de conteúdo denominada de análise de difusão. A análise de difusão pode analisar os coeficientes harmônicos esféricos de segundo plano 531 para identificar as informações de difusão que descrevem a difusividade dos componentes de segundo plano do campo sonoro. Com base nessas informações de difusão, a unidade de redução de ordem 528B pode identificar essas ordens e/ou subordens que devem ser removidas dos coeficientes harmônicos esféricos de segundo plano 531 a fim de gerar coeficientes harmônicos esféricos de segundo plano reduzidos 529.[1242] In some examples, the content analysis unit 536A may include a diffusion analysis unit 536B that performs a form of content analysis called diffusion analysis. Diffusion analysis can analyze the spherical background harmonic coefficients 531 to identify the diffusion information that describes the diffusivity of the background components of the sound field. Based on this diffusion information, the order reduction unit 528B can identify those orders and/or suborders that must be removed from the spherical background harmonic coefficients 531 in order to generate reduced spherical background harmonic coefficients 529.

[1243] Embora mostrada como inclusiva tanto da unidade de análise espacial 536A quanto da unidade de análise de difusão 36B, a unidade de análise de conteúdo 536A pode incluir apenas a unidade de análise espacial 536, apenas a unidade de análise de difusão 536B ou tanto a unidade de análise espacial 536A quanto a unidade de análise de difusão 536B. Em alguns exemplos, a unidade de análise de conteúdo 536A pode realizar outras formas de análise de conteúdo além da análise espacial e da análise de difusão, ou como alternativas às mesmas. Consequentemente, as técnicas descritas na presente revelação não devem ser limitadas a esse aspecto.[1243] While shown to be inclusive of both the spatial analysis unit 536A and the scatter analysis unit 36B, the content analysis unit 536A may include only the spatial analysis unit 536, only the scatter analysis unit 536B, or both the spatial analysis unit 536A and the diffusion analysis unit 536B. In some instances, the content analysis unit 536A may perform other forms of content analysis in addition to, or as alternatives to, spatial analysis and diffusion analysis. Accordingly, the techniques described in the present disclosure should not be limited in this regard.

[1244] Dessa maneira, as técnicas podem possibilitar que um dispositivo de codificação de áudio, como os dispositivos de codificação de áudio 510B a 510J, realize, com base em uma análise de conteúdo de uma pluralidade de coeficientes harmônicos esféricos ou decomposições dos mesmos que descreve um campo sonoro, a redução de ordem em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos a fim de gerar os coeficientes harmônicos esféricos reduzidos ou decomposições reduzidas dos mesmos.[1244] In this way, the techniques can enable an audio coding device, such as the 510B to 510J audio coding devices, to perform, based on a content analysis, a plurality of spherical harmonic coefficients or decompositions thereof that describes a sound field, order reduction with respect to the plurality of spherical harmonic coefficients or decompositions thereof in order to generate reduced spherical harmonic coefficients or reduced decompositions thereof.

[1245] Em outras palavras, as técnicas podem possibilitar que um dispositivo, como os dispositivos de codificação de áudio 510B a 510J, seja configurado em conformidade com as cláusulas a seguir.[1245] In other words, the techniques may enable a device, such as the 510B to 510J audio encoding devices, to be configured in accordance with the following clauses.

[1246] Cláusula 133146-1E. Um dispositivo, como quaisquer um dentre os dispositivos de codificação de áudio 510B a 510J, que compreende um ou mais processadores configurados para realizar, com base em uma análise de conteúdo de uma pluralidade de coeficientes harmônicos esféricos ou decomposições dos mesmos que descrevem um campo sonoro, uma redução de ordem em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos a fim de gerar coeficientes harmônicos esféricos reduzidos ou decomposições reduzidas dos mesmos.[1246] Clause 133146-1E. A device, such as any of audio encoding devices 510B to 510J, comprising one or more processors configured to perform, based on a content analysis, a plurality of spherical harmonic coefficients or decompositions thereof that describe a sound field , an order reduction with respect to the plurality of spherical harmonic coefficients or decompositions thereof in order to generate reduced spherical harmonic coefficients or reduced decompositions thereof.

[1247] Cláusula 133146-2E. O dispositivo da cláusula 133146-1E, em que os um ou mais processadores são configurados adicionalmente para realizar, antes de realizar a redução de ordem, uma decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos a fim de identificar um ou mais primeiros vetores que descrevem componentes distintos do campo sonoro e um ou mais segundos vetores que identificam componentes de segundo plano do campo sonoro, e em que os um ou mais processadores são configurados para realizar a redução de ordem em relação aos um ou mais primeiros vetores, aos um ou mais segundos vetores ou tanto aos um ou primeiros vetores quanto aos um ou mais segundos vetores.[1247] Clause 133146-2E. The device of clause 133146-1E, wherein the one or more processors are further configured to perform, prior to performing order reduction, a single-value decomposition with respect to the plurality of spherical harmonic coefficients in order to identify one or more first vectors that describe distinct components of the sound field and one or more second vectors that identify background components of the sound field, and where the one or more processors are configured to perform order reduction with respect to the one or more first vectors, the one or more second vectors or both the one or more first vectors and the one or more second vectors.

[1248] Cláusula 133146-3E. O dispositivo da cláusula 133146-1E, em que os um ou mais processadores são configurados adicionalmente para realizar a análise de conteúdo em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos.[1248] Clause 133146-3E. The device of clause 133146-1E, wherein the one or more processors are further configured to perform content analysis with respect to the plurality of spherical harmonic coefficients or decompositions thereof.

[1249] Cláusula 133146-4E. O dispositivo da cláusula 133146-3E, em que os um ou mais processadores são configurados para realizar a análise espacial em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos.[1249] Clause 133146-4E. The device of clause 133146-3E, wherein the one or more processors are configured to perform spatial analysis with respect to the plurality of spherical harmonic coefficients or decompositions thereof.

[1250] Cláusula 133146-5E. O dispositivo da cláusula 133146-3E, em que a realização da análise de conteúdo compreende realizar uma análise de difusão em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos.[1250] Clause 133146-5E. The device of clause 133146-3E, wherein performing the content analysis comprises performing a diffusion analysis with respect to the plurality of spherical harmonic coefficients or decompositions thereof.

[1251] Cláusula 133146-6E. O dispositivo da cláusula 133146-3E, em que os um ou mais processadores são configurados para realizar uma análise e uma análise de difusão em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos. Cláusula 133146- 7E. O dispositivo da reivindicação 1, em que os um ou mais processadores são configurados para realizar, com base na análise de conteúdo da pluralidade de coeficientes harmônicos esféricos ou nas decomposições dos mesmos e em uma taxa-alvo de bits, na redução de ordem em relação à pluralidade de coeficientes harmônicos esféricos ou nas decomposições dos mesmos a fim de gerar os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.[1251] Clause 133146-6E. The device of clause 133146-3E, wherein the one or more processors are configured to perform analysis and diffusion analysis with respect to the plurality of spherical harmonic coefficients or decompositions thereof. Clause 133146-7E. The device of claim 1, wherein the one or more processors are configured to perform, based on content analysis of the plurality of spherical harmonic coefficients or decompositions thereof and a target bit rate, order reduction with respect to to the plurality of spherical harmonic coefficients or in the decompositions thereof in order to generate the reduced spherical harmonic coefficients or the reduced decompositions thereof.

[1252] Cláusula 133146-8E. O dispositivo da cláusula 133146-1E, em que os um ou mais processadores são configurados adicionalmente para codificar por áudio os coeficientes harmônicos esféricos reduzidos ou as decomposições dos mesmos.[1252] Clause 133146-8E. The device of clause 133146-1E, wherein the one or more processors are further configured to audio encode the reduced spherical harmonic coefficients or decompositions thereof.

[1253] Cláusula 133146-9E. O dispositivo da cláusula 133146-1E, em que os um ou mais processadores são configurados adicionalmente para codificar por áudio os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos e para gerar um fluxo de bits de modo a incluir os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.[1253] Clause 133146-9E. The device of clause 133146-1E, wherein the one or more processors are further configured to audio encode the reduced spherical harmonic coefficients or reduced decompositions thereof and to generate a bit stream to include the reduced spherical harmonic coefficients or their reduced decompositions.

[1254] Cláusula 133146-10E. O dispositivo da cláusula 133146-1E, em que os um ou mais processadores são configurados adicionalmente para especificar uma ou mais ordens e/ou uma ou mais subordens de funções de base esférica às quais esses coeficientes harmônicos esféricos reduzidos ou das decomposições reduzidas dos mesmos correspondem em um fluxo de bits que inclui os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.[1254] Clause 133146-10E. The device of clause 133146-1E, wherein the one or more processors are further configured to specify one or more orders and/or one or more suborders of spherical basis functions to which these reduced spherical harmonic coefficients or reduced decompositions thereof correspond in a bit stream that includes the reduced spherical harmonic coefficients or the reduced decompositions thereof.

[1255] Cláusula 133146-1 IE. O dispositivo da cláusula 133146-1E, em que os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos têm menos valores que a pluralidade de coeficientes harmônicos esféricos ou as decomposições dos mesmos.[1255] Clause 133146-1 IE. The device of clause 133146-1E, wherein reduced spherical harmonic coefficients or reduced decompositions thereof have lesser values than the plurality of spherical harmonic coefficients or decompositions thereof.

[1256] Cláusula 133146-12E. O dispositivo da cláusula 133146-1E, em que os um ou mais processadores são configurados adicionalmente para remover aqueles dentre a pluralidade de coeficientes harmônicos esféricos ou vetores das decomposições dos mesmos que têm uma ordem e/ou subordem especificada para gerar os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.[1256] Clause 133146-12E. The device of clause 133146-1E, wherein the one or more processors are further configured to remove those of a plurality of spherical harmonic coefficients or vectors from the decompositions thereof that have a specified order and/or suborder to generate the reduced spherical harmonic coefficients or their reduced decompositions.

[1257] Cláusula 133146-13E. O dispositivo da cláusula 133146-1E, em que os um ou mais processadores são configurados para zerar esses aqueles dentre a pluralidade de coeficientes harmônicos esféricos ou aqueles vetores da decomposição dos mesmos que têm uma ordem e/ou subordem especificada para gerar os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.[1257] Clause 133146-13E. The device of clause 133146-1E, wherein the one or more processors are configured to zero out those among the plurality of spherical harmonic coefficients or those vectors of the decomposition thereof which have a specified order and/or suborder to generate the spherical harmonic coefficients reduced or reduced decomposition thereof.

[1258] A Figura 42C é um diagrama de blocos que ilustra uma unidade de redução de ordem 528C, que pode representar um exemplo da unidade de redução de ordem 528A das Figuras 40B a 40J. A unidade de redução de ordem 528C da Figura 42B é substancialmente a mesma que a unidade de redução de ordem 528B, porém pode receber ou, de outro modo, determinar uma taxa-alvo de bits 535 da maneira descrita acima em relação à unidade de redução de ordem 528A da Figura 42, ao mesmo tempo em que também realizar a análise de conteúdo da maneira descrita acima em relação à unidade de redução de ordem 528B da Figura 42B. Em seguida, a unidade de redução de ordem 528C pode realizar a redução de ordem em relação aos coeficientes harmônicos esféricos de segundo plano 531 com base nessa taxa-alvo de bits 535 e na análise de conteúdo.[1258] Figure 42C is a block diagram illustrating an order reduction unit 528C, which may represent an example of the order reduction unit 528A of Figures 40B to 40J. The order reduction unit 528C of Fig. 42B is substantially the same as the order reduction unit 528B, but may receive or otherwise determine a target bit rate 535 in the manner described above with respect to the reduction unit. 528A of Fig. 42, while also performing the content analysis in the manner described above with respect to the order reduction unit 528B of Fig. 42B. Then, order reduction unit 528C can perform order reduction with respect to spherical background harmonic coefficients 531 based on that target bit rate 535 and content analysis.

[1259] Dessa maneira, as técnicas podem 422/500 possibilitar que um dispositivo de codificação de áudio, por exemplo, os dispositivos de codificação de áudio 510B a 510J, realizem uma análise de conteúdo em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos. Durante a realização da redução de ordem, os dispositivos de codificação de áudio 510B a 510J podem realizar, com base na taxa-alvo de bits 535 e na análise de conteúdo, a redução de ordem em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos para gerar os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.[1259] In this way, the techniques can 422/500 enable an audio encoding device, for example, audio encoding devices 510B to 510J, to perform a content analysis with respect to the plurality of spherical harmonic coefficients or decompositions of the same. While performing order reduction, audio encoding devices 510B to 510J can perform, based on target bit rate 535 and content analysis, order reduction with respect to the plurality of spherical harmonic coefficients or decompositions of the same to generate the reduced spherical harmonic coefficients or the reduced decompositions thereof.

[1260] Visto que um ou mais vetores são removidos, os dispositivos de codificação de áudio 510B a 510J pode especificar o número de vetores no fluxo de bits como dados de controle. Os dispositivos de codificação de áudio 510B a 510J pode especificar esse número de vetores no fluxo de bits para facilitar a extração dos vetores do fluxo de bits pelo dispositivo de decodificação de áudio.[1260] As one or more vectors are removed, audio encoding devices 510B to 510J can specify the number of vectors in the bit stream as control data. Audio encoding devices 510B to 510J can specify this number of vectors in the bit stream to facilitate the extraction of vectors from the bit stream by the audio decoding device.

[1261] A Figura 44 é uma ilustração em diagrama exemplificativo de operações realizadas pelo dispositivo de codificação de áudio 410D para compensar a o erro de quantização em conformidade com vários aspectos das técnicas descritas na presente revelação. No exemplo da Figura 44, a unidade de matemática 526 do dispositivo de codificação de áudio 510D é mostrada como um bloco tracejado para denotar que as operações matemáticas podem ser realizadas pela unidade de matemática 526 do dispositivo de decodificação de áudio 510D.[1261] Figure 44 is an exemplary diagrammatic illustration of operations performed by the audio encoding device 410D to compensate for quantization error in accordance with various aspects of the techniques described in the present disclosure. In the example of Figure 44, math unit 526 of audio encoding device 510D is shown as a dashed block to denote that math operations can be performed by math unit 526 of audio decoding device 510D.

[1262] Conforme mostrado no exemplo da Figura 44, a unidade de matemática 526 pode multiplicar primeiramente os vetores UDIST * SDIST 527 pelos vetores VTDIST 525E a fim de gerar coeficientes harmônicos esféricos 423/500 distintos (denotados como "vetores HDIST 630”). Em seguida, a unidade de matemática 526 pode dividir os vetores HDIST 630 pela versão quantizada dos vetores VTDIST 525E (que são denotadas, novamente, como "vetores VTQ_DIST 525G”). A unidade de matemática 526 pode realizar a divisão determinando-se um pseudoinverso dos vetores VTQ_DIST 525G e em seguida multiplicando-se os vetores HDIST pelo pseudoinverso dos vetores VTQ_DIST 525G, emitindo-se uma versão compensada de erro de UDIST * SDIST (que pode ser abreviado como vetores "USDIST” ou "USDIST”). A versão compensada de erro de USDIST pode ser denotada como vetores USDIST 527’ no exemplo da Figura 44. Dessa maneira, as técnicas podem projetar, de maneira eficaz, o erro de quantização, pelo menos parcialmente, para os vetores USDIST 527, gerando os vetores USDIST 527’.[1262] As shown in the example of Figure 44, the math unit 526 can first multiply the UDIST * SDIST 527 vectors by the VTDIST 525E vectors in order to generate distinct 423/500 spherical harmonic coefficients (denoted as "HDIST 630 vectors"). Then the math unit 526 can divide the HDIST vectors 630 by the quantized version of the VTDIST 525E vectors (which are denoted, again, as "VTQ_DIST 525G vectors"). The math unit 526 can perform the division by determining a pseudoinverse of the VTQ_DIST 525G vectors and then multiplying the HDIST vectors by the pseudoinverse of the VTQ_DIST 525G vectors, issuing an error compensated version of UDIST * SDIST (which can be abbreviated as "USDIST" or "USDIST" vectors). The error compensated version of USDIST can be denoted as USDIST 527' vectors in the example in Figure 44. In this way, the techniques can effectively project the quantization error, at least partially, to the USDIST 527 vectors, generating the USDIST vectors 527'.

[1263] Em seguida, a unidade de matemática 526 pode subtrair os vetores USDIST 527’ dos vetores UDIST * SDIST 527 para determinar os vetores USERR 634 (que podem representar pelo menos uma porção do erro devido à quantização projetada nos vetores UDIST * SDIST 527). Em seguida, a unidade de matemática 526 pode multiplicar os vetores USERR 634 pelos vetores VTQ_DIST 525G a fim de determinar os vetores HERR 636. Matematicamente, os vetores HERR 636 pode ser equivalente aos vetores USDIST 527 - vetores USDIST 527’, cujo resultado é, em seguida, multiplicado pelos vetores VTDIST 525E. Em seguida, a unidade de matemática 526 pode somar os vetores HERR 636 aos coeficientes harmônicos esféricos de segundo plano 531 (denotados como vetores ¾G 531 no exemplo da Figura 44) computado multiplicando-se os vetores UBG 525D pelos vetores SBG 525B e, em seguida, pelos vetores VTBG 525F. A unidade de matemática 526 pode somar os vetores HERR 636 aos vetores HBG 531, o que projeta de maneira eficaz pelo 424/500 menos uma porção do erro de quantização nos vetores HBG 531 para gerar vetores HBG 53 compensados. Dessa maneira, as técnicas podem projetar pelo menos uma porção do erro de quantização nos vetores HBG 531.[1263] Then the math unit 526 can subtract the USDIST 527' vectors from the UDIST * SDIST 527 vectors to determine the USERR 634 vectors (which can account for at least a portion of the error due to quantization projected onto the UDIST * SDIST 527 vectors ). Then the math unit 526 can multiply the USERR 634 vectors by the VTQ_DIST 525G vectors in order to determine the HERR 636 vectors. Mathematically, the HERR 636 vectors can be equivalent to the USDIST 527 vectors - USDIST 527 vectors, whose result is, then multiplied by the VTDIST 525E vectors. Then the math unit 526 can sum the HERR vectors 636 to the spherical background harmonic coefficients 531 (denoted as ¾G vectors 531 in the example in Figure 44) computed by multiplying the UBG vectors 525D by the SBG 525B vectors and then , by the VTBG 525F vectors. The math unit 526 can sum the HERR 636 vectors to the 531 HBG vectors, which effectively projects at 424/500 minus a portion of the quantization error into the HBG 531 vectors to generate compensated HBG 53 vectors. In this way, the techniques can project at least a portion of the quantization error onto the HBG 531 vectors.

[1264] As Figuras 45 e 45B são diagramas que ilustram a interpolação de subquadros das porções de dois quadros em conformidade com vários aspectos das técnicas descritas na presente revelação. No exemplo da Figura 45, um primeiro quadro 650 e um segundo quadro 652 são mostrados. O primeiro quadro 650 pode incluir coeficientes harmônicos esféricos (“SH[1]”) que podem ser decompostos em matrizes U[1], S[1] e V’[1]. O segundo quadro 652 pode incluir coeficientes harmônicos esféricos (“SH[2]”). Esses SH[1] e SH[2] podem identificar diferentes quadros do SHC 511 descritos acima.[1264] Figures 45 and 45B are diagrams illustrating subframe interpolation of portions of two frames in accordance with various aspects of the techniques described in the present disclosure. In the example of Figure 45, a first frame 650 and a second frame 652 are shown. The first frame 650 can include spherical harmonic coefficients (“SH[1]”) that can be decomposed into matrices U[1], S[1] and V'[1]. The second frame 652 may include spherical harmonic coefficients (“SH[2]”). These SH[1] and SH[2] can identify different SHC 511 frames described above.

[1265] No exemplo da Figura 45B, a unidade de decomposição 518 do dispositivo de codificação de áudio 510H mostrado no exemplo da Figura 40H pode separar cada um dentre os quadros 650 e 652 em quatro subquadros respectivos 651A a 651D e 653A a 653D. Em seguida, a unidade de decomposição 518 pode decompor o primeiro subquadro 651A (denotado como "SH[1,1]”) do quadro 650 em matrizes U[1, 1], S[1, 1] and V[1, 1], emitindo a matriz V[1, 1] 519’ à unidade de interpolação 550. Em seguida, a unidade de decomposição 518 pode decompor o segundo subquadro 653A (denotado como "SH[2,1]”) do quadro 652 em matrizes U[1, 1], S[1, 1] and V[1, 1], emitindo a matriz V[2, 1] 519’ à unidade de interpolação 550. A unidade de decomposição 518 também pode emitir SH[1, 1], SH[1, 2], SH[1, 3] and SH[1, 4] dos SHC 11 e SH[2, 1], SH[2, 2], SH[2, 3] e SH[2, 4] do SHC 511 à unidade de interpolação 550.[1265] In the example of Figure 45B, the decomposition unit 518 of the audio encoding device 510H shown in the example of Figure 40H can separate each of the frames 650 and 652 into four respective subframes 651A to 651D and 653A to 653D. Then, the decomposition unit 518 can decompose the first subframe 651A (denoted as "SH[1,1]") of frame 650 into matrices U[1, 1], S[1, 1] and V[1, 1 ], outputting the matrix V[1, 1] 519' to the interpolation unit 550. Then, the decomposition unit 518 may decompose the second subframe 653A (denoted as "SH[2,1]") of the frame 652 into matrices U[1, 1], S[1, 1] and V[1, 1], outputting the matrix V[2, 1] 519' to the interpolation unit 550. The decomposition unit 518 can also output SH[1, 1], SH[1, 2], SH[1, 3] and SH[1, 4] of SHC 11 and SH[2, 1], SH[2, 2], SH[2, 3] and SH[ 2, 4] from the SHC 511 to the interpolation unit 550.

[1266] Em seguida, a unidade de interpolação 425/500 550 pode realizar as interpolações identificadas no fundo da ilustração mostrada no exemplo da Figura 45B. Ou seja, a unidade de interpolação 550 pode interpolar V’[1, 2] com base em V’[1, 1] e em V’[2, 1]. A unidade de interpolação 550 pode também interpolar V’[1, 3] com base em V’[1, 1] e em V’[2, 1]. Além disso, a unidade de interpolação 550 pode também interpolar V’[1, 4] com base em V’[1, 1] e em V’[2, 1]. Essas interpolações podem envolver uma projeção do V’[1, 1] e do V’[2, 1] no domínio espacial, conforme mostrado no exemplo das Figuras 46 a 46E, seguidos por uma interpolação temporal e, em seguida, por uma projeção de volta no domínio harmônico esférico.[1266] The interpolation unit 425/500 550 can then perform the interpolations identified at the bottom of the illustration shown in the example of Figure 45B. That is, the interpolation unit 550 can interpolate V'[1, 2] based on V'[1, 1] and V'[2, 1]. The interpolation unit 550 can also interpolate V'[1, 3] based on V'[1, 1] and V'[2, 1]. In addition, the interpolation unit 550 can also interpolate V'[1, 4] based on V'[1, 1] and V'[2, 1]. These interpolations may involve a projection of V'[1, 1] and V'[2, 1] onto the spatial domain, as shown in the example of Figures 46 to 46E, followed by a temporal interpolation and then a projection back into the spherical harmonic domain.

[1267] A unidade de interpolação 550 pode, em seguida, derivar U[1, 2]S[1, 2] multiplicando-se SH[1, 2] por (V’[1, 2])-1, U[1, 3]S[1, 3] multiplicando-se SH[1, 3] por (V’[1, 3])-1 e U[1, 4]S[1, 4] multiplicando-se SH[1, 4] por (V’[1, 4])-1. Em seguida, a unidade de interpolação 550 pode reformar o quadro em forma decomposta emitindo a matriz V 519, a matriz S 519B e a matriz U 519C.[1267] The interpolation unit 550 can then derive U[1, 2]S[1, 2] by multiplying SH[1, 2] by (V'[1, 2])-1, U[ 1, 3]S[1, 3] multiplying SH[1, 3] by (V'[1, 3])-1 and U[1, 4]S[1, 4] multiplying SH[1 , 4] by (V'[1, 4])-1. Thereafter, the interpolation unit 550 can reform the frame into decomposed form by outputting the V matrix 519, the S matrix 519B and the U matrix 519C.

[1268] As Figuras 46A a 46E são diagramas que ilustram um corte transversal de uma projeção de um ou mais vetores de uma versão decomposta de uma pluralidade de coeficientes harmônicos esféricos que foram interpolados em conformidade com as técnicas descritas na presente revelação. A Figura 46A ilustra um corte transversal de uma projeção de um ou mais primeiros vetores de uma primeira matriz V 19’ que foi decomposta do SHC 511 de um primeiro subquadro a partir de um primeiro quadro através de um processo de SVD. A Figura 46B ilustra um corte transversal de uma projeção de um ou mais primeiros vetores de uma segunda matriz V 519’ que foi decomposta do SHC 511 de um segundo subquadro a partir de um segundo quadro através de um processo de SVD. 426/500[1268] Figures 46A to 46E are diagrams illustrating a cross-section of a projection of one or more vectors of a decomposed version of a plurality of spherical harmonic coefficients that have been interpolated in accordance with the techniques described in the present disclosure. Fig. 46A illustrates a cross-section of a projection of one or more first vectors of a first V matrix 19' that has been decomposed from the SHC 511 of a first subframe from a first frame through an SVD process. Figure 46B illustrates a cross-section of a projection of one or more first vectors of a second V matrix 519' that has been decomposed from the SHC 511 of a second subframe from a second frame through an SVD process. 426/500

[1269] A Figura 46C ilustra um corte transversal de uma projeção de um ou mais vetores interpolados para uma matriz V 519A representativa de um segundo subquadro do primeiro quadro, sendo que esses vetores foram interpolados em conformidade com as técnicas descritas na presente revelação da matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro do SHC 511 (isto é, os um ou mais vetores da matriz V 519’ mostrada no exemplo da Figura 46 nesse exemplo) e do primeiro subquadro do segundo quadro do SHC 511 (isto é, os um ou mais vetores da matriz V 519’ mostrados no exemplo da Figura 46B nesse exemplo).[1269] Figure 46C illustrates a cross-section of a projection of one or more interpolated vectors into a V matrix 519A representative of a second subframe of the first frame, such vectors having been interpolated in accordance with the techniques described in the present matrix disclosure. V 519' decomposed from the first subframe of the first frame of the SHC 511 (i.e., the one or more vectors of the matrix V 519' shown in the example of Figure 46 in that example) and the first subframe of the second frame of the SHC 511 (i.e. that is, the one or more vectors of the matrix V 519' shown in the example of Figure 46B in that example).

[1270] A Figura 46D ilustra um corte transversal de uma projeção de um ou mais vetores interpolados para uma matriz V 519A representativa de um terceiro subquadro do primeiro quadro, sendo que esses vetores foram interpolados em conformidade com as técnicas descritas na presente revelação da matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro do SHC 511 (isto é, os um ou mais vetores da matriz V 519’ mostrada no exemplo da Figura 46 nesse exemplo) e do primeiro subquadro do segundo quadro do SHC 511 (isto é, os um ou mais vetores da matriz V 519’ mostrados no exemplo da Figura 46B nesse exemplo).[1270] Figure 46D illustrates a cross-section of a projection of one or more interpolated vectors into a V matrix 519A representative of a third subframe of the first frame, such vectors having been interpolated in accordance with the techniques described in the present matrix disclosure V 519' decomposed from the first subframe of the first frame of the SHC 511 (i.e., the one or more vectors of the matrix V 519' shown in the example of Figure 46 in that example) and the first subframe of the second frame of the SHC 511 (i.e. that is, the one or more vectors of the matrix V 519' shown in the example of Figure 46B in that example).

[1271] A Figura 46E ilustra um corte transversal de uma projeção de um ou mais vetores interpolados para uma matriz V 519A representativa de um quarto subquadro do primeiro quadro, sendo que esses vetores foram interpolados em conformidade com as técnicas descritas na presente revelação da matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro do SHC 511 (isto é, os um ou mais vetores da matriz V 519’ mostrada no exemplo da Figura 46 nesse exemplo) e do 427/500 primeiro subquadro do segundo quadro do SHC 511 (isto é, os um ou mais vetores da matriz V 519’ mostrados no exemplo da Figura 46B nesse exemplo).[1271] Figure 46E illustrates a cross-section of a projection of one or more interpolated vectors into a V matrix 519A representative of a fourth subframe of the first frame, these vectors having been interpolated in accordance with the techniques described in the present matrix disclosure V 519' decomposed from the first subframe of the first frame of the SHC 511 (i.e., the one or more vectors of the matrix V 519' shown in the example of Figure 46 in that example) and the first subframe of the second frame of the SHC 511 (that is, the one or more vectors of matrix V 519' shown in the example of Fig. 46B in that example).

[1272] A Figura 47 é um diagrama de blocos que ilustra mais detalhadamente a unidade de extração 542 dos dispositivos de decodificação de áudio 540A a 540D mostrados nos exemplos das Figuras 41 a 41D. Em alguns exemplos, a unidade de extração 542 pode representar um front-end o qual pode ser denominado de "decodificador integrado”, que ode realizar dois ou mais esquemas de decodificação (em que, realizando-se esses dois ou mais esquemas, o decodificador pode ser considerado para "integrar” os dois ou mais esquemas). Conforme mostrado no exemplo da Figura 44, a unidade de extração 542 inclui um multiplexador 620 e as subunidades de extração 622A e 622B (“subunidades de extração 622”). O multiplexador 620 identificar aquelas dentre as matrizes de SCH com quadro codificadas 547 a 547N a serem enviadas à subunidade de extração 622A e à subunidade de extração 622B com base na indicação correspondente de se as matrizes de SCH com quadro codificadas associadas 547 a 547N são geradas a parir de um objeto de áudio sintético ou de uma gravação. Cada uma dentre as subunidades de extração 622A pode realizar um diferente esquema de decodificação (que pode ser denominado de "descompressão”) que, em alguns exemplos, é adaptado tanto para SHC gerado a partir de um objeto de áudio sintético como para um SHC gerado a partir de uma gravação. Cada uma dentre as subunidades de extração 622A pode realizar um esquema respectivo dentre esses esquemas de descompressão a fim de gerar os quadros do SHC 547, que são emitidos ao SHC 547.[1272] Figure 47 is a block diagram illustrating in more detail the extraction unit 542 of the audio decoding devices 540A to 540D shown in the examples of Figures 41 to 41D. In some examples, the extraction unit 542 may represent a front-end which may be termed an "integrated decoder", which can perform two or more decoding schemes (where, by carrying out these two or more schemes, the decoder can be considered to "integrate" the two or more schemes). As shown in the example of Figure 44, extraction unit 542 includes a multiplexer 620 and extraction subunits 622A and 622B ("extraction subunits 622"). The multiplexer 620 identifies those of the frame-coded SCH arrays 547 to 547N to be sent to the extraction subunit 622A and the extraction subunit 622B based on the corresponding indication of whether the associated frame-coded SCH arrays 547 to 547N are generated from a synthetic audio object or from a recording. Each of the 622A extraction subunits can perform a different decoding scheme (which may be called "decompression") which, in some examples, is adapted both for SHC generated from a synthetic audio object and for a SHC generated from a recording. Each of the extraction subunits 622A can perform a respective scheme among these decompression schemes in order to generate the frames from the SHC 547, which are sent to the SHC 547.

[1273] Por exemplo, a unidade de extração 622A pode realizar um esquema de descompressão para reconstruir 428/500 da SA de um sinal predominante (PS) com o uso da seguinte fórmula:

Figure img0074
[1273] For example, the extraction unit 622A can perform a decompression scheme to reconstruct 428/500 of the SA from a predominant signal (PS) using the following formula:
Figure img0074

[1274] em que DirV é um vetor direcional (representativo de várias direções e larguras), que podem ser transmitidas através de um canal auxiliar. Nesse exemplo, a unidade de extração 622B pode realizar um esquema de descompressão que reconstrói a matriz de HOA do PS com o uso da seguinte fórmula:

Figure img0075
[1274] where DirV is a directional vector (representative of various directions and widths), which can be transmitted over an auxiliary channel. In this example, the 622B extraction unit can perform a decompression scheme that reconstructs the PS HOA matrix using the following formula:
Figure img0075

[1275] em que Ynm é a função harmônica esférica e as informações de teta e fi podem ser enviadas através do canal auxiliar.[1275] where Ynm is the spherical harmonic function and theta and fi information can be sent through the auxiliary channel.

[1276] Nesse aspecto, as técnicas possibilitam que a unidade de extração 538 selecione um dentre uma pluralidade de esquemas de descompressão com base na indicação de se uma versão comprimida de coeficientes harmônicos esféricos representativos de um campo sonoro é gerada a partir de um objeto de áudio sintético e descomprima a versão comprimida dos coeficientes harmônicos esféricos com o uso do esquema selecionado dentre a pluralidade de esquemas de descompressão. Em alguns exemplos, o dispositivo compreende um decodificador integrado.[1276] In this regard, the techniques enable the extraction unit 538 to select one of a plurality of decompression schemes based on the indication of whether a compressed version of spherical harmonic coefficients representative of a sound field is generated from an object of synthetic audio and decompress the compressed version of the spherical harmonic coefficients using the scheme selected from the plurality of decompression schemes. In some examples, the device comprises an integrated decoder.

[1277] A Figura 48 é um diagrama de blocos que ilustra a unidade de renderização de áudio 48 do dispositivo de decodificação de áudio 540A a 540D mostrado nos exemplos das Figuras 41A a 41D mais detalhadamente. A Figura 48 ilustra uma conversão dos coeficientes harmônicos esféricos recuperados 547 nos dados de áudio de multicanais 549A que é compatível com uma geometria de falante local decodificador. Para algumas geometrias de falante local 429/500 (que, novamente, pode se referir a uma geometria de falante no decodificador), algumas transformadas que garantem a invertibilidade podem resultar em uma qualidade de áudioimagem menos que desejável. Ou seja, a reprodução de som pode não resultar sempre em uma localização correta de sons quando comparada ao áudio que é capturado. A fim de corrigir essa qualidade de imagem menos que desejável, as técnicas podem ser aprimoradas adicionalmente de modo a introduzir um conceito que pode ser denominado de "falantes virtuais”.[1277] Figure 48 is a block diagram illustrating the audio rendering unit 48 of the audio decoding device 540A to 540D shown in the examples of Figures 41A to 41D in more detail. Figure 48 illustrates a conversion of recovered spherical harmonic coefficients 547 into multi-channel audio data 549A that is compatible with a decoder local speaker geometry. For some 429/500 local speaker geometries (which, again, can refer to a speaker geometry at the decoder), some transforms that guarantee invertibility can result in less than desirable audio-image quality. That is, sound reproduction may not always result in the correct location of sounds when compared to the audio that is captured. In order to correct for this less-than-desirable image quality, the techniques can be further improved so as to introduce a concept that can be termed “virtual speakers”.

[1278] Em vez de exigir que um ou mais altofalantes sejam reposicionados ou posicionados em regiões particulares ou definidas de espaço que têm determinadas tolerâncias especificadas por um padrão, tal como, o ITU-R BS.775-1 verificado acima, a moldura acima pode ser modificada para incluir alguma forma de movimento panorâmico, por exemplo, o movimento panorâmico de amplitude de base de vetor (VBAP), movimento panorâmico de amplitude com base em distância ou outras formas de movimento panorâmico. Tendo como foco o VBAP, para propósitos de ilustração, o VBAP pode introduzir de maneira eficaz o que pode ser caracterizado como "falantes virtuais”. O VBAP pode modificar uma alimentação a um ou mais alto-falantes de modo que esses ou mais alto-falantes emitem de maneira eficaz som que aparenta se originar de um falante virtual em um ou mais dentre uma localização e ângulo diferente d que pelo menos um dentre localização e/ou ângulo dos um ou mais alto-falantes que suportam falante virtual.[1278] Rather than requiring one or more speakers to be relocated or positioned in particular or defined regions of space that have certain tolerances specified by a standard such as the ITU-R BS.775-1 verified above, the above frame can be modified to include some form of panning, for example, vector-based amplitude panning (VBAP), distance-based amplitude panning, or other forms of panning. Focusing on VBAP, for purposes of illustration, VBAP can effectively introduce what can be characterized as "virtual speakers." VBAP can modify a feed to one or more speakers so that those or more speakers speakers effectively emit sound that appears to originate from a virtual speaker at one or more of a location and angle different from at least one of the location and/or angle of the one or more speakers supporting the virtual speaker.

[1279] Para propósitos de ilustração, a equação a seguir para determinar as alimentações altofalante em termos de SHC pode ser conforme o seguinte:

Figure img0076
[1279] For purposes of illustration, the following equation for determining speaker feeds in terms of SHC might be as follows:
Figure img0076

[1280] Na equação acima, a matriz de VBAP é do tamanho de M fileiras por N colunas, em que M denota o número de falantes (e é igual a cinco na equação acima) e N denota o número de falantes virtuais. A matriz A de VBAP pode ser computada como uma função dos vetores a partir da localização definida do ouvinte para cada uma dentre as posições dos falantes e dos vetores a partir da localização definida do ouvinte para cada uma dentre as posições dos falantes virtuais. A matriz A D na equação acima pode ser do tamanho de N fileiras por (ordem+1)2 colunas, em que a ordem pode se referir à ordem das funções de SH. A matriz D pode representar o seguinte:

Figure img0077
[1280] In the above equation, the VBAP matrix is the size of M rows by N columns, where M denotes the number of speakers (and equals five in the above equation) and N denotes the number of virtual speakers. VBAP matrix A can be computed as a function of vectors from the defined listener location for each of the speaker positions and the vectors from the defined listener location for each of the virtual speaker positions. The matrix AD in the above equation can be N rows in size by (order+1)2 columns, where the order can refer to the order of the SH functions. The matrix D can represent the following:
Figure img0077

[1281] A matriz g (ou vetor, visto que há apenas uma única coluna) pode representar o ganho para alimentações de falante para os falantes dispostos na geometria de decodificador local. Na equação, a matriz g é do tamanho M. A matriz A (ou vetor, visto que há apenas uma única coluna) pode denotar o SHC 520, e é do tamanho (Ordem+1)(Ordem+l), que também pode ser denotado como (Ordem+1)2.[1281] The matrix g (or vector, since there is only a single column) can represent the gain for speaker feeds for the speakers arranged in the local decoder geometry. In the equation, matrix g is of size M. Matrix A (or vector, since there is only a single column) can denote SHC 520, and is of size (Order+1)(Order+1), which can also be denoted as (Order+1)2.

[1282] Em vigor, a matriz de VBAP é uma matriz MxN que fornece o que pode ser denominado como um "ajuste de ganho” que fatora na localização dos falantes e da porção dos falantes virtuais. A introdução do movimento panorâmico dessa maneira pode resultar em melhor reprodução 431/500 do áudio de multicanais que resulta em uma imagem de melhor qualidade quando reproduzida pela geometria de falante local. Ademais, incorporando-se o VBAP nessa equação, as técnicas podem superar geometrias de falante insatisfatórias que não se alinham àquelas especificadas em vários padrões.[1282] In effect, the VBAP matrix is an MxN matrix that provides what might be termed a "gain adjustment" that factors in the location of the speakers and the portion of the virtual speakers. Introducing panning in this way can result in in better 431/500 reproduction of multichannel audio that results in a better image quality when reproduced by local speaker geometry. Also, by incorporating VBAP into this equation, the techniques can overcome poor speaker geometries that do not align with those specified in various patterns.

[1283] Na prática, a equação pode ser invertida e empregada para transformar o SHC de volta às alimentações de multicanais para uma geometria ou configuração particular de alto-falantes, que, novamente, pode ser denominada de geometria de decodificador local na presente revelação. Ou seja, a equação pode ser invertida a fim de resolver a matriz g. A equação invertida pode ser conforme o seguinte]:

Figure img0078
[1283] In practice, the equation can be inverted and employed to transform the SHC back to multichannel feeds for a particular speaker geometry or configuration, which, again, may be termed local decoder geometry in the present disclosure. That is, the equation can be inverted in order to solve the matrix g. The inverted equation can be as follows]:
Figure img0078

[1284] A matriz g pode representar o ganho de falante, nesse exemplo, para cada um dentre os cinco altofalantes em uma configuração de falante 5.1. As localizações de falantes virtuais usadas nessa configuração podem corresponder às localizações definidas em uma especificação ou padrão de formato de multicanal de 5.1. A localização dos alto-falantes que podem suportar cada um dentre esses falantes virtuais pode ser determinada com o uso de qualquer técnica conhecida de localização de áudio, dentre as quais, muitas envolvem reproduzir um tom que tem uma frequência particular para determinar uma localização de cada alto-falante em relação a uma unidade de headend (tal como, um receptor de áudio/vídeo (receptor de A/V), televisão, sistema de jogos, sistema de disco de vídeo 432/500 digital, ou outros tipos de sistemas de headend). Alternativamente, um usuário da unidade de headend pode especificar manualmente a localização de cada um dentre os alto-falantes. De qualquer modo, dadas essas localizações e possíveis ângulos, a unidade de headend pode resolver os ganhos, assumindo uma configuração ideal de alto-falantes virtuais por meio de VBAP.[1284] The matrix g can represent the speaker gain, in this example, for each of the five speakers in a 5.1 speaker configuration. The virtual speaker locations used in this configuration can match the locations defined in a 5.1 multi-channel format specification or standard. The location of speakers that can support each of these virtual speakers can be determined using any known audio localization technique, many of which involve playing a tone that has a particular frequency to determine a location of each speaker. speaker in relation to a headend unit (such as an audio/video receiver (A/V receiver), television, gaming system, 432/500 digital video disc system, or other types of audio systems). headend). Alternatively, a user of the headend unit can manually specify the location of each of the speakers. Either way, given these locations and possible angles, the headend unit can resolve the gains by assuming an optimal virtual speaker setup via VBAP.

[1285] Nesse aspecto, um dispositivo ou aparelho pode realizar um movimento panorâmico de amplitude de base de vetor ou outra forma de movimento panorâmico na pluralidade de canais virtuais para produzir uma pluralidade de canais que acionam os falantes e, uma geometria de decodificador local para emitir sons que aparentam se originarem dos falantes virtuais configurados em uma diferente geometria local. Portanto, as técnicas podem possibilitar que o dispositivo de decodificação de áudio 40 realize uma transformada na pluralidade de coeficientes harmônicos esféricos, tais como, os coeficientes harmônicos esféricos recuperados 47, a fim de produzir uma pluralidade de canais. Cada uma dentre a pluralidade de canais pode ser associada a uma região diferente correspondente de espaço. Ademais, cada um dentre a pluralidade de canais pode compreender uma pluralidade de canais virtuais, em que a pluralidade de canais virtuais pode ser associada à região diferente correspondente de espaço. Portanto, um dispositivo pode realizar um movimento panorâmico de amplitude de base de vetor nos canais virtuais para produzir a pluralidade de canais dos dados de áudio de multicanais 49.[1285] In this regard, a device or apparatus may perform vector base amplitude panning or other form of panning on the plurality of virtual channels to produce a plurality of channels that drive the speakers and, a local decoder geometry for emit sounds that appear to originate from virtual speakers configured in a different local geometry. Therefore, the techniques may enable the audio decoding device 40 to perform a transform on the plurality of spherical harmonic coefficients, such as the recovered spherical harmonic coefficients 47, in order to produce a plurality of channels. Each of the plurality of channels may be associated with a corresponding different region of space. Furthermore, each of the plurality of channels may comprise a plurality of virtual channels, wherein the plurality of virtual channels may be associated with the corresponding different region of space. Therefore, a device can perform vector base amplitude panning on the virtual channels to produce the plurality of channels of the multichannel audio data 49.

[1286] As Figuras 49A a 49E(ii) são diagramas que ilustram sistemas de codificação de áudio receptivos 560 A 560C, 567D, 569D, 571E e 573E que podem implantar vários aspectos das técnicas descritas na presente 433/500 revelação. Conforme mostrado no exemplo da Figura 49A, o sistema de codificação de áudio 560 A pode incluir um dispositivo de codificação de áudio 562 e um dispositivo de decodificação de áudio 564. O dispositivo de codificação de áudio 562 pode ser semelhante a qualquer um dentre os dispositivos de codificação de áudio 20 e 510A a 510D mostrados no exemplo das Figuras 4 e 40A a 40D, respectivamente. O dispositivo de decodificação de áudio 564 pode ser semelhante ao dispositivo de decodificação de áudio 24 e 40 mostrado no exemplo das Figuras 5 e 41.[1286] Figures 49A through 49E(ii) are diagrams illustrating receptive audio coding systems 560 A 560C, 567D, 569D, 571E and 573E that can implement various aspects of the techniques described in the present disclosure. As shown in the example of Figure 49A, the audio encoding system 560A may include an audio encoding device 562 and an audio decoding device 564. The audio encoding device 562 may be similar to any of these devices. coding codes 20 and 510A to 510D shown in the example of Figures 4 and 40A to 40D, respectively. Audio decoding device 564 may be similar to audio decoding device 24 and 40 shown in the example of Figures 5 and 41.

[1287] Conforme descrito acima, a ambisonics de ordem superior (HO A) é uma maneira de descrever todas as informações direcionais de um campo sonoro com base em uma transformada de Fourier espacial. Em alguns exemplos, quanto mais alta a ordem de ambisonics, N, maior a resolução espacial e maior o número de coeficientes harmônicos esféricos (SH) (N+1)2. Desse modo, quanto mais alta a ordem de ambisonics N, em alguns exemplos, os resultados são exigências de maior largura de banda para transmitir e armazenar os coeficientes. Devido ao fato de que as exigências de largura de banda de HO A são um tanto altas em comparação, por exemplo, a dados de áudio de sistema surround 5.1 ou 7.1, uma redução de largura de banda pode desejada para muitas aplicações.[1287] As described above, higher-order ambisonics (HO A) is a way of describing all directional information of a sound field based on a spatial Fourier transform. In some examples, the higher the order of ambisonics, N, the greater the spatial resolution and the greater the number of spherical harmonic coefficients (SH) (N+1)2. Thus, the higher the order of ambisonics N, in some examples, results in higher bandwidth requirements to transmit and store the coefficients. Due to the fact that the bandwidth requirements of HO A are quite high compared to, for example, 5.1 or 7.1 surround system audio data, a bandwidth reduction may be desired for many applications.

[1288] Em conformidade com as técnicas descritas na presente revelação, o sistema de codificação de áudio 560 A pode realizar um método com base na separação dos elementos distintos (primeiro plano) dos não distintos dos não distintos (de segundo plano ou ambiente) em uma cena de som espacial. Essa separação pode permitir que o sistema de codificação de áudio 560 A processe elementos e primeiro e de segundo plano independentemente um do outro. Nesse exemplo, o sistema de codificação de 434/500 áudio 560 A explora a propriedade que elementos de primeiro plano pode atrair mais atenção (pelo ouvinte) e pode ser mais fácil de localizar (novamente, pelo ouvinte) em comparação a elementos de segundo plano. Como resultado, o sistema de codificação de áudio 560 A pode armazenar ou transmitir conteúdo de HOA de maneira mais eficaz.[1288] In accordance with the techniques described in the present disclosure, the 560A audio coding system can perform a method based on separating discrete (foreground) from non-distinguished from non-distinguished (background or ambient) elements in a spatial sound scene. This separation can allow the 560A audio encoding system to process foreground and background elements independently of each other. In this example, the 560 A audio 434/500 encoding system exploits the property that foreground elements can attract more attention (by the listener) and can be easier to locate (again, by the listener) compared to background elements. . As a result, the 560A audio encoding system can store or stream HOA content more effectively.

[1289] Em alguns exemplos, o sistema de codificação de áudio 560 A pode realizar essa separação empregando-se o processo de Decomposição de Valor Singular (SVD). O processo de SVD pode separar um quadro de coeficientes de HOA em 3 matrizes (U, S, V). A matriz U contém os vetores esquerdos singulares e a matriz V contém os vetores direitos singulares. A matriz S Diagonal S contém os valores singulares classificados não negativos em sua diagonal. Uma reconstrução geralmente satisfatória (ou, em alguns exemplos, perfeita que assume precisão ilimitada na representação dos coeficientes de HOA) dos coeficientes de HOA é dada por U*S*V. Através da reconstrução apenas do subespaço com os maiores valores singulares D: U(:,1:D)*S(1:D,:)*V, o sistema de codificação de áudio 560 A pode extrair as informações espaciais mais salientes desse quadro de HOA, isto é, elementos de som de primeiro plano (e, talvez, alguns reflexos fortes de sala anteriores). O U(:,D+1:end)*S(D+1:end,:)*V’ restante pode reconstruir os elementos de segundo plano e a reverberação do conteúdo.[1289] In some examples, the 560A audio encoding system can accomplish this separation using the Singular Value Decomposition (SVD) process. The SVD process can separate a table of HOA coefficients into 3 matrices (U, S, V). The matrix U contains the singular left vectors and the matrix V contains the right singular vectors. The matrix S Diagonal S contains the non-negative ranked singular values on its diagonal. A generally satisfactory (or, in some examples, perfect reconstruction that assumes unlimited precision in representing the HOA coefficients) of the HOA coefficients is given by U*S*V. By reconstructing only the subspace with the largest D:U(:,1:D)*S(1:D,:)*V subspace, the 560A audio coding system can extract the most salient spatial information from this frame. of HOA, i.e. foreground sound elements (and perhaps some strong previous room reflections). The remaining U(:,D+1:end)*S(D+1:end,:)*V' can reconstruct background elements and content reverb.

[1290] O sistema de codificação de áudio 560 A pode determinar o valor D, que separa os dois subespaços, analisando-se o coeficiente angular da curva criada diminuindo valores diagonais de S: os valores singulares grandes representam sons de primeiro plano, valores singulares baixos representam valores de segundo plano. O sistema de codificação de áudio 560 A pode usar uma 435/500 primeira e uma segunda derivada da curva de valor singular. O sistema de codificação de áudio 560 A também pode limitar o número D entre um e cinco. Alternativamente, o sistema de codificação de áudio 560 A pode predefinir o número D, por exemplo, a um valor de quatro. De qualquer modo, uma vez que o número D é estimado, o sistema de codificação de áudio 560 A extrai o subespaço de primeiro e de segundo plano das matrizes U e S.[1290] The 560 A audio coding system can determine the D value, which separates the two subspaces, by analyzing the slope of the curve created by decreasing diagonal values of S: large singular values represent foreground sounds, singular values low ones represent background values. The 560A audio coding system can use a 435/500 first and second derivative of the singular value curve. The 560A audio coding system can also limit the D number between one and five. Alternatively, the audio coding system 560 A may preset the number D, for example, to a value of four. In any case, once the number D is estimated, the audio coding system 560A extracts the foreground and background subspace of the U and S matrices.

[1291] O sistema de codificação de áudio 560 A pode, então, reconstruir os coeficientes de HO A do cenário de segundo plano por meio de U(:,D+l:end)*S(D+l:end,:)*V, o que resulta em (N+1)2 canais de coeficientes de HOA. Uma vez que sabe-se que os elementos de segundo plano não são, em alguns exemplos, tão salientes e não são tão passíveis de localização em relação aos elementos de primeiro plano, o sistema de codificação de áudio 560 A pode truncar a ordem dos canais de HOA. Adicionalmente, o sistema de codificação de áudio 560 A pode comprimir esses canais com codecs de áudio com perda ou sem perda, por exemplo AAC, ou opcionalmente um codec de áudio mais agressivo em comparação ao codec usado para comprimir os elementos salientes de primeiro plano. Em alguns exemplos, a fim de economizar largura de banda, o sistema de codificação de áudio 560 A pode transmitir diferentemente os elementos de primeiro plano. Ou seja, o sistema de codificação de áudio pode transmitir os vetores esquerdos singulares U(:,l:D) após serem comprimidos com codecs de áudio com perdas ou sem perdas (por exemplo, AAC) e pode transmitir esses valores esquerdos singulares comprimidos junto da matriz de reconstrução R=S(1:D,:)*V. R pode representar uma matriz D x (N+1)2, que pode diferir ao longo dos quadros.[1291] The 560 A audio coding system can then reconstruct the HO A coefficients of the background scenario via U(:,D+l:end)*S(D+l:end,:) *V, which results in (N+1)2 channels of HOA coefficients. Since it is known that background elements are, in some instances, not as salient and not as locatable relative to foreground elements, the 560A audio coding system may truncate the channel order. of HOA. Additionally, the 560A audio coding system can compress these channels with lossy or lossless audio codecs, for example AAC, or optionally a more aggressive audio codec compared to the codec used to compress the protruding foreground elements. In some examples, in order to save bandwidth, the 560A audio encoding system may transmit foreground elements differently. That is, the audio coding system can transmit the left singular vectors U(:,1:D) after being compressed with lossy or lossless audio codecs (e.g. AAC) and can transmit these left singular values compressed together of the reconstruction matrix R=S(1:D,:)*V. R can represent a D x (N+1)2 matrix, which can differ across frames.

[1292] No lado receptor do sistema de codificação de áudio 560, o sistema de codificação de áudio 436/500 pode multiplicar essas duas matrizes a fim de reconstruir um quadro de (N+1)2 canais de HOA. Uma vez que os canais de HOA de segundo plano e de primeiro plano são somados entre si, o sistema de codificação de áudio 560 A pode renderizar para qualquer organização de alto-falante com o uso de qualquer renderizador Ambissônico. Visto que as técnicas fornecem a separação de elementos de primeiro plano (som direto ou distinto) dos elementos de segundo plano, uma pessoa com problemas auditivos pode controlar a mistura de elementos de primeiro e de segundo plano a fim de aumentar a inteligibilidade. Além disso, outros efeitos de áudio também podem ser aplicados, por exemplo, um compressor dinâmico apenas nos elementos de primeiro plano.[1292] On the receiving side of the 560 audio coding system, the 436/500 audio coding system can multiply these two matrices in order to reconstruct a (N+1)2 channel HOA frame. Since the foreground and background HOA channels are summed together, the 560A audio encoding system can render to any speaker array using any Ambisonic renderer. Since the techniques provide for the separation of foreground elements (direct or distinct sound) from background elements, a hearing impaired person can control the mixing of foreground and background elements to increase intelligibility. In addition, other audio effects can also be applied, for example a dynamic compressor only on foreground elements.

[1293] A Figura 49B é um diagrama de blocos que ilustra o sistema de codificação de áudio 560B mais detalhadamente. Conforme mostrado no exemplo da Figura 49B, o sistema de codificação de áudio 560B pode incluir um dispositivo de codificação de áudio 566 e um dispositivo de decodificação de áudio 568. O dispositivo de codificação de áudio 566 pode ser semelhante aos dispositivos de codificação de áudio 24 e 510E mostrados nos exemplos das Figuras 4 e 40E. O dispositivo de decodificação de áudio 568 pode ser semelhante ao dispositivo de decodificação de áudio 540B e 40 mostrado no exemplo das Figuras 5 e 41B.[1293] Figure 49B is a block diagram illustrating the 560B audio coding system in more detail. As shown in the example of Figure 49B , audio encoding system 560B may include an audio encoding device 566 and an audio decoding device 568. Audio encoding device 566 may be similar to audio encoding devices 24 and 510E shown in the examples of Figures 4 and 40E. Audio decoding device 568 may be similar to audio decoding device 540B and 40 shown in the example of Figures 5 and 41B.

[1294] Em conformidade com as técnicas descritas na presente revelação, durante o uso do quadro com base SVD (ou métodos relacionados, por exemplo, KLT & PCA) a decomposição em sinais de HoA, para o propósito de redução de largura de banda, o dispositivo de codificação de áudio 66 pode quantizar os primeiros vetores da matriz U (múltiplos pelos valores singulares correspondentes da matriz S) assim como os vetores correspondentes do VT vetor. Isso irá compreende os componentes ‘de primeiro 437/500 plano’ do campo sonoro. As técnicas podem possibilitar que o dispositivo de codificação de áudio 566 codifique o vetor UDIST * SDIST com o uso de um mecanismo de codificação de áudio "caixa preta". O vetor V pode ser tanto escalar como um vetor quantizado. Além disso, alguns ou todos os vetores restantes na matriz U podem ser multiplicados pelos valores singulares correspondentes da matriz S e da matriz V e também codificados com o uso de um mecanismo de codificação de áudio "caixa-preta". Os mesmos irão compreender os componentes 'de segundo plano' do campo sonoro.[1294] In accordance with the techniques described in the present disclosure, while using frame based SVD (or related methods, e.g. KLT & PCA) decomposition into HoA signals, for the purpose of bandwidth reduction, the audio coding device 66 can quantize the first vectors of the matrix U (multiple by the corresponding singular values of the matrix S) as well as the corresponding vectors of the VT vector. This will comprise the 437/500 foreground components of the sound field. The techniques can make it possible for the 566 audio encoding device to encode the UDIST*SDIST vector using a "black box" audio encoding mechanism. The vector V can be either a scalar or a quantized vector. Furthermore, some or all of the remaining vectors in the U matrix can be multiplied by the corresponding singular values of the S matrix and the V matrix and also encoded using a "black box" audio coding mechanism. They will understand the 'background' components of the sound field.

[1295] Visto que os componentes de audição mais altos são decompostos nos ‘componentes de primeiro plano’, os dispositivos de codificação de áudio 566 podem reduzir a ordem de Ambisonics dos componentes de 'plano de fundo' antes de usar um mecanismo de codificação de áudio "caixa-preta", devido ao fato de que pressupõe-se que o segundo plano não contém importante conteúdo passível de localização. Dependendo da ordem de ambisonics dos componentes de primeiro plano, uma unidade de codificação de áudio 566 pode transmitir o(s) vetor(es)-V correspondente(s), que podem ser um tanto grandes. Por exemplo, uma simples quantização escalar de 16 bits dos vetores V irá resultar em uma sobrecarga de aproximadamente 20 kbps para a 4ª ordem (25 coeficientes) e de 40 kbps para 6ª ordem (49 coeficientes) por componente de primeiro plano. As técnicas descritas na presente revelação podem fornecer um método para reduzir essa sobrecarga do Vetor-V.[1295] Since the louder hearing components are decomposed into the 'foreground components', 566 audio encoding devices can reduce the Ambisonics order of the 'background' components before using a "black box" audio, due to the fact that the background is assumed not to contain important findable content. Depending on the ambisonics order of the foreground components, an audio encoding unit 566 can transmit the corresponding V-vector(s), which can be quite large. For example, a simple 16-bit scalar quantization of the V vectors will result in an overhead of approximately 20 kbps for the 4th order (25 coefficients) and 40 kbps for the 6th order (49 coefficients) per foreground component. The techniques described in the present disclosure may provide a method of reducing this V-Vector overhead.

[1296] Para propósitos de ilustração, pressupõe-se que a ordem de ambisonics dos elementos de primeiro plano é NDIST e a ordem de ambisonics dos elementos de segundo plano NBG, conforme descrito acima. Visto que o dispositivo de codificação de áudio 566 pode reduzir a ordem de Ambisonics dos elementos de segundo plano, 438/500 conforme descrito acima, NBG pode ser menor do que NDIST. O comprimento do vetor-V de primeiro plano que precisa ser transmitido para reconstruir os elementos de primeiro plano no lado receptor, tem o comprimento de (NDIST+1)2 por elemento de primeiro plano, ao passo que os primeiros coeficientes

Figure img0079
podem ser usados para reconstruir os componentes de primeiro plano ou distintos até a ordem NBG. Com o uso das técnicas descritas na presente revelação, o dispositivo de codificação de áudio 566 pode reconstruir o primeiro plano até a ordem NBG e mesclar os
Figure img0080
canais resultantes com os canais de segundo plano, o que resulta em um campo sonoro completo até a ordem NBG. O dispositivo de codificação de áudio 566 pode, em seguida, reduzir o vetor-V para aqueles coeficientes com o índice maior do que (NBG+1)2 para transmissão, (em que esses vetores podem ser denominados de "VTSMALL”). No lado receptor, a unidade de decodificação de áudio 568 pode reconstruir os canais de áudio de primeiro plano para a ordem de ambisonics maior do que NBG multiplicando-se os elementos de primeiro plano pelos vetores VTSMALL.[1296] For purposes of illustration, it is assumed that the ambisonics order of the foreground elements is NDIST and the ambisonics order of the NBG background elements, as described above. Since audio encoding device 566 can reduce the Ambisonics order of background elements, 438/500 as described above, NBG can be smaller than NDIST. The length of the foreground V-vector that needs to be transmitted to reconstruct the foreground elements on the receiving side is the length of (NDIST+1)2 per foreground element, whereas the first coefficients
Figure img0079
can be used to reconstruct foreground or distinct components up to NBG order. Using the techniques described in the present disclosure, the audio encoding device 566 can reconstruct the foreground to NBG order and merge the
Figure img0080
resulting channels with the background channels, which results in a full sound field up to the NBG order. The audio encoding device 566 can then reduce the V-vector to those coefficients with the index greater than (NBG+1)2 for transmission, (where these vectors may be referred to as "VTSMALL"). receiver side, the audio decoding unit 568 can reconstruct the foreground audio channels to the order of ambisonics greater than NBG by multiplying the foreground elements by the VTSMALL vectors.

[1297] A Figura 49C é um diagrama de blocos que ilustra o sistema de codificação de áudio 560C mais detalhadamente. Conforme mostrado no exemplo da Figura 49C, o sistema de codificação de áudio 560B pode incluir um dispositivo de codificação de áudio 567 e um dispositivo de decodificação de áudio 569. O dispositivo de codificação de áudio 567 pode ser semelhante aos dispositivos de codificação de áudio 20 e 510F mostrados nos exemplos das Figuras 4 e 40F. O dispositivo de decodificação de áudio 569 pode ser semelhante aos dispositivos de decodificação de áudio 540B e 40 mostrado no exemplo das Figuras 5 e 41B.[1297] Figure 49C is a block diagram illustrating the 560C audio coding system in more detail. As shown in the example of Figure 49C, audio encoding system 560B may include an audio encoding device 567 and an audio decoding device 569. Audio encoding device 567 may be similar to audio encoding devices 20 and 510F shown in the examples of Figures 4 and 40F. Audio decoding device 569 may be similar to audio decoding devices 540B and 40 shown in the example of Figures 5 and 41B.

[1298] Em conformidade com as técnicas 439/500 descritas na presente revelação, durante o uso do quadro com base SVD (ou métodos relacionados, por exemplo, KLT & PCA) a decomposição em sinais de HoA, para o propósito de redução de largura de banda, o dispositivo de codificação de áudio 567 pode quantizar os primeiros vetores da matriz U (múltiplos pelos valores singulares correspondentes da matriz S) assim como os vetores correspondentes do VT vetor. Isso irá compreende os componentes ‘de primeiro plano’ do campo sonoro. As técnicas podem possibilitar que o dispositivo de codificação de áudio 567 codifique o vetor UDIST * SDIST com o uso de um mecanismo de codificação de áudio "caixa preta". O vetor V pode ser tanto escalar como um vetor quantizado. Além disso, alguns ou todos os vetores restantes na matriz U podem ser multiplicados pelos valores singulares correspondentes da matriz S e da matriz V e também codificados com o uso de um mecanismo de codificação de áudio "caixa-preta". Os mesmos irão compreender os componentes 'de segundo plano' do campo sonoro.[1298] In accordance with the 439/500 techniques described in the present disclosure, while using frame based SVD (or related methods, e.g. KLT & PCA) decomposition into HoA signals, for the purpose of width reduction bandwidth, the audio coding device 567 can quantize the first vectors of the matrix U (multiple by the corresponding singular values of the matrix S) as well as the corresponding vectors of the VT vector. This will comprise the 'foreground' components of the sound field. The techniques can make it possible for the 567 audio encoding device to encode the UDIST*SDIST vector using a "black box" audio encoding mechanism. The vector V can be either a scalar or a quantized vector. Furthermore, some or all of the remaining vectors in the U matrix can be multiplied by the corresponding singular values of the S matrix and the V matrix and also encoded using a "black box" audio coding mechanism. They will understand the 'background' components of the sound field.

[1299] Visto que os componentes de audição mais altos são decompostos nos ‘componentes de primeiro plano’, os dispositivos de codificação de áudio 567 podem reduzir a ordem de Ambisonics dos componentes de 'plano de fundo' antes de usar um mecanismo de codificação de áudio "caixa-preta", devido ao fato de que pressupõe-se) que o segundo plano não contém importante conteúdo passível de localização. O dispositivo de codificação de áudio 567 pode reduzir a ordem de maneira a preservar a energia geral do campo sonoro de acordo com técnicas descritas no presente documento. Dependendo da ordem de Ambisonics dos componentes de primeiro plano, uma unidade de codificação de áudio 567 pode transmitir o(s) vetor(es)-V correspondente(s), que podem ser um tanto grandes. Por exemplo, uma simples quantização escalar de 16 bits dos 440/500 vetores V irá resultar em uma sobrecarga de aproximadamente 20 kbps para a 4ª ordem (25 coeficientes) e de 40 kbps para 6ª ordem (49 coeficientes) por componente de primeiro plano. As técnicas descritas na presente revelação podem fornecer um método para reduzir essa sobrecarga do(s) Vetor(es)-V.[1299] Since the loudest hearing components are decomposed into the 'foreground components', 567 audio encoding devices can reduce the Ambisonics order of the 'background' components before using a "black box" audio, due to the fact that it is assumed) that the background does not contain important findable content. The audio encoding device 567 can reduce the order in order to preserve the overall energy of the sound field in accordance with techniques described herein. Depending on the Ambisonics order of the foreground components, a 567 audio encoding unit can transmit the corresponding V-vector(s), which can be quite large. For example, a simple 16-bit scalar quantization of the 440/500 V vectors will result in an overhead of approximately 20 kbps for the 4th order (25 coefficients) and 40 kbps for the 6th order (49 coefficients) per foreground component. The techniques described in the present disclosure may provide a method for reducing this V-Vector(s) overhead.

[1300] Para propósito de ilustração, pressupõe-se que a ordem de Ambisonics dos elementos de primeiro plano e dos elementos de segundo plano é N. O dispositivo de codificação de áudio 567 pode reduzir a ordem de Ambisonics dos elementos de segundo plano do(s) vetor-V(s) de N a de modo que < N. O dispositivo de codificação de áudio 67 aplica adicionalmente compensação para aumentar os valores dos elementos de segundo plano do(s) vetor-V(s) para preservar a energia geral do campo sonoro descrito pelos SHCs. As técnicas exemplificativas para aplicar compensação são descritas acima em relação à Figura 40F. No lado receptor, a unidade de decodificação de áudio 569 pode reconstruir os canais de áudio de segundo plano para a ordem de ambisonics. As Figuras 49D(i) e 49D(ii) ilustram um dispositivo de codificação de áudio 567D e um dispositivo de decodificação de áudio 569D respectivamente. O dispositivo de codificação de áudio 567D e o dispositivo de decodificação de áudio 569D podem ser configurados para realizar uma ou mais determinações de distinções com base em direcionalidade, em conformidade com aspectos da presente revelação. A Ambisonics de Ordem Superior (HO A) é um método para descrever todas as informações direcionais de um campo sonoro com base na transformada de Fourier espacial. Quanto mais alta a ordem de Ambisonics N, maior a resolução espacial, maior o número de coeficientes harmônicos esféricos (SH) (N+1)^2, maior a largura de banda 441/500 exigida para transmitir e armazenar os dados. Devido ao fato de que as exigências de largura de banda de HO A são um tanto altas, para muitas aplicações, uma redução de largura de banda é desejada.[1300] For purposes of illustration, it is assumed that the Ambisonics order of the foreground elements and background elements is N. The audio encoding device 567 can reduce the Ambisonics order of the background elements of( s) V-vector(s) of N a so that < N. Audio encoding device 67 additionally applies compensation to increase the values of the background elements of the V-vector(s) to preserve energy of the sound field described by SHCs. Exemplary techniques for applying compensation are described above with respect to Figure 40F. On the receiving side, the audio decoding unit 569 can reconstruct the background audio channels to the order of ambisonics. Figures 49D(i) and 49D(ii) illustrate an audio encoding device 567D and an audio decoding device 569D respectively. The audio encoding device 567D and the audio decoding device 569D may be configured to perform one or more directionality-based distinguishing determinations, in accordance with aspects of the present disclosure. Higher Order Ambisonics (HO A) is a method for describing all directional information of a sound field based on the spatial Fourier transform. The higher the order of Ambisonics N, the greater the spatial resolution, the greater the number of spherical harmonic (SH) coefficients (N+1)^2, the greater the 441/500 bandwidth required to transmit and store the data. Due to the fact that the bandwidth requirements of HO A are quite high, for many applications a bandwidth reduction is desired.

[1301] Descrições anteriores descreveram como a SVD (decomposição de valor único) ou processos relacionados podem ser usados para compressão de áudio espacial. As técnicas descritas no presente documento apresentam um algoritmo aprimorado para selecionar os elementos salientes também conhecidos como os elementos de primeiro plano. Após uma decomposição com base em SVD de um quadro de áudio de HOA em suas matrizes U, S, V, as técnicas baseiam a seleção dos elementos salientes K exclusivamente nos primeiros K canais da matriz U [ U(:,1:K)*S(1:K,1:K) ]. Isso resulta na seleção dos elementos de áudio com energia mais alta. No entanto, não é garantido que esses elementos também sejam direcionais. Portanto, as técnicas são direcionadas à constatação dos elementos sonoros que têm alta energia e também são direcionais. Isso é alcançado, potencialmente, mediante a ponderação da matriz V com a matriz S. Em seguida, para cada fileira dessa matriz resultante, os elementos indexados mais altos (que são associados aos coeficientes de ordem superior HOA) são elevados ao quadrado e somados, o que resulta em um valor por fileira [sumVS no pseudocódigo descrito em relação à Figura 40H]. Em conformidade com o fluxo de trabalho representado no pseudocódigo, os coeficientes Ambissônicos de ordem superior que começam no 5o índice são considerados. Esses valores são classificados de acordo com o tamanho dos mesmos e o índice de sortimento é usado para dispor novamente as matrizes originais U, S e V em conformidade. O algoritmo de compressão com base em SVD, descrito 442/500 anteriormente na presente revelação, pode ser aplicado então sem mais modificações.[1301] Previous descriptions have described how SVD (single value decomposition) or related processes can be used for spatial audio compression. The techniques described in this document present an improved algorithm for selecting the salient elements also known as the foreground elements. After an SVD-based decomposition of an HOA audio frame into its U, S, V matrices, the techniques base the selection of salient K elements exclusively on the first K channels of the U matrix [ U(:,1:K)* S(1:K,1:K)]. This results in selecting the audio elements with the highest energy. However, these elements are not guaranteed to be directional as well. Therefore, the techniques are aimed at finding sound elements that have high energy and are also directional. This is potentially achieved by weighting the matrix V against the matrix S. Then, for each row of this resulting matrix, the highest indexed elements (which are associated with the higher-order coefficients HOA) are squared and summed, which results in a value per row [sumVS in the pseudocode described with respect to Figure 40H]. In accordance with the workflow represented in the pseudocode, higher-order Ambisonic coefficients starting at the 5th index are considered. These values are sorted according to their size and the assortment index is used to rearrange the original U, S, and V matrices accordingly. The SVD-based compression algorithm described 442/500 earlier in the present disclosure can then be applied without further modification.

[1302] As Figuras 49E(i) e 49E(ii) são diagramas de blocos que ilustram um dispositivo de codificação de áudio 571E e um dispositivo de decodificação de áudio 573E respectivamente. O dispositivo de codificação de áudio 571E e o dispositivo de decodificação de áudio 573E pode realizar vários aspectos das técnicas descritos acima em relação aos exemplos das Figuras 49 a 49D(ii), com exceção de que o dispositivo de codificação de áudio 57 IE pode realizar a decomposição de valor único em relação a uma matriz de densidade espectral de potência (PDS) dos coeficientes de HOA para gerar uma matriz S2 e uma matriz V. A matriz S2 pode denotar uma matriz ao quadrado S, em como consequência, a matriz S2 pode se submeter a uma operação de raiz quadrada para obter a matriz S. O dispositivo de codificação de áudio 57 IE pode realizar, em alguns exemplos, a quantização em relação à matriz V para obter uma matriz V quantizada (que pode ser denotada como matriz V).[1302] Figures 49E(i) and 49E(ii) are block diagrams illustrating an audio encoding device 571E and an audio decoding device 573E respectively. Audio encoding device 571E and audio decoding device 573E can perform various aspects of the techniques described above with respect to the examples in Figures 49 to 49D(ii), with the exception that audio encoding device 57 IE can perform the single-valued decomposition against a power spectral density (PDS) matrix of the HOA coefficients to generate a matrix S2 and a matrix V. The matrix S2 may denote a squared matrix S, and consequently, the matrix S2 can undergo a square root operation to obtain the matrix S. The audio encoding device 57 IE can perform, in some examples, quantization with respect to the matrix V to obtain a quantized matrix V (which may be denoted as matrix V).

[1303] O dispositivo de codificação de áudio 571E pode obter a matriz U, primeiramente, multiplicando-se a matriz S pela matriz V quantizada para gerar uma matriz SV. O dispositivo de codificação de áudio 57 IE pode obter, em seguida, o pseudoinverso da matriz SV e, em seguida, multiplicar os coeficientes de HOA pelo pseudoinverso da matriz SV para obter a matriz U. Realizando-se a SVD em relação à densidade espectral de potência dos coeficientes de HOA em vez dos próprios coeficientes, o dispositivo de codificação de áudio 57 IE pode reduzir potencialmente a complexidade computacional da realização da SVD em termos de um ou mais dentre ciclos de processador e espaço de armazenamento, ao mesmo tempo em que realiza a mesma 443/500 eficiência de codificação de áudio de fonte como se a SVD fosse aplicada diretamente aos coeficientes de HOA.[1303] Audio encoding device 571E can obtain matrix U by first multiplying matrix S by quantized matrix V to generate matrix SV. The 57 IE audio encoding device can then obtain the pseudoinverse of the SV matrix and then multiply the HOA coefficients by the pseudoinverse of the SV matrix to obtain the U matrix. Performing SVD with respect to spectral density of power of the HOA coefficients rather than the coefficients themselves, the 57 IE audio encoding device can potentially reduce the computational complexity of performing the SVD in terms of one or more of processor cycles and storage space, while at the same time realizes the same 443/500 source audio coding efficiency as if SVD were applied directly to the HOA coefficients.

[1304] O dispositivo de decodificação de áudio 573E pode ser semelhante àqueles dispositivos de decodificação de áudio descritos acima, com exceção de que o dispositivo de decodificação de áudio 573 pode reconstruir os coeficientes de HOA das decomposições dos coeficientes de HOA alcançados através da aplicação do SVD e em relação à densidade espectral de potência dos coeficientes de HOA em vez dos coeficientes de HOA diretamente.[1304] The audio decoding device 573E can be similar to those audio decoding devices described above, except that the audio decoding device 573 can reconstruct the HOA coefficients from the decompositions of the HOA coefficients achieved by applying the SVD and in relation to the power spectral density of the HOA coefficients instead of the HOA coefficients directly.

[1305] As Figuras 50A e 50B são diagramas de bloco que ilustram, cada um, uma dentre duas abordagens diferentes para reduzir potencialmente a ordem de conteúdo de segundo plano em conformidade com as técnicas descritas na presente revelação. Conforme mostrado no exemplo da Figura 50, a primeira abordagem pode empregar a redução de ordem em relação aos vetores UBG * SBG * VT para reduzir a ordem de N a fj, e que é menor do que (<) N. Ou seja, a unidade de redução de ordem 528A mostrada nos exemplos da Figura 40B a 40J podem realizar a redução de ordem para truncar ou, de outro modo, reduzir a ordem N dos vetores UBG * SBG * VT a fj, em que é menor do que (<) N.[1305] Figures 50A and 50B are block diagrams each illustrating one of two different approaches to potentially reducing background content ordering in accordance with the techniques described in the present disclosure. As shown in the example in Figure 50, the first approach can employ order reduction with respect to vectors UBG * SBG * VT to reduce the order from N to fj, and which is less than (<) N. That is, the order reduction unit 528A shown in the examples of Figure 40B to 40J can perform order reduction to truncate or otherwise reduce the N order of vectors UBG * SBG * VT to fj, where is less than (< ) No.

[1306] Como uma abordagem alternativa, a unidade de redução de ordem 528A pode, conforme mostrado no exemplo da Figura 50B, realizar esse truncamento em relação ao VT que elimina as fileiras de modo a serem (( +1)2, o que não é ilustrado no exemplo da Figura 40B para facilitar a ilustração. Em outras palavras, a unidade de redução de ordem 528A pode remover uma ou mais ordens da matriz VT para gerar de maneira eficaz uma matriz de VBG. O tamanho dessa matriz

Figure img0081
em que essa matriz VBG é, então, usada no lugar da matriz VT durante a geração 444/500 dos vetores UBG * SBG * VT, que realizam de maneira eficaz o truncamento a fim de gerar os vetores UBG * SBG * VT de tamanho M x (fj + l)2.[1306] As an alternative approach, the order reduction unit 528A can, as shown in the example in Figure 50B, perform this truncation with respect to the VT which eliminates the rows so that they are ((+1)2, which is not is illustrated in the example of Figure 40B for ease of illustration. In other words, the order reduction unit 528A can remove one or more orders from the VT matrix to efficiently generate a matrix of VBG.
Figure img0081
where this VBG matrix is then used in place of the VT matrix during the 444/500 generation of the UBG * SBG * VT vectors, which effectively truncate to generate the UBG * SBG * VT vectors of size M x (fj + l)2.

[1307] A Figura 51 é um diagrama de blocos que ilustra exemplos de um caminho de compressão de componente distinto de um dispositivo de codificação de áudio 700A que pode implantar vários aspectos das técnicas descritas na presente revelação para comprimir os coeficientes harmônicos esféricos 701. No exemplo da Figura 51, o caminho de compressão de componente distinto pode se referir a um caminho de processamento do dispositivo de codificação de áudio 700A que comprime os componentes distintos do campo sonoro representados pelo SHC 701. Outro caminho, que pode ser denominado de caminho de compressão de componente de segundo plano, pode representar um caminho de processamento do dispositivo de codificação de áudio 700A que comprime os componentes de segundo plano do SHC 701.[1307] Figure 51 is a block diagram illustrating examples of a distinct component compression path of an audio encoding device 700A that can implement various aspects of the techniques described in the present disclosure for compressing spherical harmonic coefficients 701. For example in Figure 51, the distinct component compression path may refer to a processing path of the audio encoding device 700A that compresses the distinct components of the sound field represented by the SHC 701. Background component compression, may represent a processing path of the 700A audio encoding device that compresses the SHC 701's background components.

[1308] Embora não seja mostrado para propósitos de facilitar a ilustração, o caminho de compressão de segundo plano pode operar em relação ao SHC 701 diretamente em vez das decomposições do SHC 701. Isso é semelhante ao que foi descrito acima em relação às Figuras 49 a 49C, com exceção de que em vez de recompor os componentes de segundo plano a partir das matrizes UBG, SBG e VBG e, em seguida, realizar parte da codificação pseudoacústica (por exemplo, com o uso de um codificador de AAC) desses componentes de segundo plano recompostos, o caminho de processamento de componente de segundo plano pode operar em relação ao SHC 701 diretamente (conforme descrito acima em relação ao dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4), comprimindo esses componentes de segundo plano com o uso do codificador 445/500 piscoacústico. Através da realização da codificação pseudoacústica em relação ao SHC 701 diretamente, as descontinuidades podem ser reduzidas ao mesmo tempo em que também reduzem a complexidade de computação (em termos de operações exigidas para comprimir os componentes de segundo plano) em comparação à realização da codificação pseudoacústica em relação aos componentes de segundo plano recompostos. Embora indicado em termos de distinto e segundo plano, o termo "proeminente” pode ser usado no lugar de "distinto” e o termo "ambiente” pode ser usado no lugar de "segundo plano” na presente revelação.[1308] Although not shown for purposes of ease of illustration, the background compression path can operate against the SHC 701 directly instead of the SHC 701 decompositions. This is similar to what was described above with respect to Figures 49 to 49C, with the exception that instead of recomposing the background components from the UBG, SBG, and VBG matrices and then performing some of the pseudoacoustic encoding (e.g. using an AAC encoder) on those components background components, the background component processing path can operate against the SHC 701 directly (as described above with respect to the audio encoding device 20 shown in the example in Figure 4), by compressing these background components with the use of the 445/500 piscoacoustic encoder. By performing pseudo-acoustic coding against the SHC 701 directly, discontinuities can be reduced while also reducing computational complexity (in terms of operations required to compress the background components) compared to performing pseudo-acoustic coding. against the recomposed background components. Although indicated in terms of distinguished and background, the term "prominent" may be used in place of "distinguished" and the term "environment" may be used in place of "background" in the present revelation.

[1309] De qualquer modo, os coeficientes harmônicos esféricos 701 (“SHC 701”) podem compreender uma matriz de coeficientes que têm um tamanho de M x (N+1)2 em que M denota o número de amostras (e, em alguns exemplos, é 1024) em um quadro de áudio e N denota a ordem mais superior da função de base à qual os coeficientes correspondem. Conforme verificado acima, N é definido comumente como quatro (4) para um total de 1024X25 coeficientes. Cada um dentre os SHC 701 correspondente a uma ordem particular, a combinação de subordem pode ser denominada como canal. Por exemplo, todos os M coeficientes de amostra correspondentes a uma primeira ordem, a uma função de base de subordem zero podem representar um canal, ao passo que os coeficientes correspondentes à ordem zero, função de base de subordem zero podem representar outro canal, etc. Os SHC 701 também podem ser denominados na presente revelação como conteúdo de ambisonics de ordem superior (HO A) 701 ou como um sinal de SH 701.[1309] In any case, the spherical harmonic coefficients 701 (“SHC 701”) may comprise a matrix of coefficients that have a size of M x (N+1)2 where M denotes the number of samples (and in some examples, is 1024) in an audio frame and N denotes the highest order of the basis function to which the coefficients correspond. As noted above, N is commonly defined as four (4) for a total of 1024X25 coefficients. Each of the SHC 701 corresponding to a particular order, the suborder combination can be referred to as a channel. For example, all M sample coefficients corresponding to a first-order, zero-order base function can represent one channel, while the coefficients corresponding to zero-order, zero-suborder base function can represent another channel, etc. . SHC 701 may also be referred to in the present disclosure as higher order ambisonics content (HO A) 701 or as a SH 701 signal.

[1310] Conforme mostrado no exemplo da Figura 51, o dispositivo de codificação de áudio 700A inclui uma unidade de análise 702, uma unidade de síntese com base em vetor 704, uma unidade de redução de vetor 706, uma unidade 446/500 de codificação pseudoacústica 708, uma unidade de redução de coeficiente 710 e uma unidade de compressão 712 (“unidade de compr. 712”). A unidade de análise 702 pode representar uma unidade configurada para realizar uma análise em relação aos SHC 701 de modo a identificar componentes distintos do campo sonoro (D) 703 e um número total de componentes de segundo plano (BGTOT) 705. Em comparação aos dispositivos de codificação de áudio descritos acima, o dispositivo de codificação de áudio 700A não realizar essa determinação em relação às decomposições dos SHC 701, porém diretamente em relação ao SHC 701.[1310] As shown in the example of Figure 51, the audio encoding device 700A includes an parsing unit 702, a vector-based synthesis unit 704, a vector reduction unit 706, an encoding unit 446/500 pseudoacoustics 708, a coefficient reduction unit 710 and a compression unit 712 ("length unit 712"). Analysis unit 702 may represent a unit configured to perform analysis against SHC 701 in order to identify distinct sound field components (D) 703 and a total number of background components (BGTOT) 705. Compared to devices of audio coding described above, the audio coding device 700A does not make this determination in relation to the decompositions of the SHC 701, but directly in relation to the SHC 701.

[1311] A unidade de síntese com base em vetor 704 representa uma unidade configurada para realizar alguma forma de síntese com base em vetor em relação aos SHC 701, por exemplo, SVD, KLT, PCA ou qualquer outra síntese com base em vetor, para gerar, nos exemplos de SVD, uma matriz [U.S.] 707 que tem um tamanho de

Figure img0082
e uma matriz [V] 709 que tem um tamanho de
Figure img0083
. A matriz [U.S.] 707 pode representar uma matriz que resulta de uma multiplicação de matriz da matriz [U] e da matriz [S] gerada através de uma aplicação de SVD aos SHC 701.[1311] Vector-based synthesis unit 704 represents a unit configured to perform some form of vector-based synthesis with respect to SHC 701, e.g. SVD, KLT, PCA or any other vector-based synthesis, to generate, in the SVD examples, an array [US] 707 that has a size of
Figure img0082
and an array [V] 709 that has a size of
Figure img0083
. The matrix [US] 707 can represent a matrix that results from a matrix multiplication of the matrix [U] and the matrix [S] generated by applying SVD to the SHC 701.

[1312] A unidade de redução de vetor 706 pode representar uma unidade configurada para reduzir o número de vetores da matriz [U.S.] 707 e da matriz [V] 709 de modo que cada um dos vetores restantes da matriz [U.S.] 707 e da matriz [V] 709 identifique um componente distinto ou proeminente do campo sonoro. A unidade de redução de vetor 706 pode realizar essa com base no número de componentes distintos D 703. O número de componentes distintos D 703 pode, em vigor, representar uma matriz de números, em que cada número identificar diferentes vetores distintos das matrizes 707 e 709. A unidade de redução de vetor 706 pode emitir uma matriz [U.S.] reduzida 711 do tamanho M x D e 447/500 uma matriz [V] reduzida 713 do tamanho

Figure img0084
Embora não mostrada para propósitos de facilitar ilustração, a interpolação da matriz [V] 709 pode ocorrer antes da redução da matriz [V] 709 de maneira semelhante àquela descrita mais detalhadamente acima. Ademais, embora não mostrado para propósitos de facilitar ilustração, reordenação da matriz [U.S.] reduzida 711 e/ou da matriz [V] reduzida 712 da maneira descrita mais detalhadamente acima. Consequentemente, as técnicas não devem ser limitadas a esses aspectos (tais como, projeção de erro ou qualquer outro aspecto das técnicas supracitadas descritas acima, porém não mostrados no exemplo da Figura 51). A unidade de codificação psicoacústica 708 representa uma unidade configurada para realizar codificação pseudoacústica em relação à matriz [U.S.] 711 para gerar um fluxo de bits 715. A unidade de redução de coeficiente 710 pode representar uma unidade configurada para reduzir o número de canais da matriz [V] reduzida 713. Em outras palavras, a unidade de redução de coeficiente 710 pode representar uma unidade configurada para eliminar aqueles coeficientes dos vetores V distintos (que formam a matriz [V] reduzida 713) que têm poucas informações direcionais ou não têm informações direcionais. Conforme descrito acima, em alguns exemplos, aqueles coeficientes dos vetores V distintos correspondentes a uma primeira função e a uma função de base de ordem zero (denotada como NBG acima) fornecem poucas informações direcionais, portanto, podem ser removidos dos vetores V distintos (através do quê é denominado de "redução de ordem” acima). Nesse exemplo, uma melhor flexibilidade pode ser fornecida não apenas para identificar esses coeficientes que correspondem a NBG, porém para identificar canais de HOA adicionais (que podem ser denotados pelo 448/500 TotalOfAddAmbHOAChan variável) a partir de conjunto de [(NBG +1)2+1, (N+1)2]. A unidade de análise 702 pode analisar os SHC 701 para determinar BGTOT, o que pode identificar não apenas
Figure img0085
porém o TotalOfAddAmbHOAChan. A unidade de redução de coeficiente 710 pode, então, remover esses coeficientes correspondentes ao (NBG+1)2 e ao TotalOfAddAmbHOAChan a partir da matriz [V] reduzida 713 para gerar uma matriz [V] pequena 717 do tamanho
Figure img0086
[1312] The vector reduction unit 706 may represent a unit configured to reduce the number of vectors in the matrix [US] 707 and matrix [V] 709 so that each of the remaining vectors in the matrix [US] 707 and the matrix matrix [V] 709 identifies a distinct or prominent component of the sound field. The vector reduction unit 706 may perform this based on the number of distinct components D 703. The number of distinct components D 703 may, in effect, represent a matrix of numbers, where each number identifies different distinct vectors from the matrices 707 and 709. The vector reduction unit 706 can output a reduced [US] matrix 711 of size M x D and 447/500 a reduced [V] matrix 713 of size
Figure img0084
Although not shown for purposes of ease of illustration, matrix [V] 709 interpolation can occur before matrix [V] 709 reduction in a manner similar to that described in more detail above. Further, although not shown for purposes of ease of illustration, reordering of the reduced [US] matrix 711 and/or the reduced [V] matrix 712 in the manner described in more detail above. Consequently, the techniques should not be limited to these aspects (such as error projection or any other aspect of the aforementioned techniques described above, but not shown in the example in Figure 51). The psychoacoustic encoding unit 708 represents a unit configured to perform pseudoacoustic encoding against the [US] array 711 to generate a bit stream 715. The coefficient reduction unit 710 may represent a unit configured to reduce the number of channels in the array. Reduced [V] 713. In other words, the coefficient reduction unit 710 may represent a unit configured to eliminate those coefficients from the distinct V vectors (which form the reduced [V] matrix 713) that have little or no directional information. directional. As described above, in some examples, those coefficients of the distinct V vectors corresponding to a first function and a zero-order base function (denoted as NBG above) provide little directional information, so they can be removed from the distinct V vectors (via of what is termed "order reduction" above.) In this example, better flexibility can be provided not only to identify those coefficients that correspond to NBG, but to identify additional HOA channels (which can be denoted by the 448/500 TotalOfAddAmbHOAChan variable) from the set of [(NBG+1)2+1, (N+1)2]. The parsing unit 702 can analyze the SHC 701 to determine BGTOT, which can identify not only
Figure img0085
however the TotalOfAddAmbHOAChan. The coefficient reduction unit 710 can then remove those coefficients corresponding to (NBG+1)2 and TotalOfAddAmbHOAChan from the reduced [V] matrix 713 to generate a small [V] matrix 717 of size
Figure img0086

[1313] A unidade de compressão 712 pode realizar, em seguida, a quantização escalar verificar acima e/ou codificação de Huffman para comprimir a matriz [V] pequena 717, emitir a matriz [V] pequena comprimida 717 como informações de canal auxiliar 719 (“info de canal auxiliar 719”). A unidade de compressão 712 pode emitir as informações de canal auxiliar 719 de maneira semelhante àquela mostrada no exemplo das Figuras 10 a 100(ii). Em alguns exemplos, uma unidade de geração de fluxo de bits semelhante àquela descrita acima pode incorporar as informações de canal auxiliar 719 no fluxo de bits 715. Ademais, embora denominado como de fluxo de bits 715, o dispositivo de codificação de áudio 700 A pode incluir, conforme verificado acima, um caminho de processamento de componente de segundo plano que resulta em outro fluxo de bits, em que uma unidade de geração de fluxo de bits semelhante àquelas descritas acima pode gerar um fluxo de bits similar ao fluxo de bits 17 descrita acima que inclui o fluxo de bits 715 e a emissão de fluxo de bits através do caminho de processamento de componente de segundo plano.[1313] The compression unit 712 can then perform the scalar quantization check above and/or Huffman coding to compress the small [V] matrix 717, output the compressed small [V] matrix 717 as auxiliary channel information 719 (“aux channel info 719”). The compression unit 712 can output the auxiliary channel information 719 in a manner similar to that shown in the example of Figures 10 to 100(ii). In some examples, a bitstream generating unit similar to that described above may incorporate auxiliary channel information 719 into bitstream 715. Furthermore, although referred to as bitstream 715, audio encoding device 700A may include, as noted above, a background component processing path that results in another bitstream, wherein a bitstream generating unit similar to those described above can generate a bitstream similar to the bitstream 17 described above that includes bitstream 715 and bitstream output through the background component processing path.

[1314] Em conformidade com as técnicas descritas na presente revelação, a unidade de análise 702 pode ser configurada para determinar um primeiro conjunto diferente de zero de coeficientes de um vetor, isto é, os 449/500 vetores da matriz [V] reduzida 713 nesse exemplo, a ser usado para representar o componente distinto do campo sonoro. Em alguns exemplos, a unidade de análise 702 pode determinar que todos os coeficientes de cada vetor que forma a matriz [V] reduzida 713 devem ser incluídos nas informações de canal auxiliar 719. Portanto, a unidade de análise 702 pode definir o BGTOT igual a zero.[1314] In accordance with the techniques described in the present disclosure, the analysis unit 702 may be configured to determine a first non-zero set of coefficients of a vector, i.e., the 449/500 vectors of the reduced [V] matrix 713 in this example, to be used to represent the distinct component of the sound field. In some examples, the parsing unit 702 may determine that all coefficients of each vector forming the reduced [V] matrix 713 should be included in the auxiliary channel information 719. Therefore, the parsing unit 702 may set the BGTOT equal to zero.

[1315] Então, o dispositivo de codificação de áudio 700A pode atuar de maneira eficaz de maneira recíproca àquela descrita em relação à tabela denotada como "vetores decodificados”. Além disso, o dispositivo de codificação de áudio 700A pode especificar um elemento de sintaxe em um cabeçalho de uma unidade de acesso (que pode incluir um ou mais quadros dentre pluralidade quadros) qual dentre a pluralidade de modos de configuração foi selecionado. Embora descrito como sendo especificado em uma base por unidade de acesso, a unidade de análise 702 pode especificar esse elemento de sintaxe em uma base por quadro em qualquer outra base periódica ou base não periódica (tal como, uma vez para todo o fluxo de bits). De qualquer modo, esse elemento de sintaxe pode compreender dois bits que indica quais dentre os quatro modos de configuração foram selecionados para especificar o conjunto diferente de zero de coeficientes da matriz [V] reduzida 713 para representar os aspectos direcionais desse componente distinto. O elemento de sintaxe pode ser denotado como "codedVVecLength”. Dessa maneira, o dispositivo de codificação de áudio 700A pode sinalizar ou, de outro modo, especificar no fluxo de bits quais dentre os quatro modos de configuração foram usados para especificar a pequena matriz [V] 717 no fluxo de bits. Embora descrito em relação a quatro modos de configuração, as técnicas não devem ser limitadas a quatro modos de configuração, porém a qualquer 450/500 número de modos de configuração, incluindo um único modo de configuração ou uma pluralidade de modos de configuração.[1315] Then, the audio encoding device 700A can effectively act reciprocally to that described in relation to the table denoted as "decoded vectors". In addition, the audio encoding device 700A can specify a syntax element in a header of an access unit (which may include one or more frames from among a plurality of frames) which among a plurality of configuration modes has been selected. Although described as being specified on a per-access unit basis, parsing unit 702 may specify this syntax element on a per-frame basis in any other periodic basis or non-periodic basis (such as once for the entire bit stream). configuration modes were selected to specify the non-zero set of coefficients of the reduced [V] matrix 713 to represent the directional aspects of this c distinct component. The syntax element can be denoted as "codedVVecLength". In this way, the 700A audio encoding device can signal or otherwise specify in the bitstream which of the four configuration modes was used to specify the small array [ V] 717 in the bitstream. Although described in relation to four configuration modes, the techniques should not be limited to four configuration modes, but to any 450/500 number of configuration modes, including a single configuration mode or a plurality of configuration modes.

[1316] Portanto, vários aspectos das técnicas podem possibilitar que o dispositivo de codificação de áudio 700A seja configurado para operar em conformidade com as cláusulas a seguir.[1316] Therefore, various aspects of the techniques may enable the 700A audio encoding device to be configured to operate in accordance with the following clauses.

[1317] Cláusula 133149-1F. Um dispositivo que compreende: um ou mais processadores configurados para selecionar um ou mais dentre uma pluralidade de modos de configuração através do qual deve ser especificado um conjunto diferente de zero de coeficientes de um vetor, sendo que o vetor foi decomposto a partir de pluralidade de coeficientes harmônicos esféricos que descrevem um campo sonoro e representam um componente distinto do campo sonoro, e especificado o conjunto diferente de zero dos coeficientes do vetor com base no modo selecionado dentre a pluralidade de modos de configuração.[1317] Clause 133149-1F. A device comprising: one or more processors configured to select one or more of a plurality of configuration modes by which a non-zero set of coefficients of a vector is to be specified, the vector being decomposed from the plurality of spherical harmonic coefficients describing a sound field and representing a distinct component of the sound field, and specifying the non-zero set of vector coefficients based on the mode selected from among the plurality of configuration modes.

[1318] Cláusula 133149-2F. O dispositivo da cláusula 133149-1F, em que o modo dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui todos os coeficientes.[1318] Clause 133149-2F. The provision of clause 133149-1F, wherein the mode among the plurality of configuration modes indicates that the non-zero set of coefficients includes all coefficients.

[1319] Cláusula 133149-3F. O dispositivo da cláusula 133149-1F, em que o modo dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero de coeficientes inclui aqueles dentre os coeficientes correspondentes a uma ordem maior do que uma ordem de uma função de base à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos correspondem.[1319] Clause 133149-3F. The provision of clause 133149-1F, wherein the mode among the plurality of configuration modes indicates that the non-zero set of coefficients includes those among the coefficients corresponding to an order greater than an order of a basis function to which a or more of the plurality of spherical harmonic coefficients correspond.

[1320] Cláusula 133149-4F. O dispositivo da cláusula 133149-1F, em que o modo dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui aqueles dentre os coeficientes correspondentes a uma ordem maior do que uma ordem de uma 451/500 função de base à qual um dentre a pluralidade de coeficientes harmônicos esféricos corresponde e exclui pelo menos um dentre os coeficientes correspondentes a uma ordem maior do que a ordem da função de base à qual os um ou mais dentre a pluralidade de coeficientes harmônicos esféricos correspondem.[1320] Clause 133149-4F. The provision of clause 133149-1F, wherein the mode among the plurality of configuration modes indicates that the non-zero set of coefficients includes those among the coefficients corresponding to an order greater than an order of a base function to which one of the plurality of spherical harmonic coefficients corresponds to and excludes at least one of the corresponding coefficients at an order greater than the order of the basis function to which the one or more of the plurality of spherical harmonic coefficients correspond.

[1321] Cláusula 133149-5F. O dispositivo da cláusula 133149-1F, em que o modo dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero de coeficientes include todos os coeficientes, com exceção de pelo menos um dentre os coeficientes.[1321] Clause 133149-5F. The provision of clause 133149-1F, wherein the mode among the plurality of configuration modes indicates that the non-zero set of coefficients includes all coefficients with the exception of at least one of the coefficients.

[1322] Cláusula 133149-6F. O dispositivo da cláusula 133149-1F, em que os um ou mais processadores são configurados adicionalmente para especificar o modo selecionado dentre a pluralidade de modos de configuração em um fluxo de bits.[1322] Clause 133149-6F. The device of clause 133149-1F, wherein the one or more processors are further configured to specify the mode selected from among the plurality of configuration modes in a bit stream.

[1323] Cláusula 133149-1G. Um dispositivo que compreende: um ou mais processadores configurados para determinar um dentre uma pluralidade de modos de configuração através do qual deve ser extraído um conjunto diferente de zero de coeficientes de um vetor em conformidade com um dentre uma pluralidade de modos de configuração, sendo que o vetor foi decomposto a partir de pluralidade de coeficientes harmônicos esféricos que descrevem um campo sonoro e que representam um componente distinto do campo sonoro, e extraído o conjunto diferente de zero dos coeficientes do vetor com base no modo obtido dentre a pluralidade de modos de configuração.[1323] Clause 133149-1G. A device comprising: one or more processors configured to determine one of a plurality of configuration modes by which to extract a non-zero set of coefficients from a vector in accordance with one of a plurality of configuration modes, wherein the vector was decomposed from plurality of spherical harmonic coefficients that describe a sound field and that represent a distinct component of the sound field, and extracted the non-zero set of vector coefficients based on the mode obtained from among the plurality of configuration modes .

[1324] Cláusula 133149-2G. O dispositivo da cláusula 133149-1G, em que o modo dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui todos os coeficientes.[1324] Clause 133149-2G. The provision of clause 133149-1G, wherein the mode among the plurality of configuration modes indicates that the non-zero set of coefficients includes all coefficients.

[1325] Cláusula 133149-3G. O dispositivo da 452/500 cláusula 133149-1G, em que o modo dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero de coeficientes inclui aqueles dentre os coeficientes correspondentes a uma ordem maior do que uma ordem de uma função de base à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos correspondem.[1325] Clause 133149-3G. The provision of clause 133149-1G, wherein the mode among the plurality of configuration modes indicates that the non-zero set of coefficients includes those among the coefficients corresponding to an order greater than an order of a basis function to which one or more of the plurality of spherical harmonic coefficients correspond.

[1326] Cláusula 133149-4G. O dispositivo da cláusula 133149-1F, em que o modo dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui aqueles dentre os coeficientes correspondentes a uma ordem maior do que uma ordem de uma função de base à qual um dentre a pluralidade de coeficientes harmônicos esféricos corresponde e exclui pelo menos um dentre os coeficientes correspondentes a uma ordem maior do que a ordem da função de base à qual os um ou mais dentre a pluralidade de coeficientes harmônicos esféricos correspondem.[1326] Clause 133149-4G. The provision of clause 133149-1F, wherein the mode among the plurality of configuration modes indicates that the non-zero set of coefficients includes those among the coefficients corresponding to an order greater than an order of a basis function to which a among the plurality of spherical harmonic coefficients corresponds to and excludes at least one of the coefficients corresponding to an order greater than the order of the basis function to which the one or more of the plurality of spherical harmonic coefficients correspond.

[1327] Cláusula 133149-5G. O dispositivo da cláusula 133149-1G, em que o modo dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero de coeficientes include todos os coeficientes, com exceção de pelo menos um dentre os coeficientes.[1327] Clause 133149-5G. The provision of clause 133149-1G, wherein the mode among the plurality of configuration modes indicates that the non-zero set of coefficients includes all coefficients with the exception of at least one of the coefficients.

[1328] Cláusula 133149-6G. O dispositivo da cláusula 133149-1G, em que os um ou mais processadores são configurados adicionalmente para determinar, durante a determinação do modo dentre a pluralidade de modos de configuração, o modo dentre a pluralidade de modos de configuração com base em um valor sinalizado em um fluxo de bits.[1328] Clause 133149-6G. The device of clause 133149-1G, wherein the one or more processors are further configured to determine, during mode determination among the plurality of configuration modes, the mode among the plurality of configuration modes based on a signaled value in a stream of bits.

[1329] A Figura 52 é um diagrama de blocos que ilustra outro exemplo de um dispositivo de decodificação de áudio 750A que pode implantar vários aspectos das técnicas descritas na presente revelação a fim de reconstruir, ou 453/500 quase reconstruir, os SHC 701. No exemplo da Figura 52, o dispositivo de decodificação de áudio 750A é semelhante ao dispositivo de decodificação de áudio 540D mostrado no exemplo da Figura 4 ID, com exceção de que a unidade de extração 542 recebe fluxo de bits 715’ (que é semelhante ao fluxo de bits 715 descrito acima em relação ao exemplo da Figura 51, com exceção de que o fluxo de bits 715’ também inclui versão codificada em áudio de SHCBG 752) e as informações de canal auxiliar 719. Por essa razão, a unidade de extração é denotada como "unidade de extração 542’”.[1329] Figure 52 is a block diagram illustrating another example of an audio decoding device 750A that can implement various aspects of the techniques described in the present disclosure in order to reconstruct, or quasi-reconstruct, the SHC 701s. In the example of Figure 52, the audio decoding device 750A is similar to the audio decoding device 540D shown in the example of Figure 4 ID, except that the extraction unit 542 receives bitstream 715' (which is similar to the bitstream 715 described above with respect to the example in Figure 51, except that bitstream 715' also includes audio encoded version of SHCBG 752) and auxiliary channel information 719. For this reason, the extraction unit is denoted as "extraction unit 542'".

[1330] Ademais, a unidade de extração 542’ difere da unidade de extração 542 pelo fato de que a unidade de extração 542’ inclui uma forma modificada da unidade de descompressão V 555 (que é mostrada como "unidade de descompressão V 555”‘ no exemplo da Figura 52). A unidade de descompressão V 555’ recebe as informações de canal auxiliar 719 e o elemento de sintaxe denotado codedVVecLength 754. A unidade de extração 542’ analisa o codedVVecLength 754 a partir do fluxo de bits 715’ (e, em um exemplo, a partir da unidade de acesso cabeçalho incluída no fluxo de bits 715’). A unidade de descompressão V 555’ inclui uma unidade de configuração de modo 756 (“unidade de config. de modo 756”) e uma unidade de análise 758 configurável para operar em conformidade com qualquer um dentre os modos de configuração descritos acima 760.[1330] Furthermore, extraction unit 542' differs from extraction unit 542 in that extraction unit 542' includes a modified form of V decompression unit 555 (which is shown as "V 555 decompression unit"' in the example of Figure 52.) The decompression unit V 555' receives the auxiliary channel information 719 and the syntax element denoted codedVVecLength 754. The extraction unit 542' parses the codedVVecLength 754 from the bit stream 715' (and , in one example, from the header access unit included in the bit stream 715'). analysis module 758 configurable to operate in any one of the configuration modes described above 760.

[1331] A unidade de configuração de modo 756 recebe o elemento de sintaxe 754 e seleciona um dentre os modos de configuração 760. A unidade de configuração de modo 756 configura, em seguida, a unidade de análise 758 com o modo selecionado dentre os modos de configuração 760. A unidade de análise 758 representa uma unidade configurada para operar em conformidade com qualquer um dentre os modos 454/500 de configuração 760 para analisar uma forma comprimida de vetores pequenos [V] 717 das informações de canal auxiliar 719. A unidade de análise 758 pode operar em conformidade com o comando de comutação apresentado na tabela a seguir. TABELA— VETORES DECODIFICADOS

Figure img0087
Figure img0088
Figure img0089
[1331] Mode configuration unit 756 receives syntax element 754 and selects one of the 760 configuration modes. Mode configuration unit 756 then configures parsing unit 758 with the mode selected from among the modes of configuration 760. Parsing unit 758 represents a unit configured to operate in accordance with any of the 454/500 modes of configuration 760 to parse a compressed form of small vectors [V] 717 of auxiliary channel information 719. The unit 758 analyzer can operate in accordance with the switching command shown in the following table. TABLE — DECODED VECTORS
Figure img0087
Figure img0088
Figure img0089

[1332] Na tabela de sintaxe acima, o primeiro comando de comutação com os quatro casos (caso 0 a 3) fornece uma maneira para determinar os comprimentos de cada vetor da matriz [V] pequena 717 em termos do número de coeficientes. O primeiro caso, caso 0, indica que todos os coeficientes para os vetores VTDIST são especificados. O segundo caso, caso 1, indica que apenas esses coeficientes do vetor VTDIST correspondentes a uma ordem maior do que um MinNumOfCoeffsForAmbHOA são especificados, o que pode denotar o que é indicado como (NDIST +1) - (NBG + 1) acima. O terceiro caso, caso 2, é semelhante ao segundo caso, porém subtrai adicionalmente coeficientes identificados pelo NumOfAddAmbHoaChan, o que denota uma variável para especificar canais adicionais (em que "canais” indica um coeficiente específico correspondente a uma determinada combinação de ordem, subordem ) correspondentes a uma ordem que excede a ordem NBG. O quarto caso, caso 3, indica que apenas aqueles coeficientes do vetor VTDIST deixados após a remoção dos coeficientes identificados por NumOfAddAmbHoaChan são especificados.[1332] In the syntax table above, the first switching command with the four cases (case 0 to 3) provides a way to determine the lengths of each vector of the small [V] matrix 717 in terms of the number of coefficients. The first case, case 0, indicates that all coefficients for the VTDIST vectors are specified. The second case, case 1, indicates that only those coefficients of the VTDIST vector corresponding to an order greater than a MinNumOfCoeffsForAmbHOA are specified, which can denote what is denoted as (NDIST +1) - (NBG + 1) above. The third case, case 2, is similar to the second case, but it additionally subtracts coefficients identified by NumOfAddAmbHoaChan, which denotes a variable to specify additional channels (where "channels" indicates a specific coefficient corresponding to a given combination of order, suborder ) corresponding to an order that exceeds the NBG order The fourth case, case 3, indicates that only those coefficients from the VTDIST vector left after removing the coefficients identified by NumOfAddAmbHoaChan are specified.

[1333] Nesse aspecto, o dispositivo de decodificação de áudio 750A pode operar em conformidade com as técnicas descritas na presente revelação para determinar um primeiro conjunto diferente de zero de coeficientes de um vetor que representa um componente distinto do campo sonoro, sendo que o vetor foi decomposto a partir de pluralidade de coeficientes harmônicos esféricos que descreve um campo sonoro.[1333] In this regard, the audio decoding device 750A may operate in accordance with the techniques described in the present disclosure to determine a first non-zero set of coefficients from a vector representing a distinct component of the sound field, the vector being was decomposed from a plurality of spherical harmonic coefficients that describe a sound field.

[1334] Ademais, o dispositivo de decodificação 457/500 de áudio 750A pode ser configurado para operar em conformidade com as técnicas descritas na presente revelação para determinar um dentre uma pluralidade de modos de configuração através do qual deve ser extraído um conjunto diferente de zero de coeficientes de um vetor em conformidade com uma pluralidade de modos de configuração, sendo que o vetor foi decomposto a partir de pluralidade de coeficientes harmônicos esféricos que descrevem um campo sonoro e representam um componente distinto do campo sonoro, e extraído o conjunto diferente de zero dos coeficientes do vetor com base no modo obtido dentre a pluralidade de modos de configuração.[1334] In addition, the audio decoding device 457/500 750A may be configured to operate in accordance with the techniques described in the present disclosure to determine one of a plurality of configuration modes through which a non-zero set is to be extracted. of coefficients of a vector in accordance with a plurality of configuration modes, the vector being decomposed from a plurality of spherical harmonic coefficients that describe a sound field and represent a distinct component of the sound field, and the non-zero set extracted of the vector coefficients based on the mode obtained from among the plurality of configuration modes.

[1335] A Figura 53 é um diagrama de blocos que ilustra outro exemplo de um dispositivo de codificação de áudio 570 que pode realizar vários aspectos das técnicas descritas na presente revelação. No exemplo da Figura 53, o dispositivo de codificação de áudio 570 pode ser semelhante a um ou mais dentre os dispositivos de codificação de áudio 510A a 510J (em que pressupõe-se que a unidade de redução de ordem 528A deve estar incluída na unidade de extração de componente de campo sonoro 20, porém não é mostrada para propósito de facilitar a ilustração). No entanto, o dispositivo de codificação de áudio 570 pode incluir uma unidade de transformação mais geral 572 que pode compreender a unidade de decomposição 518 em alguns exemplos.[1335] Fig. 53 is a block diagram illustrating another example of an audio encoding device 570 that can perform various aspects of the techniques described in the present disclosure. In the example of Figure 53, the audio encoding device 570 may resemble one or more of the audio encoding devices 510A to 510J (where it is assumed that the order reduction unit 528A is to be included in the sound field component extraction 20, but not shown for purposes of illustration). However, audio encoding device 570 may include a more general transform unit 572 which may comprise decomposition unit 518 in some examples.

[1336] A Figura 54 é um diagrama de blocos que ilustra, mais detalhadamente, uma implantação exemplificativa do dispositivo de codificação de áudio 570 mostrado no exemplo da Figura 53. Conforme ilustrado no exemplo da Figura 54, a unidade de transformada 572 do dispositivo de codificação de áudio 570 inclui uma unidade de rotação 654. A unidade de extração de componente de 458/500 campo sonoro 520 do dispositivo de codificação de áudio 570 inclui uma unidade de análise espacial 650, uma unidade de análise de característica de conteúdo 652, uma unidade de extração de componente coerente 656, e uma unidade de extração de componentes difusos 658. A unidade de codificação de áudio 514 do dispositivo de codificação de áudio 570 inclui um mecanismo de codificação por AAC 660 e um mecanismo de codificação por AAC 162. A unidade de geração de fluxo de bits 516 do dispositivo de codificação de áudio 570 inclui um multiplexador (MUX) 164.[1336] Figure 54 is a block diagram illustrating in more detail an exemplary implementation of the audio encoding device 570 shown in the example of Figure 53. As illustrated in the example of Figure 54, the transform unit 572 of the audio encoding device 570 is shown in the example of Figure 53. audio encoding 570 includes a rotation unit 654. The 458/500 sound field component extraction unit 520 of the audio encoding device 570 includes a spatial analysis unit 650, a content feature analysis unit 652, a coherent component extraction unit 656, and a fuzzy component extraction unit 658. The audio encoding unit 514 of the audio encoding device 570 includes an AAC encoding mechanism 660 and an AAC encoding mechanism 162. bit stream generation unit 516 of audio coding device 570 includes a multiplexer (MUX) 164.

[1337] A largura de banda - em termos de bits/segundo - exigida para representar dados de áudio 3D na forma de SHC pode tornar os mesos proibitivos em termos de uso pelo consumidor. Por exemplo, durante o uso de uma taxa de amostragem de 48 kHz, e com uma mesma resolução de 32 bits - uma quarta representação de SHC de ordem representa uma largura de banda de 36 Mbits/segundo (25x48000x32 bps). Quando comparado à codificação de áudio do estado da técnica para sinais estéreos, que é tipicamente cerca de 100 kbits/segundo, isso é uma grande figura. As técnicas implantadas no exemplo da Figura 54 pode reduzir a largura de banda de representações de áudio 3D.[1337] The bandwidth - in terms of bits/second - required to represent 3D audio data in the form of SHC can make mesos prohibitive in terms of consumer usage. For example, when using a sampling rate of 48 kHz, and with the same resolution of 32 bits - a fourth order SHC representation represents a bandwidth of 36 Mbits/second (25x48000x32 bps). When compared to prior art audio coding for stereo signals, which is typically around 100 kbits/second, this is quite a figure. The techniques deployed in the example of Figure 54 can reduce the bandwidth of 3D audio representations.

[1338] A unidade de análise espacial 650, a unidade de análise de característica de conteúdo 652 e a unidade de rotação 654 podem receber os SHC 511. Conforme descrito em outro parágrafo na presente revelação, os SHC 511 podem ser representativos de um campo sonoro. No exemplo da Figura 54, a unidade de análise espacial 650, a unidade de análise de característica de conteúdo 652 e a unidade de rotação 654 podem receber vinte e cinco SHC para uma quarta representação de quarta ordem (n=4) do campo sonoro. 459/500[1338] The spatial analysis unit 650, the content feature analysis unit 652 and the rotation unit 654 may receive the SHC 511. As described in another paragraph in the present disclosure, the SHC 511 may be representative of a sound field . In the example of Figure 54, the spatial analysis unit 650, the content feature analysis unit 652 and the rotation unit 654 can receive twenty-five SHC for a fourth order fourth (n=4) representation of the sound field. 459/500

[1339] A unidade de análise espacial 650 pode analisar o campo sonoro representado pelos SHC 511 para identificar componentes distintos do campo sonoro e componentes difusos do campo sonoro. Os componentes distintos do campo sonoro são sons que são percebidos como originados de uma direção identificável ou que são, de outro modo, distintos do de componentes de segundo plano ou difusos do campo sonoro. Por exemplo, o som gerado por um instrumento musical individual pode ser percebido como originado de uma direção identificável. Em contrapartida, componentes difusos de segundo plano do campo sonoro são percebidos como originados de uma direção identificável. Por exemplo, o som do vento a através de uma floresta pode ser um componente difuso de um campo sonoro.[1339] The spatial analysis unit 650 can analyze the sound field represented by the SHC 511 to identify distinct sound field components and diffuse sound field components. Distinct components of the sound field are sounds that are perceived to originate from an identifiable direction or that are otherwise distinct from background or diffuse components of the sound field. For example, the sound generated by an individual musical instrument may be perceived as originating from an identifiable direction. In contrast, diffuse background components of the sound field are perceived to originate from an identifiable direction. For example, the sound of wind blowing through a forest can be a diffuse component of a sound field.

[1340] A unidade de análise espacial 650 pode identificar um ou mais componentes distintos que tentam identificar um ângulo ideal através do qual deve ser girado o campo sonoro de modo a alinhar aqueles componentes distintos que têm mais energia com os eixos geométricos verticais e/ou horizontais (em relação a um microfone presumido que gravou esse campo sonoro). A unidade de análise espacial 650 pode identificar esse ângulo ideal de modo que o campo sonoro possa ser girado de modo que esses componentes distintos se alinhem melhor às funções de base esférica subjacentes mostradas nos exemplos das Figuras 1 e 2.[1340] The spatial analysis unit 650 can identify one or more distinct components that attempt to identify an ideal angle through which the sound field should be rotated in order to align those distinct components that have the most energy with the vertical geometric axes and/or horizontal (relative to an assumed microphone that recorded this sound field). The spatial analysis unit 650 can identify this ideal angle so that the sound field can be rotated so that these distinct components better align with the underlying spherical base functions shown in the examples in Figures 1 and 2.

[1341] Em alguns exemplos, a unidade de análise espacial 650 pode representar uma unidade configurada para realizar uma forma de análise de difusão para identificar uma porcentagem do campo sonoro representado pelos SHC 511 que inclui sons difusos (o que pode se referir a sons que têm baixos níveis de direção ou SHC de ordem inferior, o que significa que aqueles SHC 511 460/500 que têm uma ordem menor ou igual a um). Como um exemplo, uma unidade de análise espacial 650 pode realizar análise de difusão de maneira semelhante àquela descrita em uma dissertação por Ville Pulkki, intitulada "Spatial Sound Reproduction with Directional Audio Coding”, publicada em J. Audio Eng. Soc, Volume 55, no 6, datada de junho de 2007. Em alguns exemplos, a unidade de análise espacial 650 pode analisar apenas um subconjunto diferente de zero dos coeficientes de HO A, por exemplo, os coeficientes zero e de primeira ordem dentre os SHC 511, durante a realização da análise de difusão para determinar a porcentagem de difusão.[1341] In some examples, the spatial analysis unit 650 may represent a unit configured to perform a form of diffusion analysis to identify a percentage of the sound field represented by the SHC 511 that includes diffuse sounds (which may refer to sounds that have low steering levels or lower-order SHC, meaning those SHC 511 460/500 that have an order less than or equal to one). As an example, a spatial analysis unit 650 can perform diffusion analysis in a manner similar to that described in a dissertation by Ville Pulkki entitled "Spatial Sound Reproduction with Directional Audio Coding", published in J. Audio Eng. Soc, Volume 55, #6, dated June 2007. In some examples, the spatial analysis unit 650 can analyze only a non-zero subset of the HO A coefficients, for example, the zero and first order coefficients among the SHC 511, during the performing diffusion analysis to determine the percentage of diffusion.

[1342] A unidade de análise de característica de conteúdo 652 pode determinar, com base pelo menos parcialmente nos SHC 511, se os SHC 511 foram gerados por meio de uma gravação natural de um campo sonoro ou produzido artificialmente (isto é, sinteticamente), por exemplo, a partir de um objeto de áudio, por exemplo, um objeto de PCM. Adicionalmente, a unidade de análise de característica de conteúdo 652 pode, em seguida, determinar, com base pelo menos parcialmente em se os dos SHC 511 foram gerados por meio de uma real gravação de um campo sonoro ou a partir de um objeto de áudio artificial, o número total de canais a ser incluído no fluxo de bits 517. Por exemplo, a unidade de análise de característica de conteúdo 652 pode determinar, com base pelo menos parcialmente em se os SHC 511 foram gerados a partir de gravação de um real campo sonoro ou a partir de um objeto de áudio artificial, de que o fluxo de bits 517 deve ser incluído em dezesseis canais. Cada um dentre os canais pode ser um canal mono. A unidade de análise de característica de conteúdo 652 pode realizar adicionalmente a determinação do número total de canais a serem incluídos no fluxo de 461/500 bits 517 com base em uma taxa de bits de saída do fluxo de bits 517, por exemplo, 1,2 Mbps.[1342] The content characteristic analysis unit 652 can determine, based at least partially on the SHC 511, whether the SHC 511 was generated through a natural recording of a sound field or produced artificially (i.e. synthetically), for example from an audio object, for example a PCM object. Additionally, the content characteristic analysis unit 652 can then determine, based at least partially on whether the SHC 511's were generated through an actual recording of a sound field or from an artificial audio object. , the total number of channels to be included in the bitstream 517. For example, the content feature analysis unit 652 can determine, based at least partially on whether the SHC 511 was generated from recording an actual field sound or from an artificial audio object, that bitstream 517 must be included in sixteen channels. Each of the channels can be a mono channel. The content feature analysis unit 652 may further perform the determination of the total number of channels to be included in the 461/500 bit stream 517 based on an output bit rate of the bit stream 517, e.g. 1, 2 Mbps.

[1343] Além disso, a unidade de análise de característica de conteúdo 652 pode determinar, com base pelo menos parcialmente em se os SHC 511 foram gerados a partir de uma gravação de um real campo sonoro ou a partir de um objeto de áudio artificial, quantos dentre os canais devem ser alocados a componentes coerentes ou, em outras palavras, a componentes distintos do campo sonoro e quantos dentre os canais devem, ser alocados a componentes difusos ou, em outras palavras, componentes de segundo plano do campo sonoro. Por exemplo, quando os SHC 511 foram gerados a partir de gravação de um real campo sonoro com o uso de, por exemplo, um Eigenmic, a unidade de análise de característica de conteúdo 652 pode alocar três dentre os canais a componentes coerentes do campo sonoro e pode alocar os canais restantes a componentes difusos do campo sonoro. Nesse exemplo, quando os SHC 511 foram gerados a partir de um objeto de áudio artificial, a unidade de análise de característica de conteúdo 652 pode alocar cinco dentre os canais aos componentes coerentes do campo sonoro e podem alocar os canais restantes aos componentes difusos do campo sonoro. Dessa maneira, o bloco de análise de conteúdo (isto é, unidade de análise de característica de conteúdo 652) pode determinar o tipo de campo sonoro (por exemplo, difuso/direcional, etc.) e, por sua vez, determinar o número de difusos coerentes/difusos a serem extraídos.[1343] In addition, the content feature analysis unit 652 can determine, based at least partially on whether the SHC 511s were generated from a recording of an actual sound field or from an artificial audio object, how many of the channels must be allocated to coherent components or, in other words, to distinct components of the sound field and how many of the channels must be allocated to diffuse components, or in other words, background components of the sound field. For example, when SHC 511s were generated from recording an actual sound field using, for example, an Eigenmic, the content characteristic analysis unit 652 can allocate three of the channels to coherent components of the sound field. and can allocate the remaining channels to diffuse components of the sound field. In this example, when the SHC 511 were generated from an artificial audio object, the content characteristic analysis unit 652 can allocate five of the channels to the coherent components of the sound field and can allocate the remaining channels to the diffuse components of the field. sound. In this way, the content analysis block (i.e., content feature analysis unit 652) can determine the type of sound field (e.g., diffuse/directional, etc.) and, in turn, determine the number of coherent/fuzzy to be extracted.

[1344] A taxa-alvo de bits pode influenciar o número de componentes e a taxa de bits dos mecanismos de codificação por AAC individuais (por exemplo, AAC mecanismos de codificação 660, 662). Em outras palavras, a unidade de análise de característica de conteúdo 652 pode 462/500 realizar adicionalmente a determinação de quantos canais devem ser alocados aos componentes coerentes e quantos devem ser alocados a componentes difusos com base em uma taxa de bits de saída do fluxo de bits 517, por exemplo, 1,2 Mbps.[1344] The target bit rate can influence the number of components and the bit rate of individual AAC encoding engines (eg AAC 660, 662 encoding engines). In other words, the content feature analysis unit 652 may 462/500 additionally perform the determination of how many channels should be allocated to coherent components and how many should be allocated to fuzzy components based on an output bit rate of the stream. 517 bits, for example 1.2 Mbps.

[1345] Conforme indicado acima, a unidade de análise de característica de conteúdo 652 pode determinar se os SHC 511 foram gerados a partir de uma gravação de um real campo sonoro ou a partir de um objeto de áudio artificial. A unidade de análise de característica de conteúdo 652 pode fazer essa determinação de várias maneiras. Por exemplo, o dispositivo de codificação de áudio 570 pode usar os SHC de 4aordem. Nesse exemplo, a unidade de análise de característica de conteúdo 652 pode codificar 24 canais e prever um 25o canal (que pode ser representado como um vetor). A unidade de análise de característica de conteúdo 652 pode aplicar escalares a pelo menos alguns dentre os 24 canais e somar os valores resultantes para determinar o 25o vetor. Adicionalmente, nesse exemplo, a unidade de análise de característica de conteúdo 652 pode determinar uma precisão do 25o canal predito. Nesse exemplo, caso a precisão do 25o canal seja relativamente alta (por exemplo, a precisão excede um limiar particular), os SHC 511 são propensos a serem gerados a partir de um objeto de áudio sintético. Em contrapartida, caso a precisão do 25o canal predito seja relativamente baixa (por exemplo, a precisão está abaixo do limiar particular), os SHC 511 estão mais propensos a representar um campo sonoro gravado. Nesse exemplo, caso uma relação sinal-ruído (SNR) do 25o canal seja maior do que 100 decibéis (dbs), os SHC 511 estão mais propensos a representarem um campo sonoro gerado a partir de um objeto de áudio sintético. Em contrapartida, a SNR de um campo sonoro gravado com o uso de um microfone eigen pode ser 5 a 20 dbs. Desse modo, pode haver uma demarcação aparente em relações SNR entre o campo sonoro representado pelos SHC 511 gerados a partir de uma gravação direta real e a partir de um objeto de áudio sintético.[1345] As noted above, the content feature analysis unit 652 can determine whether the SHC 511 was generated from a recording of an actual sound field or from an artificial audio object. The content characteristic analysis unit 652 can make this determination in several ways. For example, audio encoding device 570 can use 4th order SHC. In this example, the content feature analysis unit 652 can encode 24 channels and predict a 25th channel (which can be represented as a vector). The content feature analysis unit 652 can apply scalars to at least some of the 24 channels and sum the resulting values to determine the 25th vector. Additionally, in that example, the content feature analysis unit 652 can determine an accuracy of the predicted 25th channel. In this example, if the accuracy of the 25th channel is relatively high (eg accuracy exceeds a particular threshold), SHC 511s are likely to be generated from a synthetic audio object. In contrast, if the accuracy of the predicted 25th channel is relatively low (eg, the accuracy is below the particular threshold), SHC 511s are more likely to represent a recorded sound field. In this example, if the signal-to-noise ratio (SNR) of the 25th channel is greater than 100 decibels (dbs), the SHC 511s are more likely to represent a sound field generated from a synthetic audio object. In contrast, the SNR of a sound field recorded using an eigen microphone can be 5 to 20 dBs. Thus, there may be an apparent demarcation in SNR relationships between the sound field represented by the SHC 511 generated from a real direct recording and from a synthetic audio object.

[1346] Adicionalmente, a unidade de análise de característica de conteúdo 652 pode selecionar, com base pelo menos parcialmente em se os SHC 511 foram gerados a partir de uma gravação de um real campo sonoro ou a partir de um objeto de áudio artificial, livros de códigos para quantizar o vetor V. Em outras palavras, a unidade de análise de característica de conteúdo 652 pode selecionar diferentes livros de códigos para uso na quantização do vetor V, dependendo de se o campo sonoro representado pelos coeficientes de HO A é gravado ou sintético.[1346] Additionally, the content feature analysis unit 652 can select, based at least partially on whether the SHC 511s were generated from a recording of an actual sound field or from an artificial audio object, books of codes to quantize the vector V. In other words, the content feature analysis unit 652 can select different codebooks for use in quantizing the vector V, depending on whether the sound field represented by the HO coefficients A is recorded or synthetic.

[1347] Em alguns exemplos, a unidade de análise de característica de conteúdo 652 pode determinar, em uma base recorrente, se os SHC 511 foram gerados a partir de uma gravação de um real campo sonoro ou a partir de um objeto de áudio artificial. Em alguns desses exemplos, a base recorrente pode ser a cada quadro. Em outros exemplos, a unidade de análise de característica de conteúdo 652 pode realizar essa determinar uma vez. Adicionalmente, a unidade de análise de característica de conteúdo 652 pode determinar, em uma base recorrente, o número total de canais e a alocação de canais de componente coerentes e canais de componente difuso. Em alguns desses exemplos, a base recorrente pode ser a cada quadro. Em outros exemplos, a unidade de análise de característica de conteúdo 652 pode realizar essa determinar uma vez. Em alguns exemplos, a unidade de análise de característica de conteúdo 652 pode selecionar, em uma base recorrente, livros de códigos para uso na quantização do vetor V. Em alguns desses exemplos, a base recorrente pode ser a cada quadro. Em outros exemplos, a unidade de análise de característica de conteúdo 652 pode realizar essa determinar uma vez.[1347] In some instances, the content feature analysis unit 652 can determine, on a recurring basis, whether SHC 511s were generated from a recording of an actual sound field or from an artificial audio object. In some of these examples, the recurring basis may be every frame. In other examples, the content characteristic analysis unit 652 may perform this determine once. Additionally, the content feature analysis unit 652 can determine, on a recurring basis, the total number of channels and the allocation of coherent component channels and fuzzy component channels. In some of these examples, the recurring basis may be every frame. In other examples, the content characteristic analysis unit 652 may perform this determine once. In some examples, the content feature analysis unit 652 may select, on a recurring basis, codebooks for use in quantizing the vector V. In some of these examples, the recurring basis may be on a per-frame basis. In other examples, the content characteristic analysis unit 652 may perform this determine once.

[1348] A unidade de rotação 654 pode realizar uma operação de rotação dos coeficientes de HOA. Conforme discutido em outro parágrafo na presente revelação (por exemplo, em relação à Figura 55 e 55B), a realização da operação de rotação pode reduzir o número de bits exigidos para representar os SHC 511. Em alguns exemplos, a análise de rotação realizada pela unidade de rotação 652 é um exemplo de uma análise de decomposição de valor único (“SVD”). A análise de componente principal (“PCA”), análise de componente independente (“ICA”), e a Transformada de Karhunen-Loeve (“KLT”) são técnicas relacionadas que podem ser aplicáveis.[1348] Rotation unit 654 can perform a rotation operation of the HOA coefficients. As discussed in another paragraph in the present disclosure (e.g., with respect to Figures 55 and 55B), performing the rotation operation can reduce the number of bits required to represent the SHC 511s. In some examples, the rotation analysis performed by the Rotation unit 652 is an example of a single-value decomposition ("SVD") analysis. Principal component analysis (“PCA”), independent component analysis (“ICA”), and the Karhunen-Loeve Transform (“KLT”) are related techniques that may be applicable.

[1349] No exemplo da Figura 54, a unidade de extração de componente coerente 656 recebe SHC girados 511 da unidade de rotação 654. Adicionalmente, a unidade de extração de componente coerente 656 extrai, a partir dos SHC girados 511, os SHC girados 511 associados aos componentes coerentes do campo sonoro.[1349] In the example of Fig. 54, the coherent component extraction unit 656 receives rotated SHCs 511 from the rotation unit 654. Additionally, the coherent component extraction unit 656 extracts from the rotated SHCs 511 the rotated SHCs 511 associated with the coherent components of the sound field.

[1350] No exemplo da Figura 54, a unidade de extração de componente coerente 656 recebe SHC girados 511 da unidade de rotação 654. Adicionalmente, a unidade de extração de componente coerente 656 extrai, a partir dos SHC girados 511, os SHC girados 511 associados aos componentes coerentes do campo sonoro.[1350] In the example of Fig. 54, coherent component extraction unit 656 receives rotated SHC 511 from rotation unit 654. Additionally, coherent component extraction unit 656 extracts from the rotated SHC 511 the rotated SHC 511 associated with the coherent components of the sound field.

[1351] Além disso, a unidade de extração de componente coerente 656 gera um ou mais canais de componente coerentes. Cada um dentre os canais de componente coerentes pode incluir um subconjunto diferente dos SHC girados 511 associados aos coeficientes coerentes do campo sonoro. No exemplo da Figura 54, a unidade de extração de componente coerente 656 pode gerar a partir de um a 16 canais de componente coerentes. O número de canais de componente coerentes gerados pela unidade de extração de componente coerente 656 podem ser determinados pelo número de canais alocados pela unidade de análise de característica de conteúdo 652 aos componentes coerentes do campo sonoro. As taxas de bits dos canais de componente coerentes gerados pela unidade de extração de componente coerente 656 podem ser determinadas pela unidade de análise de característica de conteúdo 652.[1351] In addition, the coherent component extraction unit 656 generates one or more coherent component channels. Each of the coherent component channels may include a different subset of the rotated SHC 511 associated with the sound field coherent coefficients. In the example of Fig. 54 , the coherent component extraction unit 656 can generate from one to 16 coherent component channels. The number of coherent component channels generated by the coherent component extraction unit 656 can be determined by the number of channels allocated by the content characteristic analysis unit 652 to the coherent components of the sound field. The bit rates of the coherent component channels generated by the coherent component extraction unit 656 can be determined by the content feature analysis unit 652.

[1352] De modo semelhante, no exemplo da Figura 54, unidade de extração de componentes difusos 658 recebe SHC girados 511 da unidade de rotação 654. Adicionalmente, a unidade de extração de componentes difusos 658 extrai, a partir dos SHC girados 511, os SHC girados 511 associados aos componentes difusos do campo sonoro.[1352] Similarly, in the example of Figure 54, fuzzy component extraction unit 658 receives rotated SHC 511 from rotation unit 654. Additionally, diffuse component extraction unit 658 extracts from the rotated SHC 511 the Rotated SHC 511 associated with the diffuse components of the sound field.

[1353] Além disso, a unidade de extração de componentes difusos 658 gera um ou mais canais de componente difuso. Cada um dos canais de componente difuso pode incluir um subconjunto diferente dos SHC girados 511 associados aos coeficientes do campo sonoro difusos. No exemplo da Figura 54, a unidade de extração de componentes difusos 658 pode gerar a partir de um a 9 canais de componente difuso. O número de canais de componente difusos gerados pela unidade de extração de componentes difusos 658 pode ser determinado pelo número de canais alocados pela unidade de análise de característica de conteúdo 652 aos componentes coerentes do campo sonoro. As taxas de bits dos canais de componente difusos gerados pela unidade de extração de componentes difusos 658 pode ser determinada pela unidade de análise de característica de conteúdo 652.[1353] In addition, the fuzzy component extraction unit 658 generates one or more fuzzy component channels. Each of the diffuse component channels may include a different subset of the rotated SHC 511 associated with the diffuse sound field coefficients. In the example of Fig. 54, the fuzzy component extraction unit 658 can generate from one to 9 fuzzy component channels. The number of fuzzy component channels generated by the fuzzy component extraction unit 658 can be determined by the number of channels allocated by the content characteristic analysis unit 652 to the coherent components of the sound field. The bit rates of the fuzzy component channels generated by the fuzzy component extraction unit 658 can be determined by the content feature analysis unit 652.

[1354] No exemplo da Figura 54, a unidade de codificação por ACC 660 pode usar um codec de AAC para codificar os canais de componente coerentes gerados pela unidade de extração de componente coerente 656. De modo semelhante, a unidade de codificação por ACC 662 pode usar um codec de AAC para codificar os canais de componente difuso gerados pela unidade de extração de componentes difusos 658. O multiplexador 664 (“MUX 664”) pode multiplexar os canais de componente coerentes codificados e os canais de componente difuso codificados, junto de dados auxiliares (por exemplo, um ângulo ideal determinado pela unidade de análise espacial 650), para gerar o fluxo de bits 517.[1354] In the example of Fig. 54, the ACC encoding unit 660 can use an AAC codec to encode the component coherent channels generated by the component coherent extraction unit 656. Similarly, the ACC encoding unit 662 can use an AAC codec to encode the fuzzy component channels generated by the fuzzy component extraction unit 658. The multiplexer 664 ("MUX 664") can multiplex the coded coherent component channels and the coded fuzzy component channels, together with auxiliary data (e.g., an ideal angle determined by the spatial analysis unit 650), to generate the bit stream 517.

[1355] Dessa maneira, as técnicas podem possibilitar que o dispositivo de codificação de áudio 570 determine se os coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético.[1355] In this way, the techniques can enable the audio encoding device 570 to determine whether representative spherical harmonic coefficients of a sound field are generated from a synthetic audio object.

[1356] Em alguns exemplos, o dispositivo de codificação de áudio 570 pode determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, de um subconjunto dos coeficientes harmônicos esféricos representativos de componentes distintos do campo sonoro. Nesse e em outros exemplos, o dispositivo de codificação de áudio 570 pode gerar um fluxo de bits de modo a incluir a o subconjunto dos coeficientes harmônicos esféricos. O dispositivo de codificação de áudio 570 pode, em alguns exemplos, codificar por áudio o subconjunto dos coeficientes harmônicos esféricos e gerar um fluxo de bits de modo a incluir o subconjunto codificado em áudio dos coeficientes harmônicos esféricos.[1356] In some examples, the audio encoding device 570 can determine, based on whether the spherical harmonic coefficients are generated from a synthetic audio object, a subset of the spherical harmonic coefficients representative of distinct components of the sound field . In this and other examples, the audio encoding device 570 may generate a bit stream to include the subset of the spherical harmonic coefficients. The audio encoding device 570 may, in some instances, audio encode the subset of the spherical harmonic coefficients and generate a bit stream to include the audio encoded subset of the spherical harmonic coefficients.

[1357] Em alguns exemplos, o dispositivo de codificação de áudio 570 pode determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, de um subconjunto dos coeficientes harmônicos esféricos representativos de componentes de segundo plano do campo sonoro. Nesse e em outros exemplos, o dispositivo de codificação de áudio 570 pode gerar um fluxo de bits de modo a incluir a o subconjunto dos coeficientes harmônicos esféricos. Nesse e em outros exemplos, o dispositivo de codificação de áudio 570 pode codificar por áudio o subconjunto dos coeficientes harmônicos esféricos, e gerar um fluxo de bits de modo a incluir o subconjunto codificado em áudio dos coeficientes harmônicos esféricos.[1357] In some examples, the audio encoding device 570 may determine, based on whether the spherical harmonic coefficients are generated from a synthetic audio object, a subset of the spherical harmonic coefficients representative of background components of the sound field. In this and other examples, the audio encoding device 570 may generate a bit stream to include the subset of the spherical harmonic coefficients. In this and other examples, the audio encoding device 570 can audio encode the subset of the spherical harmonic coefficients, and generate a bit stream to include the audio encoded subset of the spherical harmonic coefficients.

[1358] Em alguns exemplos, os dispositivos de codificação de áudio 570 podem realizar uma análise espacial em relação aos coeficientes harmônicos esféricos para identificar um ângulo através do qual deve ser girado o campo sonoro representado pelos coeficientes harmônicos esféricos e realizada uma operação de rotação para girar o campo sonoro pelo ângulo identificado a fim de gerar coeficientes harmônicos esféricos girados.[1358] In some examples, audio encoding devices 570 can perform a spatial analysis against the spherical harmonic coefficients to identify an angle through which the sound field represented by the spherical harmonic coefficients must be rotated and performed a rotation operation to rotating the sound field by the identified angle in order to generate rotated spherical harmonic coefficients.

[1359] Em alguns exemplos, o dispositivo de codificação de áudio 570 pode determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, de u primeiro subconjunto dos coeficientes harmônicos esféricos representativos de componentes distintos do campo sonoro, e determinar, com 468/500 base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, de um segundo subconjunto dos coeficientes harmônicos esféricos representativos de componentes de segundo plano do campo sonoro. Nesse e em outros exemplos, os dispositivos de codificação de áudio 570 podem codificar por áudio o primeiro subconjunto dos coeficientes harmônicos esféricos que têm uma taxa-alvo de bits mais alta que aquela usada para codificar por áudio o segundo subconjunto dos coeficientes harmônicos esféricos.[1359] In some examples, the audio encoding device 570 can determine, based on whether the spherical harmonic coefficients are generated from a synthetic audio object, a first subset of the spherical harmonic coefficients representative of distinct components of the field sound, and determine, on a 468/500 basis, whether the spherical harmonic coefficients are generated from a synthetic audio object, from a second subset of the spherical harmonic coefficients representative of background components of the sound field. In this and other examples, audio encoding devices 570 can audio encode the first subset of the spherical harmonic coefficients that have a higher target bit rate than that used to audio encode the second subset of the spherical harmonic coefficients.

[1360] Dessa maneira, vários aspectos das técnicas podem possibilitar que o dispositivo de codificação de áudio 570 determine se os SCH 511 são gerados a partir de um objeto de áudio sintético em conformidade com as cláusulas a seguir.[1360] In this way, various aspects of the techniques can enable the audio encoding device 570 to determine whether SCH 511s are generated from a synthetic audio object in accordance with the following clauses.

[1361] Cláusula 132512-1. Um dispositivo, como o dispositivo de codificação de áudio 570, que compreende: em que os um ou mais processadores são configurados adicionalmente para determinar se os coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético.[1361] Clause 132512-1. A device, such as audio encoding device 570, comprising: wherein the one or more processors are further configured to determine whether representative spherical harmonic coefficients of a sound field are generated from a synthetic audio object.

[1362] Cláusula 132512-2. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para, durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, excluir um primeiro vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos representativos do campo sonoro para obter uma matriz reduzida de coeficiente harmônico esférico com quadro.[1362] Clause 132512-2. The device of clause 132512-1, wherein the one or more processors are additionally configured to, when determining whether representative spherical harmonic coefficients of the sound field are generated from the synthetic audio object, exclude a first vector from a matrix spherical harmonic coefficient with frame that stores at least a portion of the spherical harmonic coefficients representative of the sound field to obtain a reduced matrix of spherical harmonic coefficient with frame.

[1363] Cláusula 132512-3. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são 469/500 configurados adicionalmente para, durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, excluir um primeiro vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos representativos do campo sonoro para obter uma matriz reduzida de coeficiente harmônico esférico com quadro, e predizer um vetor da matriz reduzida de coeficiente harmônico esférico com quadro com base em vetores restantes da matriz reduzida de coeficiente harmônico esférico com quadro.[1363] Clause 132512-3. The device of clause 132512-1, wherein the one or more processors are 469/500 additionally configured to, when determining whether representative spherical harmonic coefficients of the sound field are generated from the synthetic audio object, exclude a first vector of a framed spherical harmonic coefficient matrix that stores at least a portion of the spherical harmonic coefficients representative of the sound field to obtain a framed spherical harmonic coefficient reduced matrix, and predicting a vector of the framed spherical harmonic coefficient reduced matrix based on in remaining vectors of the reduced spherical harmonic coefficient matrix with frame.

[1364] Cláusula 132512-4. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para, durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, excluir um primeiro vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos representativos do campo sonoro para obter uma matriz reduzida de coeficiente harmônico esférico com quadro, e predizer um vetor da matriz reduzida de coeficiente harmônico esférico com quadro com base em, pelo menos parcialmente em uma soma dos vetores restantes da matriz reduzida de coeficiente harmônico esférico com quadro.[1364] Clause 132512-4. The device of clause 132512-1, wherein the one or more processors are additionally configured to, when determining whether representative spherical harmonic coefficients of the sound field are generated from the synthetic audio object, exclude a first vector from a matrix spherical harmonic coefficient with frame that stores at least a portion of the spherical harmonic coefficients representative of the sound field to obtain a reduced matrix of spherical harmonic coefficient with frame, and predict a vector of the reduced spherical harmonic coefficient with frame matrix based on at least least partially on a sum of the remaining vectors of the framed spherical harmonic coefficient reduced matrix.

[1365] Cláusula 132512-5. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para, durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, predizer um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma 470/500 porção dos coeficientes harmônicos esféricos com base, pelo menos parcialmente, em uma soma de vetores restantes da matriz de coeficiente harmônico esférico com quadro.[1365] Clause 132512-5. The device of clause 132512-1, wherein the one or more processors are additionally configured to, during the determination of whether representative spherical harmonic coefficients of the sound field are generated from the synthetic audio object, predict a vector from a matrix of framed spherical harmonic coefficient that stores at least a 470/500 portion of the spherical harmonic coefficients based, at least in part, on a sum of remaining vectors of the framed spherical harmonic coefficient matrix.

[1366] Cláusula 132512-6. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para, durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, predizer um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos parcialmente, em uma soma de vetores restantes da matriz de coeficiente harmônico esférico com quadro, e computar um erro com base no vetor predito.[1366] Clause 132512-6. The device of clause 132512-1, wherein the one or more processors are additionally configured to, during the determination of whether representative spherical harmonic coefficients of the sound field are generated from the synthetic audio object, predict a vector from a matrix of framed spherical harmonic coefficient that stores at least a portion of the spherical harmonic coefficients based at least partially on a sum of remaining vectors of the framed spherical harmonic coefficient matrix, and computing an error based on the predicted vector.

[1367] Cláusula 132512-7. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para , durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, predizer um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos parcialmente, em uma soma de vetores restantes da matriz de coeficiente harmônico esférico com quadro, e computar um erro com base no vetor predito e no vetor correspondente da matriz de coeficiente harmônico esférico com quadro.[1367] Clause 132512-7. The device of clause 132512-1, wherein the one or more processors are additionally configured to, when determining whether representative spherical harmonic coefficients of the sound field are generated from the synthetic audio object, predicts a vector from a matrix of framed spherical harmonic coefficient that stores at least a portion of the spherical harmonic coefficients based at least partially on a sum of remaining vectors of the framed spherical harmonic coefficient matrix, and computing an error based on the predicted vector and the corresponding vector of spherical harmonic coefficient matrix with frame.

[1368] Cláusula 132512-8. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para, durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, predizer um vetor de uma matriz de coeficiente 471/500 harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos parcialmente, em uma soma de vetores restantes da matriz de coeficiente harmônico esférico com quadro, e computador um erro com uma soma do valor absoluto da diferença do vetor predito e do vetor correspondente da matriz de coeficiente harmônico esférico com quadro.[1368] Clause 132512-8. The device of clause 132512-1, wherein the one or more processors are additionally configured to, during the determination of whether representative spherical harmonic coefficients of the sound field are generated from the synthetic audio object, predict a vector from a matrix of 471/500 spherical harmonic coefficient with frame that stores at least a portion of the spherical harmonic coefficients based at least partially on a sum of remaining vectors of the spherical harmonic coefficient matrix with frame, and computer an error with a sum of the absolute value of the difference of the predicted vector and the corresponding vector of the spherical harmonic coefficient matrix with frame.

[1369] Cláusula 132512-9. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para predizer, durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos parcialmente, em uma soma de vetores restantes da matriz de coeficiente harmônico esférico com quadro, computar um erro com base no vetor predito e no vetor correspondente da matriz de coeficiente harmônico esférico com quadro, computar uma razão com base em uma energia do vetor correspondente da matriz de coeficiente harmônico esférico com quadro e no erro, e comparar a razão a um limiar para determinar se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir de objeto de áudio sintético.[1369] Clause 132512-9. The device of clause 132512-1, wherein the one or more processors are further configured to predict, during the determination of whether representative spherical harmonic coefficients of the sound field are generated from the synthetic audio object, a vector of a matrix of framed spherical harmonic coefficient that stores at least a portion of the spherical harmonic coefficients based at least partially on a sum of remaining vectors of the framed spherical harmonic coefficient matrix, compute an error based on the predicted vector and the corresponding vector of the framed spherical harmonic coefficient matrix, compute a ratio based on a corresponding vector energy of the framed spherical harmonic coefficient matrix and on error, and compare the ratio to a threshold to determine whether representative spherical harmonic coefficients of the sound field are generated from synthetic audio object.

[1370] Cláusula 132512-10. O dispositivo de qualquer uma das reivindicações 4 a 9, em que os um ou mais processadores são configurados adicionalmente para predizer, durante a predição do vetor, um primeiro vetor diferente de zero da matriz de coeficiente harmônico esférico com quadro que armazena pelo menos a porção dos coeficientes harmônicos esféricos.[1370] Clause 132512-10. The device of any one of claims 4 to 9, wherein the one or more processors are further configured to predict, during vector prediction, a first non-zero vector of the framed spherical harmonic coefficient matrix that stores at least the portion of the spherical harmonic coefficients.

[1371] Cláusula 132512-11. O dispositivo de 472/500 qualquer uma das reivindicações 1 a 10, em que os um ou mais processadores são configurados adicionalmente para especificar uma indicação de se os coeficientes harmônicos esféricos são gerados a partir do objeto de áudio sintético em um fluxo de bits que armazena uma versão comprimida dos coeficientes harmônicos esféricos.[1371] Clause 132512-11. The 472/500 device of any one of claims 1 to 10, wherein the one or more processors are further configured to specify an indication of whether spherical harmonic coefficients are generated from the synthetic audio object in a bitstream that stores a compressed version of the spherical harmonic coefficients.

[1372] Cláusula 132512-12. O dispositivo da cláusula 132512-11, em que a indicação é um único bit.[1372] Clause 132512-12. The device of clause 132512-11, where the indication is a single bit.

[1373] Cláusula 132512-13. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, um subconjunto dos coeficientes harmônicos esféricos representativos de componentes distintos do campo sonoro.[1373] Clause 132512-13. The device of clause 132512-1, wherein the one or more processors are additionally configured to determine, based on whether the spherical harmonic coefficients are generated from a synthetic audio object, a subset of the spherical harmonic coefficients representative of distinct components of the sound field.

[1374] Cláusula 132512-14. O dispositivo da cláusula 132512-13, em que os um ou mais processadores são configurados adicionalmente para gerar um fluxo de bits para incluir o subconjunto dos coeficientes harmônicos esféricos.[1374] Clause 132512-14. The device of clause 132512-13, wherein the one or more processors are further configured to generate a bit stream to include the subset of the spherical harmonic coefficients.

[1375] Cláusula 132512-15. O dispositivo da cláusula 132512-13, em que os um ou mais processadores são configurados adicionalmente para codificar por áudio o subconjunto dos coeficientes harmônicos esféricos, e gerar um fluxo de bits para incluir o subconjunto codificado em áudio dos coeficientes harmônicos esféricos.[1375] Clause 132512-15. The device of clause 132512-13, wherein the one or more processors are further configured to audio encode the subset of the spherical harmonic coefficients, and generate a bit stream to include the audio encoded subset of the spherical harmonic coefficients.

[1376] Cláusula 132512-16. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, um subconjunto dos coeficientes harmônicos esféricos representativos de componentes de segundo plano do campo sonoro. 473/500[1376] Clause 132512-16. The provision of clause 132512-1, wherein the one or more processors are additionally configured to determine, based on whether the spherical harmonic coefficients are generated from a synthetic audio object, a subset of the spherical harmonic coefficients representative of components of background of the sound field. 473/500

[1377] Cláusula 132512-17. O dispositivo da cláusula 132512-16, em que os um ou mais processadores são configurados adicionalmente para gerar um fluxo de bits para incluir o subconjunto dos coeficientes harmônicos esféricos.[1377] Clause 132512-17. The device of clause 132512-16, wherein the one or more processors are further configured to generate a bit stream to include the subset of the spherical harmonic coefficients.

[1378] Cláusula 132512-18. O dispositivo da cláusula 132512-15, em que os um ou mais processadores são configurados adicionalmente para codificar por áudio o subconjunto dos coeficientes harmônicos esféricos, e gerar um fluxo de bits para incluir o subconjunto codificado em áudio dos coeficientes harmônicos esféricos.[1378] Clause 132512-18. The device of clause 132512-15, wherein the one or more processors are further configured to audio encode the subset of the spherical harmonic coefficients, and generate a bit stream to include the audio encoded subset of the spherical harmonic coefficients.

[1379] Cláusula 132512-18. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para realizar a análise espacial em relação aos coeficientes harmônicos esféricos para identificar um ângulo através deve ser girado o campo sonoro representado pelos coeficientes harmônicos esféricos, e realizar uma operação de rotação para girar o campo sonoro pelo ângulo identificado para gerar coeficientes harmônicos esféricos girados.[1379] Clause 132512-18. The device of clause 132512-1, wherein the one or more processors are additionally configured to perform spatial analysis in relation to spherical harmonic coefficients to identify an angle through which the sound field represented by the spherical harmonic coefficients must be rotated, and perform an operation of rotation to rotate the sound field by the identified angle to generate rotated spherical harmonic coefficients.

[1380] Cláusula 132512-20. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, um primeiro subconjunto dos coeficientes harmônicos esféricos representativos de componentes distintos do campo sonoro, e para determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, um segundo subconjunto dos coeficientes harmônicos esféricos representativos de componentes de segundo plano do campo sonoro.[1380] Clause 132512-20. The device of clause 132512-1, wherein the one or more processors are further configured to determine, based on whether the spherical harmonic coefficients are generated from a synthetic audio object, a first subset of the spherical harmonic coefficients representative of components distinct from the sound field, and to determine, based on whether the spherical harmonic coefficients are generated from a synthetic audio object, a second subset of the spherical harmonic coefficients representative of background components of the sound field.

[1381] Cláusula 132512-21. O dispositivo da 474/500 cláusula 132512-20, em que os um ou mais processadores são configurados adicionalmente para codificar por áudio o primeiro subconjunto dos coeficientes harmônicos esféricos que têm uma taxa-alvo de bits mais alta que aquela usada para codificar por áudio o segundo subconjunto dos coeficientes harmônicos esféricos.[1381] Clause 132512-21. The device of 474/500 clause 132512-20, wherein the one or more processors are additionally configured to audio encode the first subset of spherical harmonic coefficients that have a higher target bit rate than that used to audio encode the second subset of spherical harmonic coefficients.

[1382] Cláusula 132512-22. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor único em relação aos coeficientes harmônicos esféricos para gerar uma matriz U representativa de vetores esquerdos singulares da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores direitos singulares da pluralidade de coeficientes harmônicos esféricos.[1382] Clause 132512-22. The device of clause 132512-1, wherein the one or more processors are further configured to perform a single-valued decomposition with respect to spherical harmonic coefficients to generate a matrix U representative of singular left vectors of the plurality of spherical harmonic coefficients, a matrix S representative of singular values of the plurality of spherical harmonic coefficients and a matrix V representative of singular straight vectors of the plurality of spherical harmonic coefficients.

[1383] Cláusula 132512-23. O dispositivo da cláusula 132512-22, em que os um ou mais processadores são configurados adicionalmente para determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, essas porções de uma ou mais dentre a matriz U, a matriz S e a matriz V representativa de componentes distintos do campo sonoro.[1383] Clause 132512-23. The device of clause 132512-22, wherein the one or more processors are further configured to determine, based on whether spherical harmonic coefficients are generated from a synthetic audio object, those portions of one or more of the matrix U , the matrix S and the matrix V representative of distinct components of the sound field.

[1384] Cláusula 132512-24. O dispositivo da cláusula 132512-22, em que os um ou mais processadores são configurados adicionalmente para determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, essas porções de uma ou mais dentre a matriz U, a matriz S e a matriz V representativa de componentes de segundo plano do campo sonoro.[1384] Clause 132512-24. The device of clause 132512-22, wherein the one or more processors are further configured to determine, based on whether spherical harmonic coefficients are generated from a synthetic audio object, those portions of one or more of the matrix U , the matrix S and the matrix V representing background components of the sound field.

[1385] Cláusula 132512-1C. Um dispositivo, como o dispositivo de codificação de áudio 570, que compreende: um ou mais processadores configurados para determinar se os coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético com base em uma razão computada como uma função de, pelo menos, uma energia de um vetor dos coeficientes harmônicos esféricos e um erro derivado com base em uma versão predita do vetor dos coeficientes harmônicos esféricos e do vetor dos coeficientes harmônicos esféricos.[1385] Clause 132512-1C. A device, such as the audio encoding device 570, comprising: one or more processors configured to determine whether representative spherical harmonic coefficients of a sound field are generated from a synthetic audio object based on a ratio computed as a function of at least an energy of a vector of spherical harmonic coefficients and an error derived based on a predicted version of the vector of spherical harmonic coefficients and the vector of spherical harmonic coefficients.

[1386] Em cada um dentre os vários exemplos descritos acima, deve ficar entendido que o dispositivo de codificação de áudio 570 pode realizar um método ou compreende, de outro modo, meios para realizar cada etapa do método que o dispositivo de decodificação de áudio 570 é configurado para realizar, em alguns exemplos, sendo que esses meios podem compreender um ou mais processadores. Em alguns exemplos, os um ou mais processadores pode representar um processador de propósito especial configurado por meio de instruções armazenadas em uma mídia de armazenamento legível por computador não transitória. Em outras palavras, vários aspectos das técnicas em cada um desses conjuntos de exemplos de codificação podem fornecer uma mídia de armazenamento legível por computador não transitória que tem instruções armazenadas na mesma que, quando executadas, fazem com que os um ou mais processadores realizem o método que o dispositivo de codificação de áudio 570 foi configurado para realizar.[1386] In each of the various examples described above, it is to be understood that the audio encoding device 570 may perform a method or otherwise comprises means for performing each step of the method that the audio decoding device 570 is configured to perform, in some instances, such means may comprise one or more processors. In some examples, the one or more processors may represent a special-purpose processor configured through instructions stored on non-transient computer-readable storage media. In other words, various aspects of the techniques in each of these sets of encoding examples can provide a non-transient computer-readable storage medium that has instructions stored on it that, when executed, cause the one or more processors to perform the method. that the audio encoding device 570 has been configured to perform.

[1387] As Figuras 55 e 55B são diagramas que ilustram um exemplo de realização de vários aspectos das técnicas descritas na presente revelação para girar um campo sonoro 640. A Figura 55 é um diagrama que ilustra um campo sonoro 640 antes da rotação em conformidade com os vários aspectos das técnicas descritas na presente revelação. No exemplo da Figura 55, o campo sonoro 640 inclui duas localizações de alta pressão, denotada como localização 642A e 642B. Essas localizações 642A e 642B (“localizações 642”) se encontram ao longo de uma linha 644 que tem um coeficiente angular diferente de zero (que é outra maneira de denominar uma linha que não é horizontal, uma vez que linhas horizontais têm um coeficiente angular igual a zero). Visto que as localizações 642 têm uma coordenada z além das coordenadas x e y, as funções de base esférica de ordem superior podem ser necessárias para representar corretamente esse campo sonoro 640 (uma vez que essas funções de base esférica de ordem superior descrevem as porções não horizontais superior e inferior do campo sonoro. Em vez de reduzir o campo sonoro 640 diretamente aos SHCs 511, o dispositivo de codificação de áudio 570 pode girar o campo sonoro 640 até que a linha 644 que conecta as localizações 642 seja horizontal.[1387] Figures 55 and 55B are diagrams illustrating an exemplary embodiment of various aspects of the techniques described in the present disclosure for rotating a sound field 640. Figure 55 is a diagram illustrating a sound field 640 prior to rotation in accordance with the various aspects of the techniques described in the present disclosure. In the example of Figure 55, sound field 640 includes two high pressure locations, denoted locations 642A and 642B. These locations 642A and 642B ("locations 642") lie along a line 644 that has a non-zero slope (which is another way of calling a line that is not horizontal, since horizontal lines have a slope equal to zero). Since locations 642 have a z coordinate in addition to the x and y coordinates, higher order spherical basis functions may be necessary to correctly represent that sound field 640 (since these higher order spherical basis functions describe the upper non-horizontal portions Instead of reducing the sound field 640 directly to the SHCs 511, the audio encoding device 570 may rotate the sound field 640 until the line 644 connecting the locations 642 is horizontal.

[1388] A Figura 55B é um diagrama que ilustra o campo sonoro 640 após ser girado até que a linha que conecta as localizações 642 seja horizontal. Como resultado da rotação do campo sonoro 640 dessa maneira, os SHC 511 podem ser derivados de modo que os coeficientes de ordem superior dentre os SHC 511 sejam especificados como zero, visto que o campo sonoro girado 640 não mais tem quaisquer localizações de pressão (ou energia) com coordenadas z. Dessa maneira, o dispositivo de codificação de áudio 570 pode girar, traduzir ou, mais em geral, ajustar o campo sonoro 640 de modo a reduzir o número de SHC 511 que tem valores diferentes de zero. Em combinação com vários outros aspectos das técnicas, o dispositivo de codificação de áudio 570 pode, em seguida, em vez de sinalizar um número sinalizado com 32 bits que identifica que esses coeficientes de ordem superior dentre os SHC 511 têm valores iguais a zero, sinalizar em um campo do fluxo de bits 517 que esses coeficientes de ordem superior dentre os SHC 511 não são sinalizados. O dispositivo de codificação de áudio 570 também pode especificar informações de rotação no fluxo de bits 517 que indica como o campo sonoro 640 foi girado, frequentemente, por exemplo de expressão de um azimute e de uma elevação da maneira descrita acima. Um dispositivo de extração, como o dispositivo de codificação de áudio, pode, em seguida, implicar que esses coeficientes não sinalizados dentre os SHC 511 têm um valor igual a zero e realizar, durante a reprodução do campo sonoro 640 com base em SHC 511, a rotação a fim de girar o campo sonoro 640 de modo que o campo sonoro 640 se assemelhe ao campo sonoro 640 mostrado no exemplo da Figura 55. Dessa maneira, o dispositivo de codificação de áudio 570 pode reduzir o número de SHC 511 cuja especificação é exigida no fluxo de bits 517, em conformidade com as técnicas descritas na presente revelação.[1388] Figure 55B is a diagram illustrating the sound field 640 after being rotated until the line connecting the locations 642 is horizontal. As a result of rotating the sound field 640 in this way, the SHC 511 can be derived so that the higher order coefficients within the SHC 511 are specified as zero, since the rotated sound field 640 no longer has any pressure locations (or energy) with z coordinates. In this way, audio encoding device 570 can rotate, translate, or more generally adjust sound field 640 so as to reduce the number of SHC 511 that have non-zero values. In combination with various other aspects of the techniques, the audio encoding device 570 may then, instead of signaling a 32-bit signaled number that identifies that these higher-order coefficients among the SHC 511 have zero values, signal in a field of the bit stream 517 that these higher order coefficients among the SHC 511 are not signaled. Audio encoding device 570 may also specify rotation information in bitstream 517 which indicates how often sound field 640 has been rotated, for example expressing an azimuth and elevation in the manner described above. An extractor device, such as the audio encoding device, can then imply that these unsigned coefficients within the SHC 511 have a value of zero and perform, during reproduction of the sound field 640 based on SHC 511, rotation in order to rotate the sound field 640 so that the sound field 640 resembles the sound field 640 shown in the example of Figure 55. In this way, the audio encoding device 570 can reduce the number of SHC 511 whose specification is required in bitstream 517, in accordance with the techniques described in the present disclosure.

[1389] Um algoritmo de ‘compactação espacial’ pode ser usado para determinar a rotação ideal do campo sonoro. Em uma modalidade, o dispositivo de codificação de áudio 570 pode aplicar o algoritmo de modo iterar através de todas as possíveis combinações de azimute e elevação (isto é, combinações de 1024x512 no exemplo acima), girando o campo sonoro para cada combinação e calculando o número de SHC 511 que estão acima do valor de limiar. A combinação candidata de azimute/elevação que produz o menor número de SHC 511 acima do valor de limiar pode ser considerada como o que pode ser denominado de "rotação ideal”. Nessa forma girada, o campo sonoro pode exigir o menor número de SHC 511 para representar o campo sonoro e pode, em seguida, ser considerado compactado. Em alguns exemplos, o ajuste pode compreender essa rotação ideal, e as informações de ajuste descritas acima podem incluir essas informações de rotação (que podem ser denominadas de "rotação ideal”) (em termos dos ângulos azimutal e de elevação).[1389] A 'spatial compression' algorithm can be used to determine the optimal rotation of the sound field. In one embodiment, the audio encoding device 570 may apply the algorithm to iterate through all possible combinations of azimuth and elevation (i.e., 1024x512 combinations in the example above), rotating the sound field for each combination and calculating the number of SHC 511s that are above the threshold value. The candidate azimuth/elevation combination that produces the lowest number of SHC 511s above the threshold value can be considered as what might be termed the “optimal rotation.” In this rotated form, the sound field may require the lowest number of SHC 511s. to represent the sound field and can then be considered compressed. In some examples, the tuning may comprise this ideal rotation, and the tuning information described above may include this rotation information (which may be referred to as "optimal rotation" ) (in terms of azimuthal and elevation angles).

[1390] Em alguns exemplos, em vez de especificar apenas o ângulo azimutal e o ângulo de elevação, o dispositivo de codificação de áudio 570 pode especificar ângulos adicionais na forma de, por exemplo, de ângulos de Euler. Os ângulos de Euler especificam o ângulo de rotação em torno do eixo geométrico z, do eixo geométrico x anterior e do eixo geométrico z anterior. Embora descritas na presente revelação em relação às combinações de ângulos azimutal e de elevação, as técnicas da presente revelação não devem ser limitadas à especificação apenas dos ângulos azimutal e de elevação, porém podem incluir a especificação de qualquer número de ângulos, incluindo os três ângulos de Euler verificados acima. Nesse sentido, o dispositivo de codificação de áudio 570 pode girar o campo sonoro de modo a reduzir um número da pluralidade de elementos hierárquicos que fornecem informações relevantes na descrição do campo sonoro e especificar ângulos de Euler como informações de rotação no fluxo de bits. Os ângulos de Euler, conforme verificado acima, podem descrever como o campo sonoro foi girado. Durante o uso dos ângulos de Euler, o fluxo de bits dispositivo de extração podem analisar o fluxo de bits para determinar informações de rotação que incluem os ângulos de Euler e, durante a reprodução do campo sonoro com base nos elementos dentre a pluralidade de elementos hierárquicos que fornecem informações relevantes na descrição do campo sonoro, a rotação do campo sonoro com base nos ângulos de Euler.[1390] In some examples, instead of specifying just the azimuthal angle and elevation angle, the audio encoding device 570 can specify additional angles in the form of, for example, Euler angles. Euler angles specify the angle of rotation about the z-axis, the anterior x-axis, and the anterior z-axis. While described in the present disclosure with respect to combinations of azimuthal and elevation angles, the techniques of the present disclosure should not be limited to specifying only azimuthal and elevation angles, but may include specifying any number of angles, including all three angles. of Euler verified above. In that sense, the audio coding device 570 can rotate the sound field so as to reduce a number of the plurality of hierarchical elements that provide relevant information in the description of the sound field and specify Euler angles as rotation information in the bit stream. Euler angles, as seen above, can describe how the sound field has been rotated. During the use of Euler angles, the bit stream extractor device can analyze the bit stream to determine rotation information that includes Euler angles, and during reproduction of the sound field based on the elements among the plurality of hierarchical elements which provide relevant information in the description of the sound field, the rotation of the sound field based on Euler angles.

[1391] Ademais, em alguns exemplos, em vez de 479/500 especificar explicitamente esses ângulos no fluxo de bits 517, o dispositivo de codificação de áudio 570 pode especificar um índice (que pode ser denominado de "índice de rotação”) associado a combinações predefinidas dos um ou mais ângulos que especificam a rotação. Em outras palavras, as informações de rotação podem, em alguns exemplos, incluir o índice de rotação. Nesses exemplos, um determinado valor do índice de rotação, como um valor de zero, pode indicar que não houve rotação realizada. Esse índice de rotação pode ser usado em relação a uma tabela de rotação. Ou seja, o dispositivo de codificação de áudio 570 pode incluir uma tabela de rotação que compreende uma entrada para cada uma dentre as combinações do ângulo azimutal e do ângulo de elevação.[1391] Furthermore, in some instances, instead of 479/500 explicitly specifying these angles in the bitstream 517, the audio encoding device 570 may specify an index (which may be called the "rotation index") associated with predefined combinations of the one or more angles that specify the rotation. In other words, the rotation information may, in some examples, include the rotation index. In these examples, a certain value of the rotation index, such as a value of zero, may indicate that no rotation was performed. This rotation index can be used in relation to a rotation table. That is, the audio encoding device 570 may include a rotation table that comprises an entry for each of the angle combinations azimuth and elevation angle.

[1392] Alternativamente, uma tabela de rotação pode incluir uma entrada para cada transformada de matriz representativa de cada combinação do ângulo azimutal e do ângulo de elevação. Ou seja, o dispositivo de codificação de áudio 570 pode armazenar uma tabela de rotação que tem uma entrada para cada transformação de matriz para girar o campo sonoro por cada uma dentre as combinações de ângulos azimutal e de elevação. Tipicamente, o dispositivo de codificação de áudio 570 recebe SHC 511 e deriva SHC 511', quando a rotação é realizada, de acordo com a seguinte equação:

Figure img0090
[1392] Alternatively, a rotation table may include an entry for each matrix transform representative of each combination of azimuth angle and elevation angle. That is, the audio encoding device 570 can store a rotation table that has an entry for each matrix transformation to rotate the sound field by each of the combinations of azimuth and elevation angles. Typically, audio encoding device 570 receives SHC 511 and derives SHC 511', when rotation is performed, according to the following equation:
Figure img0090

[1393] Na equação acima, os SHC 511’ são computados como uma função de uma matriz de codificação para codificar um campo sonoro em termos de um segundo quadro de referência {EncMat2), uma matriz de inversão para reverter os SHC 511 de volta a um campo sonoro em termos de um primeiro quadro de referência {InvMat1), e SHC 511. 480/500 EncMat2 tem um tamanho 25x32, ao passo que InvMat2 tem um tamanho 32x25. Tanto o SHC 511’ quanto o SHC 511 têm tamanho 25, em que os SHC 511’ podem ser reduzidos adicionalmente devido à remoção daqueles que não especificam informações salientes de áudio. EncMat2 pode variar para cada combinação de ângulo azimutal e de elevação, ao passo que InvMat1 pode permanecer estático em relação a cada combinação de ângulo azimutal e de elevação. A tabela de rotação pode incluir uma entrada que resulta da multiplicação de cada EncMat2 diferente a InvMat1.[1393] In the above equation, the SHC 511' are computed as a function of an encoding matrix to encode a sound field in terms of a second frame of reference {EncMat2), an inversion matrix to revert the SHC 511 back to a sound field in terms of a first reference frame (InvMat1), and SHC 511. 480/500 EncMat2 has a size of 25x32, whereas InvMat2 has a size of 32x25. Both SHC 511' and SHC 511 are size 25, where SHC 511' can be further reduced by removing those that do not specify audio protruding information. EncMat2 can vary for each combination of azimuth and elevation angle, whereas InvMat1 can remain static for each combination of azimuth and elevation angle. The rotation table can include an entry that results from multiplying each EncMat2 other than InvMat1.

[1394] A Figura 56 é um diagrama que ilustra um exemplo campo sonoro capturado, de acordo com um primeiro quadro de referência que é, em seguida, girado conformidade com as técnicas descritas na presente revelação para expressar o campo sonoro em termos de um segundo quadro de referência. No exemplo da Figura 56, o campo sonoro que cerca um microfone Eigen 646 é capturado assumindo um primeiro quadro de referência, que é denotado pelos eixos geométricos X1, Y1, e no exemplo da Figura 56. Os SHC 511 descrevem o campo sonoro em termos desse primeiro quadro de referência. A InvMat1 transforma os SHC 511 de volta no campo sonoro, o que possibilita que o campo sonoro seja girado em relação ao segundo quadro de referência denotada pelos eixos geométricos X2, Y2 e Z2 no exemplo da Figura 56. A EncMat2 descrita acima pode girar o campo sonoro e gerar os SHC 511’ que descrevem esse campo sonoro girado em termos do segundo quadro de referência.[1394] Figure 56 is a diagram illustrating an example sound field captured in accordance with a first frame of reference which is then rotated in accordance with the techniques described in the present disclosure to express the sound field in terms of a second frame of reference. In the example of Figure 56, the sound field surrounding an Eigen 646 microphone is captured assuming a first frame of reference, which is denoted by the geometric axes X1, Y1, and in the example of Figure 56. The SHC 511s describe the sound field in terms this first frame of reference. The InvMat1 transforms the SHC 511s back into the sound field, which allows the sound field to be rotated relative to the second frame of reference denoted by the geometric axes X2, Y2, and Z2 in the example in Figure 56. The EncMat2 described above can rotate the sound field and generate the SHC 511' that describe that rotated sound field in terms of the second frame of reference.

[1395] De qualquer modo, a equação acima pode ser derivada conforme a seguir. Visto que o campo sonoro é gravado com um determinado sistema de coordenada, de modo que a frente seja considerada como a direção do eixo geométrico x, as 32 posições de microfone de um microfone Eigen (ou outras configurações de microfone) são definidas 481/500 a partir dessa referência sistema de coordenada. Em seguida, a rotação do campo sonoro pode ser considerada como uma rotação desse quadro de referência. Para o quadro de referência assumido, os SHC 511 podem ser calculados conforme o seguinte:

Figure img0091
[1395] Anyway, the above equation can be derived as follows. Since the sound field is recorded with a certain coordinate system, so that the front is considered as the x-axis direction, the 32 microphone positions of an Eigen microphone (or other microphone configurations) are defined 481/500 from that coordinate system reference. Then the rotation of the sound field can be thought of as a rotation of that frame of reference. For the assumed frame of reference, the SHC 511 can be calculated as follows:
Figure img0091

[1396] Na equação acima, o representa as funções de base esférica na posição (Posj) do iésimo microfone (em que i pode ser 1 a 32 nesse exemplo). O vetor mici denota o sinal de microfone para o iésimo microfone durante um tempo t. As posições (Posi) indicam a posição do microfone no primeiro quadro de referência (isto é, o quadro de referência antes da rotação nesse exemplo).[1396] In the above equation, o represents the spherical basis functions at the position (Posj) of the ith microphone (where i can be 1 to 32 in this example). The vector mici denotes the microphone signal to the ith microphone during a time t. The positions (Posi) indicate the position of the microphone in the first reference frame (that is, the reference frame before the rotation in this example).

[1397] A equação acima pode ser expressa alternativamente em termos das expressões matemáticas denotadas acima como:

Figure img0092
[1397] The above equation can alternatively be expressed in terms of the mathematical expressions denoted above as:
Figure img0092

[1398] A fim de girar o campo sonoro (ou no segundo quadro de referência), a posição (Posi) é calculada no segundo quadro de referência. Contanto que os sinais microfone originais estejam presentes, o campo sonoro pode ser girado arbitrariamente. No entanto, os sinais microfone originais (mici(t)), frequentemente, não estão disponíveis. O problema pode, então, ser em como recuperar os sinais de microfone (mici(t)) dos SHC 511. Caso um T-modelo seja usado (coo em um microfone 32 microfone Eigen ), a solução para esse problema pode ser alcançada resolvendo-se a seguinte equação:

Figure img0093
[1398] In order to rotate the sound field (or in the second reference frame), the position (Posi) is calculated in the second reference frame. As long as the original microphone signals are present, the sound field can be rotated arbitrarily. However, the original microphone signals (mici(t)) are often not available. The problem then may be how to retrieve the microphone signals (mici(t)) from the SHC 511. If a T-model is used (coo on an Eigen microphone 32 microphone), the solution to this problem can be achieved by solving the following equation:
Figure img0093

[1399] Essa InvMat1 pode especificar as funções de base harmônica esférica computada de acordo com a posição dos microfones conforme especificado em relação ao primeiro quadro de referência. Essa equação também pode ser expressada como

Figure img0094
conforme verificado acima.[1399] This InvMat1 can specify the spherical harmonic base functions computed according to the position of the microphones as specified with respect to the first reference frame. This equation can also be expressed as
Figure img0094
as verified above.

[1400] Uma vez que os sinais de microfone (mici(t)) são recuperados em conformidade com a equação acima, os sinais de microfone (mici(t)) que descrevem o campo sonoro podem ser girados para computar os SHC 511’ correspondentes ao segundo quadro de referência, o que resulta na seguinte equação:

Figure img0095
A EncMat2 especifica as funções de base harmônica esférica de uma posição girada (Posi'). Dessa maneira, a EncMat2 pode especificar de manei eficaz uma combinação do ângulo azimutal e de elevação. Desse modo, quando a tabela de rotação armazena o resultado de
Figure img0096
para cada combinação dos ângulos azimutal e de elevação, a tabela de rotação especifica, de maneira eficaz, cada combinação dos ângulos azimutal e de elevação. A equação acima também pode ser expressa como:
Figure img0097
[1400] Once the microphone signals (mici(t)) are retrieved in accordance with the above equation, the microphone signals (mici(t)) describing the sound field can be rotated to compute the corresponding SHC 511' to the second frame of reference, which results in the following equation:
Figure img0095
EncMat2 specifies the spherical harmonic basis functions of a rotated position (Posi'). In this way, EncMat2 can effectively specify a combination of azimuthal and elevation angle. Thus, when the rotation table stores the result of
Figure img0096
for each combination of azimuth and elevation angles, the rotation table effectively specifies each combination of azimuth and elevation angles. The above equation can also be expressed as:
Figure img0097

[1401] em que 2, 2 representam um segundo ângulo azimutal e um segundo ângulo de elevação diferente 483/500 dos primeiros ângulo azimutal e ângulo de elevação representados por 1, 1. Os 1, 1 correspondem ao primeiro quadro de referência ao passo que os 2, 2 correspondem ao segundo quadro de referência. Portanto, a InvMat1 pode corresponder a

Figure img0098
ao passo que EncMat2 pode corresponder a
Figure img0099
[1401] where 2, 2 represents a second azimuthal angle and a second elevation angle different 483/500 from the first azimuth angle and elevation angle represented by 1, 1. The 1, 1 corresponds to the first frame of reference whereas the 2, 2 correspond to the second frame of reference. Therefore, InvMat1 can correspond to
Figure img0098
whereas EncMat2 can correspond to
Figure img0099

[1402] O supracitado pode representar uma versão mais simplificada da computação que não considere a operação de filtragem, representada acima em várias equações que denotam a derivação dos SHC 511 no domínio de frequência pela função jn(•), que se refere à função esférica de Bessel de ordem n. No domínio de tempo, essa função jn(•) representa uma operação de filtragem que é específica a uma ordem particular, n. Com a filtragem , a rotação pode ser realizada por ordem. Para propósito de ilustração, considerar as seguintes equações:

Figure img0100
[1402] The above may represent a more simplified version of the computation that does not consider the filtering operation, represented above in several equations denoting the derivation of the SHC 511 in the frequency domain by the function jn(•), which refers to the spherical function of Bessel of order n. In the time domain, this function jn(•) represents a filtering operation that is specific to a particular order, n. With filtering, rotation can be performed in order. For purposes of illustration, consider the following equations:
Figure img0100

[1403] A partir dessas equações, os SHC girados 511’ para ordens são feitos separadamente, visto que o bn(t) são diferentes para cada ordem. Como resultado, a equação acima pode ser alterada conforme segue para computar os coeficientes de primeira ordem dentre os SHC girados 511’:

Figure img0101
[1403] From these equations, the SHC rotated 511' for orders are done separately, as the bn(t) is different for each order. As a result, the above equation can be altered as follows to compute the first-order coefficients among the 511' rotated SHCs:
Figure img0101

[1404] Visto que há três coeficientes de primeira ordem dentre os SHC 511, cada um dentre os vetores de SHC 511’ e 511 é do tamanho três na equação acima. De igual modo, para a segunda ordem, a equação a seguir pode ser aplicada:

Figure img0102
[1404] Since there are three first-order coefficients among the SHC 511, each of the vectors of SHC 511' and 511 is of size three in the above equation. Likewise, for the second order, the following equation can be applied:
Figure img0102

[1405] Novamente, visto que há cinco coeficientes de segunda ordem dentre os SHC 511, cada um dentre os vetores de SHC 511’ e 511 é de tamanho cinco na equação acima. As equações restantes para as outras ordens, isto é, a terceira e quarta ordens, podem ser semelhantes àquela descrita acima, seguindo o mesmo padrão em relação aos tamanhos das matrizes (em que o número de fileiras de EncMat2, o número de colunas de InvMat1 e os tamanhos dos vetores de SHC 511 e SHC 511’ de terceira e quarta ordem são iguais ao número de subordens (m vezes dois mais 1) de cada uma dentre a funções de base harmônica esférica de terceira e quarta ordem.[1405] Again, since there are five second-order coefficients among the SHC 511, each of the vectors of SHC 511' and 511 is of size five in the above equation. The remaining equations for the other orders, i.e. the third and fourth orders, can be similar to the one described above, following the same pattern regarding matrix sizes (where the number of rows of EncMat2, the number of columns of InvMat1 and the sizes of the third and fourth order SHC 511 and SHC 511' vectors are equal to the number of suborders (m times two plus 1) of each of the third and fourth order spherical harmonic basis functions.

[1406] Portanto, o dispositivo de codificação de áudio 570 pode realizar essa operação de rotação em relação cada combinação de ângulo azimutal e de elevação em uma tentativa de identificar a então chamada rotação ideal. O dispositivo de codificação de áudio 570 pode, após executar essa operação de rotação, computar o número de SHC 511’ acima do valor de limiar. Em alguns exemplos, o dispositivo de codificação de áudio 570 pode realizar essa rotação para derivar uma série SHC 511’ que representam o campo sonoro ao longo de uma duração de tempo, por exemplo, um quadro de áudio. Mediante a realização dessa rotação para derivar a série dos SHC 511’ que representam o campo sonoro ao longo dessa duração de tempo, o dispositivo de codificação de áudio 570 pode reduzir o número de operações de rotação que têm de ser executadas em comparação para realizar isso para cada conjunto dos SHC 511 que descrevem o campo sonoro para durações de tempo menores que um quadro 485/500 ou outra extensão. De qualquer modo, o dispositivo de codificação de áudio 570 pode guardar, ao longo desse processo, os coeficientes dentre os SHC 511’ que têm o menor o número dos SHC 511’ maiores que o valor de limiar.[1406] Therefore, the audio encoding device 570 can perform this rotation operation with respect to each combination of azimuthal and elevation angle in an attempt to identify the so-called ideal rotation. The audio encoding device 570 may, after performing this rotation operation, compute the number of SHC 511' above the threshold value. In some examples, the audio encoding device 570 may perform this rotation to derive a series SHC 511' representing the sound field over a duration of time, for example an audio frame. By performing this rotation to derive the series of SHC 511' representing the sound field over that length of time, the audio encoding device 570 can reduce the number of rotation operations that have to be performed compared to accomplishing this. for each set of SHC 511s describing the sound field for durations of time less than a 485/500 frame or other length. In any case, the audio coding device 570 can store, throughout this process, the coefficients among the SHC 511' that have the smallest number of the SHC 511' greater than the threshold value.

[1407] No entanto, a realização dessa operação de rotação em relação a cada combinação de ângulo azimutal e de elevação intensa em termos de processador e demorada. Como resultado, o dispositivo de codificação de áudio 570 pode não realizar o que pode ser caracterizado como essa implantação de "força bruta” do algoritmo de rotação. Em vez disso, o dispositivo de codificação de áudio 570 pode fornecer rotações em relação a um subconjunto de combinações de ângulo azimutal e de elevação possivelmente conhecidas (em termos estatísticos) que oferecem uma compactação em geral satisfatória, realizando rotações adicionais em relação às combinações em torno daqueles desse subconjunto que fornece melhor compactação em comparação a outras combinações no subconjunto.[1407] However, performing this rotation operation with respect to each processor-intensive elevation and azimuth angle combination is time consuming. As a result, the audio encoding device 570 may not perform what might be characterized as this "brute force" deployment of the rotation algorithm. Instead, the audio encoding device 570 may provide rotations with respect to a subset of possibly known (statistically speaking) azimuthal and elevation angle combinations that provide generally satisfactory compression, performing additional rotations relative to combinations around those in that subset that provide better compression compared to other combinations in the subset.

[1408] Alternativamente, o dispositivo de codificação de áudio 570 pode realizar essa rotação em relação apenas ao subconjunto conhecido de combinações. Alternativamente, o dispositivo de codificação de áudio 570 pode seguir uma trajetória (espacialmente) de combinações, realizando as rotações em relação a essa trajetória de combinações. Alternativamente, o dispositivo de codificação de áudio 570 pode especificar um limiar de compactação que define um número máximo de SHC 511’ que têm valores diferentes de zero acima do valor de limiar. Esse limiar de compactação pode definir, de maneira eficaz, um ponto de parada para a pesquisa, de modo que, quando o dispositivo de codificação de áudio 570 realize uma rotação e determine que o número de SHC 511’ que tem um valor acima do limiar definido é menor ou igual (ou menor em alguns exemplos) ao 486/500 limiar de compactação, o dispositivo de codificação de áudio 570 pare de realizar quaisquer operações de rotação adicionais em relação às combinações restantes. 'Ainda alternativamente, os dispositivos de codificação de áudio 570 podem atravessar uma árvore disposta hierarquicamente (ou outras estruturas de dados) de combinações, realizando as operações de rotação em relação à atual combinação e atravessando a árvore para a direita ou para a esquerda (por exemplo, em relação a árvores binárias) dependendo do número de SHC 511’ que tem um valor diferente de zero maior do que o valor de limiar.[1408] Alternatively, the audio encoding device 570 may perform this rotation with respect to only the known subset of combinations. Alternatively, the audio encoding device 570 may follow a path (spatially) of combinations, performing rotations relative to that path of combinations. Alternatively, audio encoding device 570 may specify a compression threshold that defines a maximum number of SHC 511' that have non-zero values above the threshold value. This compression threshold can effectively set a stopping point for the search so that when the audio encoding device 570 performs a rotation and determines that the number of SHC 511' that has a value above the threshold set is less than or equal to (or less in some instances) the 486/500 compression threshold, the 570 audio encoding device will stop performing any additional rotation operations on the remaining combinations. 'Still alternatively, audio encoding devices 570 may traverse a hierarchically arranged tree (or other data structures) of combinations, performing rotation operations with respect to the current combination, and traversing the tree to the right or left (e.g. example with respect to binary trees) depending on the number of SHC 511' that have a non-zero value greater than the threshold value.

[1409] Nesse sentido, cada uma dessas alternativas envolve executar uma primeira e segunda operações de rotação e comparar o resultado da execução das primeira e segunda operações de rotação a fim de identificar uma dentre a primeira e segunda operações de rotação que resulta no menor número dos SHC 511’ que tem um valor diferente de zero maior do que o valor de limiar. Consequentemente, o dispositivo de codificação de áudio 570 pode executar uma primeira operação de rotação no campo sonoro para girar o campo sonoro em conformidade com um primeiro ângulo azimutal e um primeiro ângulo de elevação e determinar um primeiro número da pluralidade de elementos hierárquicos representativos do campo sonoro girado em conformidade com o primeiro ângulo azimutal e com o primeiro ângulo de elevação que fornecem informações relevantes na descrição do campo sonoro. O dispositivo de codificação de áudio 570 também pode executar uma segunda operação de rotação no campo sonoro para girar o campo sonoro em conformidade com um segundo ângulo azimutal e um segundo ângulo de elevação e determinar um segundo número da pluralidade de elementos hierárquicos representativos do campo sonoro girado em conformidade com o segundo ângulo 487/500 azimutal e com o segundo ângulo de elevação que fornece informações relevantes na descrição do campo sonoro. Adicionalmente, o dispositivo de codificação de áudio 570 pode selecionar a primeira operação de rotação ou a segunda operação de rotação com base em uma comparação do primeiro número da pluralidade de elementos hierárquicos e do segundo número da pluralidade de elementos hierárquicos.[1409] In this sense, each of these alternatives involves performing a first and second rotation operation and comparing the result of performing the first and second rotation operations in order to identify one of the first and second rotation operations that results in the smallest number of the SHC 511' which has a non-zero value greater than the threshold value. Accordingly, the audio encoding device 570 may perform a first rotation operation in the sound field to rotate the sound field in accordance with a first azimuthal angle and a first elevation angle and determine a first number of the plurality of hierarchical elements representative of the field. sound field rotated in accordance with the first azimuth angle and the first elevation angle that provide relevant information in describing the sound field. Audio encoding device 570 may also perform a second sound field rotation operation to rotate the sound field in accordance with a second azimuth angle and a second elevation angle and determine a second number from the plurality of hierarchical elements representative of the sound field. rotated in accordance with the 487/500 second azimuth angle and the second elevation angle that provides relevant information in describing the sound field. Additionally, audio encoding device 570 may select the first rotation operation or the second rotation operation based on a comparison of the first number of the plurality of hierarchical elements and the second number of the plurality of hierarchy elements.

[1410] Em alguns exemplos, o algoritmo de rotação pode ser aplicado em relação a uma duração de tempo, em que invocações subsequentes do algoritmo de rotação podem executar operações de rotação com base em invocações passadas do algoritmo de rotação. Em outras palavras, o algoritmo de rotação pode ser adaptável com base em informações de rotação passadas determinadas durante a rotação do campo sonoro para uma duração anterior de tempo. Por exemplo, o dispositivo de codificação de áudio 570 pode girar o campo sonoro ao longo de uma primeira duração de tempo, por exemplo, um quadro de áudio, para identificar os SHC 511’ para essa primeira duração de tempo. Os dispositivos de codificação de áudio 570 podem especificar as informações de rotação e os SHC 511’ no fluxo de bits 517 de qualquer maneira dentre as descritas acima. Essas informações de rotação podem ser denominadas como primeiras informações de rotação pelo fato de que descrevem a rotação do campo sonoro para a primeira duração de tempo. O dispositivo de codificação de áudio 570 pode, então, com base em nessas primeiras informações de rotação, girar o campo sonoro ao longo de uma segunda duração de tempo, por exemplo, um segundo quadro de áudio, para identificar SHC 511’ para essa segunda duração de tempo. O dispositivo de codificação de áudio 570 podem utilizar essas primeiras informações de rotação durante a realização da segunda operação de rotação ao longo da segunda duração 488/500 de tempo para inicializar uma pesquisa por uma combinação "ideal" de ângulos azimutal e de elevação, por exemplo. O dispositivo de codificação de áudio 570 pode então especificar os SHC 511’ e informações correspondentes de rotação para a segunda duração de tempo (que pode ser denominada de "segundas informações de rotação”) no fluxo de bits 517.[1410] In some examples, the rotation algorithm can be applied against a duration of time, where subsequent invocations of the rotation algorithm can perform rotation operations based on past invocations of the rotation algorithm. In other words, the rotation algorithm can be adaptive based on past rotation information determined during the rotation of the sound field for an earlier duration of time. For example, audio encoding device 570 may rotate the sound field over a first time duration, e.g., an audio frame, to identify SHC 511' for that first time duration. Audio encoding devices 570 may specify rotation information and SHC 511' in bitstream 517 in any of the ways described above. This rotation information can be termed as first rotation information in that it describes the rotation of the sound field for the first time duration. Audio encoding device 570 can then, based on this first rotation information, rotate the sound field over a second time duration, e.g., a second audio frame, to identify SHC 511' for that second time. time duration. The audio encoding device 570 can use this first rotation information while performing the second rotation operation over the second 488/500 duration of time to initiate a search for an "optimal" combination of azimuth and elevation angles, for example. example. Audio encoding device 570 can then specify the SHC 511' and corresponding rotation information for the second time duration (which may be termed "second rotation information") in bitstream 517.

[1411] Embora descritas acima em relação a diferentes maneiras de implantar o algoritmo de rotação a fim de reduzir o tempo de processamento e/ou consumo, as técnicas podem ser realizadas em relação a qualquer algoritmo que pode reduzir ou, de outro modo, aumentar agilizar a identificação do que pode ser denominado como a "rotação ideal”. Ademais, as técnicas podem ser realizadas em relação a qualquer algoritmo que identifica rotações não ideais, porém que podem aprimorar o desempenho em outros aspectos, medidos frequentemente em termos de velocidade ou de processador ou outra utilização de recurso.[1411] While described above in relation to different ways to implement the rotation algorithm in order to reduce processing time and/or consumption, the techniques can be performed in relation to any algorithm that can reduce or otherwise increase to expedite the identification of what can be termed the “optimal rotation.” Furthermore, the techniques can be performed against any algorithm that identifies non-ideal rotations, but which can improve performance in other respects, often measured in terms of speed or processor or other resource usage.

[1412] As Figuras 57 a 57E são, cada uma, um diagrama que ilustra fluxos de bits 517A a 517E formados, em conformidade com as técnicas descritas na presente revelação. No exemplo da Figura 57A, o fluxo de bits 517A pode representar um exemplo do fluxo de bits 517 mostrado na Figura 53 acima. O fluxo de bits 517A inclui um campo presente de SHC 670 e um campo que armazena SHC 511’ (em que o campo é denotado como "SHC 511’“). O campo presente de SHC 670 pode incluir um bit correspondente a cada um dentre os SHC 511. Os SHC 511’ podem representar os coeficientes dentre os SHC 511 que são especificados no fluxo de bits, que podem ser menores em número do que o número dos SHC 511. Tipicamente, cada um dentre os SHC 511’ são os coeficientes dentre os SHC 511 que têm valores diferentes de zero. Conforme verificado acima, para uma 489/500 representação de quarta ordem de qualquer campo sonoro determinado, (1+4)2 ou 25 SHC são exigidos. A eliminação de um ou mais dentre esses SHC e a substituição desses SHC com valor igual a zero com um único bit podem guardar 31 bits, que podem ser alocados para expressar outras porções do campo sonoro mais detalhadamente ou, de outro modo, removidos para facilitar utilização de largura de banda eficiente.[1412] Figures 57 to 57E are each a diagram illustrating bit streams 517A to 517E formed in accordance with the techniques described in the present disclosure. In the example of Figure 57A, the bit stream 517A may represent an example of the bit stream 517 shown in Figure 53 above. Bit stream 517A includes a present field of SHC 670 and a field that stores SHC 511' (where the field is denoted "SHC 511'"). The present field of SHC 670 may include a bit corresponding to each of the SHC 511. The SHC 511' may represent the coefficients among the SHC 511's that are specified in the bit stream, which may be smaller in number than the number of the SHC 511's. Typically, each of the SHC 511' are the coefficients among SHC 511s that have non-zero values. As noted above, for a 489/500 fourth-order representation of any given sound field, (1+4)2 or 25 SHC are required. Eliminating one or more of these SHC and replacing those zero-valued SHCs with a single bit can store 31 bits, which can be allocated to express other portions of the sound field in more detail or otherwise removed to facilitate efficient bandwidth utilization.

[1413] No exemplo da Figura 57B, o fluxo de bits 517B pode representar um exemplo do fluxo de bits 517 mostrado na Figura 53 acima. O fluxo de bits 517B inclui um campo de informações de transformação 672 (“informações de transformação 672”) e um campo que armazena SHC 511’ (em que o campo é denotado "SHC 511 “‘). As informações de transformação 672, conforme verificado acima, pode compreender informações de tradução, informações de rotação e/ou qualquer outra forma de informações que denotam um ajuste em reação a um campo sonoro. Em alguns exemplos, as informações de transformação 672 também podem especificar uma ordem mais superior de SHC 511 que são especificados no fluxo de bits 517B como SHC 511’. Ou seja, as informações de transformação 672 pode indicar uma ordem de três, o que o dispositivo de extração pode entender como uma indicação de que SHC 511’ inclui os coeficientes dentre SHC 511 ou mais e que inclui os coeficientes dentre SHC 511 que têm uma ordem de três. O dispositivo de extração pode então ser configurado para definir os SHC 511 que têm uma ordem de quatro, ou mais alta, a zero, desse modo removendo potencialmente a sinalização explicita de SHC 511 de ordem quatro, ou mais alta, no fluxo de bits.[1413] In the example of Fig. 57B, bitstream 517B may represent an example of bitstream 517 shown in Fig. 53 above. Bitstream 517B includes a transform information field 672 ("transform information 672") and a field that stores SHC 511' (where the field is denoted "SHC 511 "'). above, may comprise translation information, rotation information, and/or any other form of information denoting an adjustment in reaction to a sound field. In some examples, 672 transform information may also specify a higher order of SHC 511 which are specified in the bit stream 517B as SHC 511'. That is, the transform information 672 may indicate an order of three, which the extraction device may understand as an indication that SHC 511' includes the coefficients among SHC 511 or more and that includes the coefficients among SHC 511s that have an order of three. The extraction device can then be configured to set SHC 511s that have an order of four or higher to zero, thereby removing potentially making explicit SHC 511 signaling of order four or higher in the bit stream.

[1414] No exemplo da Figura 57C, o fluxo de bits 517C pode representar um exemplo do fluxo de bits 517 mostrado na Figura 53 acima. O fluxo de bits 517C inclui o 490/500 campo de informações de transformação 672 (“informações de transformação 672”), o campo presente de SHC 670 e um campo que armazena SHC 511’ (em que o campo é denotado "SHC 51 “). Em vez de ser configurado de modo a entender qual ordem de SHC 511 não são sinalizadas conforme descrito acima em relação à Figura 57B, o campo presente de SHC 670 pode sinalizar, de maneira explícita, quais dentre os SHC 511 são especificados no fluxo de bits 517C as SHC 511’.[1414] In the example of Fig. 57C, the bit stream 517C may represent an example of the bit stream 517 shown in Fig. 53 above. Bitstream 517C includes the 490/500 transform information field 672 ("transform information 672"), the present field of SHC 670, and a field that stores SHC 511' (wherein the field is denoted "SHC 51" ). Instead of being configured to understand which order of SHC 511s are not signaled as described above with respect to Figure 57B, the SHC 670 present field can explicitly signal which of the SHC 511s are specified in the stream. from bits 517C to SHC 511'.

[1415] No exemplo da Figura 57D, o fluxo de bits 517D pode representar um exemplo do fluxo de bits 517 mostrado na Figura 53 acima. O fluxo de bits 517D inclui um campo de ordem 674 (“ordem 60”), o campo presente de SHC 670, um sinalizador de azimute 676 (“AZF 676”), um sinalizador de elevação 678 (“ELF 678”), um campo de ângulo azimutal 680 (“azimute 680”), um ângulo de elevação campo 682 (“elevação 682”) e um campo que armazena SHC 511’ (em que, novamente, o campo é denotado "SHC 511”). O campo de ordem 674 especifica a ordem de SHC 511', isto é, a ordem denotada por n acima para a ordem mais superior da função de base esférica usada para representar o campo sonoro. O campo de ordem 674 é mostrado como sendo um campo de 8 bits, porém pode ter vários outros tamanhos em bits, tais como, três (que é o número de bits exigidos para especificar a quarta ordem). O campo presente de SHC 670 é mostrado como um campo de 25 bits. No entanto, novamente, o campo presente de SHC 670 pode ter vários outros tamanhos em bits. O campo presente de SHC 670 é mostrado como de 25 bits para indicar que o campo presente de SHC 670 pode incluir um bit para cada um dentre os coeficientes harmônicos esféricos correspondentes a uma representação de quarta ordem do campo sonoro.[1415] In the example of Fig. 57D, the bit stream 517D may represent an example of the bit stream 517 shown in Fig. 53 above. Bitstream 517D includes a 674th order field ("60th order"), the SHC present field 670, an azimuth flag 676 ("AZF 676"), an elevation flag 678 ("ELF 678"), an azimuth angle field 680 ("azimuth 680"), an elevation angle field 682 ("elevation 682"), and a field that stores SHC 511' (where, again, the field is denoted "SHC 511"). of order 674 specifies the order of SHC 511', that is, the order denoted by n above to the highest order of the spherical basis function used to represent the sound field. The field of order 674 is shown to be a field of 8 bits, but can be of various other bit sizes, such as three (which is the number of bits required to specify fourth order). The present field of SHC 670 is shown as a 25-bit field. However, again, the present field of SHC 670 can be of various other sizes in bits. The present field of SHC 670 is shown as 25 bits to indicate that the present field of SHC 670 can include a bit for each of the spherical harmonic coefficients corresponding to a fourth-order representation of the sound field.

[1416] O sinalizador de azimute 676 representa um sinalizador de um bit que especifica se o campo azimutal 491/500 680 está presente no fluxo de bits 517D. Quando o sinalizador de azimute 676 é definido como um, o campo azimutal 680 para SHC 511’ está presente no fluxo de bits 517D. Quando o sinalizador de azimute 676 é definido como zero, o campo azimutal 680 para SHC 511’ não está presente ou, de outro modo, especificado no fluxo de bits 517D. De igual modo, o sinalizador de elevação 678 representa um sinalizador de um bit que especifica se a elevação campo 682 está presente no fluxo de bits 517D. Quando o sinalizador de elevação 678 é definido como um, a elevação campo 682 para SHC 511’ está presente no fluxo de bits 517D. Quando o sinalizador de elevação 678 é definido como zero, o campo de elevação 682 para SHC 511’ não está presente ou, de outro modo, especificado no fluxo de bits 517D. Embora seja descrito um sinaliza que o campo correspondente está presente e zero sinaliza que o campo correspondente não está presente, a convenção pode ser pode ser revertida de modo que um zero especifique que o campo correspondente seja especificado no fluxo de bits 517D e um especifique que o campo correspondente não é especificado no fluxo de bits 517D. Portanto, as técnicas descritas na presente revelação não devem ser limitadas a esse aspecto.[1416] Azimuth flag 676 represents a one-bit flag that specifies whether the azimuth field 491/500 680 is present in bitstream 517D. When azimuth flag 676 is set to one, azimuth field 680 for SHC 511' is present in bitstream 517D. When azimuth flag 676 is set to zero, azimuth field 680 for SHC 511' is not present or otherwise specified in bitstream 517D. Likewise, elevation flag 678 represents a one-bit flag that specifies whether elevation field 682 is present in bit stream 517D. When elevation flag 678 is set to one, elevation field 682 for SHC 511' is present in bitstream 517D. When elevation flag 678 is set to zero, elevation field 682 for SHC 511' is not present or otherwise specified in bitstream 517D. Although one is described that the corresponding field is present and zero signals that the corresponding field is not present, the convention can be reversed so that a zero specifies that the corresponding field is specified in bitstream 517D and one specifies that the corresponding field is not specified in bitstream 517D. Therefore, the techniques described in the present disclosure should not be limited in this regard.

[1417] O campo azimutal 680 representa um campo de 10 bits que especifica, quando presente no fluxo de bits 517D, o ângulo azimutal. Embora mostrado como um campo de 10 bits, o campo azimutal 680 pode ter outros tamanhos em bits. O campo de elevação 682 representa um campo de 9 bits que especifica, quando presente no fluxo de bits 517D, o ângulo de elevação. O ângulo azimutal e o ângulo de elevação especificado nos campos 680 e 682, respectivamente, podem representar, em combinação com os sinalizadores 676 e 678, as informações de rotação descritas acima. Essas informações de rotação podem ser 492/500 usadas para girar o campo sonoro de modo a recuperar os SHC 511 no quadro de referência original.[1417] Azimuthal field 680 represents a 10-bit field that specifies, when present in bitstream 517D, the azimuthal angle. Although shown as a 10-bit field, the azimuth field 680 can have other bit sizes. Elevation field 682 represents a 9-bit field that specifies, when present in bitstream 517D, the elevation angle. The azimuth angle and elevation angle specified in fields 680 and 682, respectively, can represent, in combination with flags 676 and 678, the rotation information described above. This rotation information can be used 492/500 to rotate the sound field to bring the SHC 511s back to the original reference frame.

[1418] O campo de SHC 511’ é mostrado como um campo variável que tem um tamanho X. O campo de SHC 511’ pode variar devido ao número de SHC 511’ especificado no fluxo de bits conforme denotado pelo campo presente de SHC 670. O tamanho X pode ser derivado como uma função do número de uns no campo presente de SHC 670 vezes 32 bits (que é o tamanho de cada SHC 511’).[1418] The field of SHC 511' is shown as a variable field that has a size of X. The field of SHC 511' may vary due to the number of SHC 511' specified in the bit stream as denoted by the present field of SHC 670. The size X can be derived as a function of the number of ones in the present field of SHC 670 times 32 bits (which is the size of each SHC 511').

[1419] No exemplo da Figura 57E, o fluxo de bits 517E pode representar outro exemplo do fluxo de bits 517 mostrado na Figura 53 acima. O fluxo de bits 517E inclui um campo de ordem 674 (“ordem 60”), um campo presente de SHC 670 e um campo de índice de rotação 684, e um campo que armazena SHC 511’ (em que, novamente, o campo é denotado "SHC 511’“). O campo de ordem 674, o campo presente de SHC 670 e o campo de SHC 511’ podem ser substancialmente semelhantes àqueles descritos acima. O campo de índice de rotação 684 pode representar um campo de 20 bits usado para especificar uma dentre 1024x512 combinações (ou, em outras palavras, 524288) dos ângulos azimutal e de elevação. Em alguns exemplos, apenas 19 bits podem ser usados para especificar esse campo de índice de rotação 684, e o dispositivo de codificação de áudio 570 pode especificar um sinalizador adicional no fluxo de bits para indicar se uma operação de rotação foi executada (portanto, se o campo de índice de rotação 684 está presente no fluxo de bits). Esse campo de índice de rotação 684 especifica o índice de rotação verificado acima, que pode se referir a uma entrada em uma tabela de rotação comum tanto para o dispositivo de codificação de áudio 570 quanto para o fluxo de bits dispositivo de extração. Essa tabela de rotação pode armazenar, em alguns exemplos, as 493/500 diferentes combinações dos ângulos azimutal e de elevação. Alternativamente, a tabela de rotação pode armazenar a matriz descrita acima, que armazena de maneira eficaz as diferentes combinações dos ângulos azimutal e de elevação em forma de matriz.[1419] In the example of Figure 57E, bitstream 517E may represent another example of bitstream 517 shown in Figure 53 above. Bitstream 517E includes a field of order 674 ("order 60"), a present field of SHC 670 and a rotation index field 684, and a field that stores SHC 511' (wherein, again, the field is denoted "SHC 511'“). The order field 674, the present field of SHC 670 and the field of SHC 511' may be substantially similar to those described above. The rotation index field 684 may represent a 20-bit field used to specify one of 1024x512 combinations (or, in other words, 524288) of the azimuth and elevation angles. In some examples, only 19 bits can be used to specify this rotation index field 684, and the audio encoding device 570 can specify an additional flag in the bitstream to indicate whether a rotation operation has been performed (thus if the rotation index field 684 is present in the bitstream.) This rotation index field 684 specifies the rotation index checked above, which may refer to one and entered in a rotation table common to both the audio encoding device 570 and the bitstream extractor device. This rotation table can store, in some examples, the 493/500 different combinations of azimuth and elevation angles. Alternatively, the rotation table can store the matrix described above, which effectively stores the different combinations of azimuth and elevation angles in matrix form.

[1420] A Figura 58 é um fluxograma que ilustra uma operação exemplificativa do dispositivo de codificação de áudio 570 mostrado no exemplo da Figura 53 na implantação da rotação aspectos das técnicas descritas na presente revelação. Incialmente, o dispositivo de codificação de áudio 570 pode selecionar uma combinação de ângulo azimutal e um ângulo de elevação em conformidade com um ou mais dentre os vários algoritmos de rotação descritos acima (800). O dispositivo de codificação de áudio 570 pode girar, em seguida, o campo sonoro de acordo com o ângulo azimutal e de elevação selecionado (802). Conforme descrito acima, o dispositivo de codificação de áudio 570 pode derivar primeiramente o campo sonoro a partir dos SHC 511 com o uso do InvMat1 verificado acima. O dispositivo de codificação de áudio 570 também pode determinar os SHC 511’ que representam o campo sonoro girado (804). Embora descrito como sendo etapas ou operações separadas, o dispositivo de codificação de áudio 570 pode aplicar uma transformada (que pode representar o [EncMat2][//?v at;]) que representa a seleção da combinação do ângulo azimutal e do ângulo de elevação, derivando o campo sonoro do SHC 511, girando o campo sonoro e determinado os SHC 511’ que representam o campo sonoro girado.[1420] Figure 58 is a flowchart illustrating an exemplary operation of the audio encoding device 570 shown in the example of Figure 53 in implementing rotating aspects of the techniques described in the present disclosure. Initially, the audio encoding device 570 may select a combination of azimuthal angle and an elevation angle in accordance with one or more of the various rotation algorithms described above (800). The audio encoding device 570 can then rotate the sound field according to the selected azimuth and elevation angle (802). As described above, the audio encoding device 570 can first derive the sound field from the SHC 511 using the InvMat1 verified above. The audio encoding device 570 can also determine the SHC 511' representing the rotated sound field (804). Although described as being separate steps or operations, the audio encoding device 570 may apply a transform (which may represent the [EncMat2][//?v at;]) that represents the selection of the combination of azimuth angle and angle of view. elevation, deriving the sound field from the SHC 511, rotating the sound field and determining the SHC 511' representing the rotated sound field.

[1421] De qualquer modo, o dispositivo de codificação de áudio 570 pode, em seguida, computar um número dos SHC 511’ determinados que são maiores que um valor de limiar, em comparação desse número a um número comutado para uma iteração anterior em relação a uma 494/500 combinação anterior de ângulo azimutal e de ângulo de elevação (806, 808). Na primeira iteração em relação à primeira combinação de ângulo azimutal e de ângulo de elevação, essa comparação pode ser a um número anterior predeterminado (que pode ser definido como zero). De qualquer modo, caso o número determinado dos SHC 511’ seja menor do que os números anteriores (“SIM” 808), o dispositivo de codificação de áudio 570 armazena os SHC 51, o ângulo azimutal e o ângulo de elevação, que substituem frequentemente os SHC 511' anteriores, o ângulo azimutal e o ângulo de elevação armazenados a partir de uma iteração anterior do algoritmo de rotação (810).[1421] In any case, the audio encoding device 570 may then compute a number of the determined SHC 511' that are greater than a threshold value, compared to a number shifted to a previous iteration relative to the threshold value. to a previous combination of azimuth angle and elevation angle (806, 808). In the first iteration against the first combination of azimuthal angle and elevation angle, this comparison can be to a predetermined previous number (which can be set to zero). In any case, if the given number of SHC 511' is less than the previous numbers ("SIM" 808), the audio encoding device 570 stores the SHC 51, the azimuth angle and the elevation angle, which frequently replace the previous SHC 511', azimuthal angle and elevation angle stored from a previous iteration of the rotation algorithm (810).

[1422] Caso o número determinado dos SHC 511’ não seja menor do que o número anterior (“NÃO” 808) ou após armazenar os SHC 511’, o ângulo azimutal e o ângulo de elevação no lugar dos SHC 51 armazenados anteriormente, o ângulo azimutal and ângulo de elevação, o dispositivo de codificação de áudio 570 podem determinar se o algoritmo de rotação terminou. Ou seja, o dispositivo de codificação de áudio 570 pode, por exemplo, determinar se toda a combinação disponível de ângulo azimutal e de ângulo de elevação foi avaliada. Em outros exemplos, o dispositivo de codificação de áudio 570 pode determinar se outros critérios são satisfeitos (por exemplo, se todos dentre um subconjunto definido de combinação foram realizados, se uma determinada foi atravessada, se uma árvore hierárquica foi atravessada para um nó de folha, etc.) de modo que o dispositivo de codificação de áudio 570 tenham terminado de aplicar o algoritmo de rotação. Caso não tenha terminado (“Não” 812), o dispositivo de codificação de áudio 570 pode realizar o processo acima em relação a outra combinação selecionada (800 a 812). Caso tenha terminado ("SIM" 812), o dispositivo de codificação de áudio 570 pode especificar 495/500 os SHC armazenados 51, o ângulo azimutal e o ângulo de elevação no fluxo de bits 517 de uma dentre várias maneiras descritas acima (814).[1422] If the determined number of SHC 511' is not less than the previous number ("NO" 808) or after storing the SHC 511', the azimuthal angle and elevation angle in place of the previously stored SHC 51, the azimuth angle and elevation angle, the audio encoding device 570 can determine whether the rotation algorithm has ended. That is, the audio encoding device 570 can, for example, determine whether the entire available combination of azimuth angle and elevation angle has been evaluated. In other examples, the audio coding device 570 can determine if other criteria are satisfied (e.g., if all of a defined subset of matching were performed, if a certain one was traversed, if a hierarchical tree was traversed to a leaf node , etc.) so that the audio encoding device 570 has finished applying the rotation algorithm. If not finished (“No” 812), the audio encoding device 570 can perform the above process against another selected combination (800 to 812). If done ("YES" 812), the audio encoding device 570 can specify 495/500 the stored SHC 51, the azimuth angle, and the elevation angle in the bitstream 517 in one of several ways described above (814) .

[1423] A Figura 59 é um fluxograma que ilustra uma operação exemplificativa do dispositivo de codificação de áudio 570 mostrado no exemplo da Figura 53 na realização dos aspectos de transformação das técnicas descritas na presente revelação. Inicialmente, o dispositivo de codificação de áudio 570 pode selecionar uma matriz que representa uma transformada invertível linear (820). Um exemplo de uma matriz que representa uma transformada invertível linear pode ser a matriz mostrada acima que é o resultado de [EncMatf\[IncMatf\. O dispositivo de codificação de áudio 570 pode, em seguida, aplicar a matriz ao campo sonoro para transformar o campo sonoro (822). O dispositivo de codificação de áudio 570 também pode determinar os SHC 511’ que representam o campo sonoro girado (824). Embora descrito como tendo etapas ou operações separadas, o dispositivo de codificação de áudio 570 pode aplicar uma transformada (que representa o resultado de [EncMat2][//?v at;]), derivando o campo sonoro dos SHC 511, pode transformar o campo sonoro e determinar o SHC 511’ que representa o campo sonoro de transformada.[1423] Figure 59 is a flowchart illustrating an exemplary operation of the audio encoding device 570 shown in the example of Figure 53 in performing the transforming aspects of the techniques described in the present disclosure. Initially, the audio encoding device 570 may select a matrix that represents a linear invertible transform (820). An example of a matrix representing a linear invertible transform might be the matrix shown above which is the result of [EncMatf\[IncMatf\. The audio encoding device 570 can then apply the matrix to the sound field to transform the sound field (822). The audio encoding device 570 can also determine the SHC 511' representing the rotated sound field (824). Although described as having separate steps or operations, the audio encoding device 570 can apply a transform (which represents the result of [EncMat2][//?v at;]), deriving the sound field from the SHC 511, can transform the sound field and determine the SHC 511' which represents the transform sound field.

[1424] De qualquer modo, o dispositivo de codificação de áudio 570 pode, em seguida, computar um número dos SHC 511’ determinados que são maiores que um valor de limiar, que compreende esse número a um número computado para uma iteração anterior em relação a uma aplicação anterior de uma matriz de transformada (826, 828). Caso o número determinado dos SHC 511’ seja menor do que o número anterior (“Sim” 828), o dispositivo de codificação de áudio 570 armazena os SHC 511’ e a matriz (ou alguma derivada da mesma, por exemplo, um índice 496/500 associado à matriz), substituindo frequentemente os SHC 511’ anteriores e a matriz (ou uma derivada da mesma) armazenados a partir de uma iteração anterior do algoritmo de rotação (830).[1424] In any case, the audio encoding device 570 may then compute a number of the determined SHC 511' that are greater than a threshold value, which comprises that number to a number computed for a previous iteration with respect to to an earlier application of a transform matrix (826, 828). If the given number of SHC 511' is less than the previous number ("Yes" 828), the audio encoding device 570 stores the SHC 511' and the matrix (or some derivative thereof, e.g. an index 496 /500 associated with the matrix), often replacing the previous SHC 511' and the matrix (or a derivative thereof) stored from a previous iteration of the rotation algorithm (830).

[1425] Caso número dos SHC 511’ não seja menor do que o número anterior (“Não” 828) ou após armazenar os SHC 511’ e a matriz no lugar dos SHC 511’ e da matriz armazenados anteriormente, o dispositivo de codificação de áudio 570 pode determinar se o algoritmo de transformada está terminado (832). Ou seja, o dispositivo de codificação de áudio 570 pode determinar, por exemplo, se todas as matrizes de transformadas foram avaliadas. Em outros exemplos, o dispositivo de codificação de áudio 570 pode determinar se outros critérios são satisfeitos (por exemplo, se todos dentre um subconjunto definido de combinação foram realizados, se uma determinada foi atravessada, se uma árvore hierárquica foi atravessada para um nó de folha, etc.) de modo que o dispositivo de codificação de áudio 570 tenham terminado de aplicar o algoritmo de transformada. Caso não esteja terminado (“Não” 832), o dispositivo de codificação de áudio 570 pode realizar o processo acima em relação a outra matriz de transformada selecionada (820 a 832). Caso esteja terminado (“Sim” 832), o dispositivo de codificação de áudio 570 pode especificar os SHC 511’ e a matriz armazenados no fluxo de bits 517 de uma dentre as várias maneiras descritas acima (834).[1425] If the number of SHC 511' is not less than the previous number ("No" 828) or after storing the SHC 511' and matrix in place of the previously stored SHC 511' and matrix, the encoding device of audio 570 can determine if the transform algorithm is finished (832). That is, the audio encoding device 570 can determine, for example, whether all transform matrices have been evaluated. In other examples, the audio coding device 570 can determine if other criteria are satisfied (e.g., if all of a defined subset of matching were performed, if a certain one was traversed, if a hierarchical tree was traversed to a leaf node , etc.) so that the audio encoding device 570 has finished applying the transform algorithm. If not terminated (“No” 832), the audio encoding device 570 can perform the above process with respect to another selected transform matrix (820 to 832). If terminated ("Yes" 832), audio encoding device 570 can specify the SHC 511' and array stored in bitstream 517 in one of several ways described above (834).

[1426] Em alguns exemplos, o algoritmo de transformada pode realizar uma única iteração, avaliando uma única de transformada. Ou seja, a matriz de transformada pode compreender qualquer matriz que representa uma transformada invertível linear. Em alguns exemplos, a transformada invertível linear pode transformar 497/500 o campo sonoro do domínio espacial no domínio de frequência. Os exemplos de tal transformada invertível linear podem incluir uma transformada de Fourier discreta (DFT). Aplicação da DFT pode envolver apenas uma única iteração, portanto, não necessariamente inclui as etapas de determinar se o algoritmo de transformada está determinado. Consequentemente, as técnicas não devem ser limitadas ao exemplo da Figura 59.[1426] In some examples, the transform algorithm may perform a single iteration, evaluating a single transform. That is, the transform matrix may comprise any matrix that represents a linear invertible transform. In some examples, the linear invertible transform can transform 497/500 the sound field from the spatial domain to the frequency domain. Examples of such a linear invertible transform may include a discrete Fourier transform (DFT). Application of the DFT may only involve a single iteration, so it does not necessarily include the steps of determining whether the transform algorithm is determined. Consequently, the techniques should not be limited to the example in Figure 59.

[1427] Em outras palavras, um exemplo de uma transformada invertível linear é uma transformada de Fourier discreta (DFT). Os vinte e cinco SHC 511’ podem ser operados pela DFT de modo a formar um conjunto de vinte e cinco coeficientes complexos. O dispositivo de codificação de áudio 570 também pode preencher de zero os vinte e cinco SHC 511’ de modo a serem um número interior múltiplo de 2, de modo a aumentar potencialmente a resolução do tamanho de compartimento da DFT e, potencialmente, ter uma implantação mais eficiente da DFT, por exemplo, através da aplicação de uma transformada de Fourier rápida (FFT). Em alguns exemplos, o aumento da resolução da DFT além de 25 pontos não é necessariamente exigido. No domínio de transformada, o dispositivo de codificação de áudio 570 pode aplicar um limiar para determinar se há qualquer energia espectral em um compartimento particular. O dispositivo de codificação de áudio 570, nesse contexto, pode descartar, em seguida, ou zerar energia de coeficiente espectral que está abaixo desse limiar, e o dispositivo de codificação de áudio 570 pode aplicar uma transformada inversa para recuperar os SHC 511’ que têm um ou mais dos SHC 511’ descartados ou zerados. Ou seja, após a transformada inversa ser aplicada, os coeficientes abaixo do limiar não estão presentes e, como resultado, menos bits podem ser usados para codificar o campo sonoro. 498/500[1427] In other words, an example of a linear invertible transform is a discrete Fourier transform (DFT). The twenty-five SHC 511' can be operated by the DFT to form a set of twenty-five complex coefficients. The audio encoding device 570 may also zero-fill the twenty-five SHC 511' to be an interior number multiple of 2, so as to potentially increase the resolution of the DFT bin size and potentially have a more efficient method of DFT, for example by applying a fast Fourier transform (FFT). In some examples, increasing the DFT resolution beyond 25 points is not necessarily required. In the transform domain, audio encoding device 570 may apply a threshold to determine whether there is any spectral energy in a particular compartment. Audio encoding device 570, in this context, may then discard or zero spectral coefficient energy that is below this threshold, and audio encoding device 570 may apply an inverse transform to recover SHC 511' that have one or more of the discarded or zeroed SHC 511's. That is, after the inverse transform is applied, subthreshold coefficients are not present and, as a result, fewer bits can be used to encode the sound field. 498/500

[1428] Em um ou mais exemplos, as funções descritas podem ser implantadas em hardware, software, firmware ou qualquer combinação dos mesmos. Caso implantado em software, as funções podem ser armazenadas em, ou transmitidas sobre, como uma ou mais instruções ou código em um meio legível por computador e executadas por uma unidade de processamento com base em hardware. As mídias legíveis por computador podem incluir mídias de armazenamento legíveis por computador, que correspondem a uma mídia tangível como mídias de armazenamento de dados ou mídias de comunicação que incluem qualquer mídia que facilite a transferência de um programa de computador proveniente de um lugar para outro, por exemplo, de acordo com um protocolo de comunicação. Dessa maneira, mídias legíveis por computador podem corresponder, em geral, a (1) mídias de armazenamento legíveis por computador tangíveis que são não transitórias (2) uma mídia de comunicação, por exemplo, uma onda de sinal ou de transportadora. As mídias de armazenamento de dados podem ser quaisquer mídias disponíveis que possam ser acessadas por um ou mais computadores ou um ou mais processadores para recuperar instruções, estruturas de código e/ou dados para a implantação das técnicas descritas na presente revelação. Um produto de programa de computador pode incluir uma mídia legível por computador.[1428] In one or more examples, the functions described may be implemented in hardware, software, firmware, or any combination thereof. If implemented in software, functions may be stored in, or transmitted over, as one or more instructions or code on a computer-readable medium and executed by a hardware-based processing unit. Computer readable media may include computer readable storage media, which correspond to tangible media such as data storage media or communication media which include any media that facilitates the transfer of a computer program from one place to another, for example, according to a communication protocol. In this way, computer-readable media may correspond, in general, to (1) tangible computer-readable storage media that are non-transient (2) a communication medium, eg, a signal or carrier wave. Data storage media can be any available media that can be accessed by one or more computers or one or more processors to retrieve instructions, code structures and/or data for implementing the techniques described in the present disclosure. A computer program product may include computer readable media.

[1429] A título de exemplo, e não de limitação, tais mídias de armazenamento legíveis por computador podem compreender RAM, ROM, EEPROM, CD-ROM ou outro armazenamento de disco óptico, armazenamento de disco magnético ou outros dispositivos de armazenamento magnético, ou qualquer outro meio que possa ser usado para armazenar o código de programa desejado na forma de instruções ou estruturas de dados e que possa ser acessado 499/500 por um computador. Também, qualquer conexão é propriamente denominada de uma mídia legível por computador. Por exemplo, se as instruções forem transmitidas a partir de um sítio da web, servidor ou outra fonte remota com o uso de um cabo coaxial, cabo de fibra óptica, par trançado, linha de inscrição digital (DSL) ou tecnologias sem fio como infravermelho, rádio e micro-onda, então, o cabo coaxial, o cabo de fibra óptica, o par trançado, a DSL ou as tecnologias sem fio como infravermelho, rádio e micro-onda estão incluídos na definição de mídia. Deve ser entendido, entretanto, que as mídias de armazenamento legíveis por computador e as mídias de armazenamento de dados não incluem conexões, ondas transportadoras, sinais ou outras mídias transitórias, mas são, em vez disso, direcionadas para mídias não transitórias e tangíveis. Disco magnético e disco óptico, conforme usado no presente documento, incluem disco compacto (CD), disco laser, disco ótico, disco versátil digital (DVD), disquete e disco blu-ray, em que os discos magnéticos normalmente reproduzem os dados de modo magnético, enquanto os discos ópticos reproduzem os dados de modo óptico com lasers. As combinações dos supracitados também devem ser abrangidas pelo escopo de meios legíveis por computador.[1429] By way of example, and not limitation, such computer readable storage media may comprise RAM, ROM, EEPROM, CD-ROM or other optical disk storage, magnetic disk storage or other magnetic storage devices, or any other medium that can be used to store the desired program code in the form of instructions or data structures and that can be accessed 499/500 by a computer. Also, any connection is properly termed a computer readable media. For example, if instructions are transmitted from a website, server, or other remote source using coaxial cable, fiber optic cable, twisted pair, digital subscription line (DSL), or wireless technologies such as infrared , radio and microwave, then coaxial cable, fiber optic cable, twisted pair, DSL or wireless technologies such as infrared, radio and microwave are included in the definition of media. It should be understood, however, that computer-readable storage media and data storage media do not include connections, carrier waves, signals, or other transient media, but are instead directed toward non-transient, tangible media. Magnetic disc and optical disc, as used herein, include compact disc (CD), laser disc, optical disc, digital versatile disc (DVD), floppy disk and blu-ray disc, where magnetic discs normally reproduce data in a magnetic, while optical discs reproduce the data optically with lasers. Combinations of the above should also fall within the scope of computer readable media.

[1430] As instruções podem ser executadas por um ou mais processadores, como um ou mais processadores de sinal digital (DSPs), microprocessadores para propósitos gerais, circuitos integrados de aplicação específica (ASICs), matrizes lógicas programáveis por campo (FPGAs) ou outro conjunto de circuitos lógicos equivalentes integrados ou discretos. Portanto, o termo "processador," conforme usado no presente documento pode se referir a qualquer uma das estruturas supracitadas ou qualquer outra estrutura adequada para a implantação das técnicas descritas no 500/500 presente documento. Adicionalmente, em alguns aspectos, a funcionalidade descrita no presente documento pode ser fornecida dentro de módulos dedicados de hardware e/ou software configurados para cifrar e decodificar ou incorporados em um codec combinado. Também, as técnicas podem ser totalmente implantadas em um ou mais circuitos ou elementos lógicos.[1430] Instructions may be executed by one or more processors, such as one or more digital signal processors (DSPs), general-purpose microprocessors, application-specific integrated circuits (ASICs), field-programmable logic arrays (FPGAs), or other set of equivalent integrated or discrete logic circuits. Therefore, the term "processor," as used herein, may refer to any of the aforementioned structures or any other structure suitable for implementing the 500/500 techniques described in this document. Additionally, in some respects, the functionality described in this document may be provided within dedicated hardware and/or software modules configured to encrypt and decode or incorporated into a combined codec. Also, the techniques can be fully implemented in one or more circuits or logic elements.

[1431] As técnicas a presente revelação podem ser implantadas em uma ampla variedade de dispositivos ou aparelhos, incluindo um monofone, um circuito integrado (IC) ou um conjunto de ICs (por exemplo, um conjunto de chips). Vários componentes, módulos ou unidades são descritos na presente revelação para enfatizar os aspectos funcionais dos dispositivos configurados para realizar as técnicas reveladas, mas não exigem necessariamente a realização por diferentes unidades de hardware. Em vez disso, conforme descrito acima, várias unidades podem ser combinadas em uma unidade de hardware de codec ou fornecidas por uma coleção de unidades de hardware interoperativos, incluindo um ou mais processadores conforme descrito acima, em conjunto com software e/ou firmware adequados.[1431] The techniques of the present disclosure can be implemented in a wide variety of devices or apparatus, including a handset, an integrated circuit (IC), or a set of ICs (eg, a chip set). Various components, modules, or units are described in the present disclosure to emphasize the functional aspects of devices configured to perform the disclosed techniques, but do not necessarily require realization by different hardware units. Instead, as described above, multiple units may be combined into one codec hardware unit or provided by a collection of interoperable hardware units, including one or more processors as described above, together with appropriate software and/or firmware.

[1432] Várias modalidades das técnicas foram descritas. Esses e outros aspectos das técnicas estão dentro do escopo das reivindicações a seguir.[1432] Various modalities of the techniques have been described. These and other aspects of the techniques are within the scope of the claims that follow.

Claims (15)

1. Método caracterizado por compreender: obter um fluxo de bits (21) que compreende uma versão comprimida de um componente espacial de um campo sonoro (57), sendo que o componente espacial é definido em um domínio harmônico esférico e é gerado realizando-se uma decomposição linear em relação a uma pluralidade de coeficientes harmônicos esféricos, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de um campo (262) que especifica um modo de predição (237) utilizado quando se comprime o componente espacial.1. Method characterized by comprising: obtaining a stream of bits (21) comprising a compressed version of a spatial component of a sound field (57), wherein the spatial component is defined in a spherical harmonic domain and is generated by performing a linear decomposition with respect to a plurality of spherical harmonic coefficients, wherein the compressed version of the spatial component is represented in the bit stream using, at least in part, a field (262) that specifies a prediction mode (237 ) used when compressing the spatial component. 2. Método, de acordo com a reivindicação 1, caracterizado pela versão comprimida do componente espacial ser representada ainda no fluxo de bits com o uso, pelo menos em parte, de um de: informações de tabela de Huffman que especificam uma tabela de Huffman usada quando se comprime o componente espacial; um código de Huffman para representar um identificador de categoria que identifica uma categoria de compressão à qual o componente espacial corresponde; um bit de sinal que identifica se o componente espacial tem um valor positivo ou um valor negativo; e um código de Huffman para representar um valor residual do componente espacial.Method according to claim 1, characterized in that the compressed version of the spatial component is still represented in the bit stream using, at least in part, one of: Huffman table information that specifies a Huffman table used when compressing the spatial component; a Huffman code to represent a category identifier that identifies a compression category to which the spatial component corresponds; a sign bit that identifies whether the spatial component has a positive value or a negative value; and a Huffman code to represent a residual value of the spatial component. 3. Método, de acordo com a reivindicação 1, caracterizado pela decomposição compreender uma decomposição de valor singular.Method according to claim 1, characterized in that the decomposition comprises a singular value decomposition. 4. Dispositivo (16, 24) caracterizado por compreender um ou mais processadores configurados para: obter um fluxo de bits (16, 24) que compreende uma versão comprimida de um componente espacial de um campo sonoro (57), sendo que o componente espacial é definido em um domínio harmônico esférico e é gerado realizando-se uma decomposição linear em relação a uma pluralidade de coeficientes harmônicos esféricos, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de um campo (262) que especifica um modo de predição (237) usado quando se comprime o componente espacial.4. Device (16, 24) characterized in that it comprises one or more processors configured to: obtain a bit stream (16, 24) comprising a compressed version of a spatial component of a sound field (57), the spatial component is defined in a spherical harmonic domain and is generated by performing a linear decomposition with respect to a plurality of spherical harmonic coefficients, where the compressed version of the spatial component is represented in the bit stream using, at least in part, a field (262) that specifies a prediction mode (237) used when compressing the spatial component. 5. Dispositivo, de acordo com a reivindicação 4, caracterizado pela versão comprimida do componente espacial ser posteriormente representada no fluxo de bits com o uso, pelo menos em parte, de informações de tabela de Huffman que especificam uma tabela de Huffman usada quando se comprime o componente espacial.Device according to claim 4, characterized in that the compressed version of the spatial component is subsequently represented in the bit stream using, at least in part, Huffman table information that specifies a Huffman table used when compressing the spatial component. 6. Dispositivo, de acordo com a reivindicação 4, caracterizado pela versão comprimida do componente espacial ser representada ainda no fluxo de bits com o uso, pelo menos em parte, de um código de Huffman para representar um identificador de categoria que identifica uma categoria de compressão à qual o componente espacial corresponde.Device according to claim 4, characterized in that the compressed version of the spatial component is further represented in the bit stream using, at least in part, a Huffman code to represent a category identifier that identifies a category of compression to which the spatial component corresponds. 7. Dispositivo, de acordo com a reivindicação 4, caracterizado pela versão comprimida do componente espacial ser representada ainda no fluxo de bits com o uso, pelo menos em parte, de um bit de sinal que identifica se o componente espacial tem um valor positivo ou um valor negativo.Device according to claim 4, characterized in that the compressed version of the spatial component is further represented in the bit stream using, at least in part, a sign bit that identifies whether the spatial component has a positive or negative value. a negative value. 8. Dispositivo, de acordo com a reivindicação 4, caracterizado pela versão comprimida do componente espacial ser representada ainda no fluxo de bits com o uso, pelo menos em parte, de um código de Huffman para representar um valor residual do componente espacial.Device according to claim 4, characterized in that the compressed version of the spatial component is further represented in the bit stream using, at least in part, a Huffman code to represent a residual value of the spatial component. 9. Dispositivo, de acordo com a reivindicação 4, caracterizado pela decomposição compreender uma decomposição de valor singular.Device according to claim 4, characterized in that the decomposition comprises a singular value decomposition. 10. Método caracterizado por compreender: gerar um fluxo de bits (21) que compreende uma versão comprimida de um componente espacial de um campo sonoro (57), sendo que o componente espacial é definido em um domínio harmônico esférico e é gerado realizando-se uma decomposição linear em relação a uma pluralidade de coeficientes harmônicos esféricos, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de um campo (262) que especifica um modo de predição (237) usado quando se comprime o componente espacial.10. Method characterized by comprising: generating a stream of bits (21) that comprises a compressed version of a spatial component of a sound field (57), wherein the spatial component is defined in a spherical harmonic domain and is generated by performing a linear decomposition with respect to a plurality of spherical harmonic coefficients, wherein the compressed version of the spatial component is represented in the bit stream using, at least in part, a field (262) that specifies a prediction mode (237 ) used when compressing the spatial component. 11. Método, de acordo com a reivindicação 10, caracterizado por gerar o fluxo de bits compreender gerar o fluxo de bits incluindo um de: informações de tabela de Huffman que especificam uma tabela de Huffman usada quando se comprime o componente espacial; um código de Huffman para representar um identificador de categoria que identifica uma categoria de compressão à qual o componente espacial corresponde; um bit de sinal que identifica se o componente espacial tem um valor positivo ou um valor negativo; e um código de Huffman para representar um valor residual do componente espacial.The method of claim 10, characterized in that generating the bit stream comprises generating the bit stream including one of: Huffman table information specifying a Huffman table used when compressing the spatial component; a Huffman code to represent a category identifier that identifies a compression category to which the spatial component corresponds; a sign bit that identifies whether the spatial component has a positive value or a negative value; and a Huffman code to represent a residual value of the spatial component. 12. Dispositivo (16, 24) caracterizado por compreender um ou mais processadores configurados para: gerar um fluxo de bits (21) que compreende uma versão comprimida de um componente espacial de um campo sonoro (57), sendo que o componente espacial é definido em um domínio harmônico esférico e é gerado realizando-se uma decomposição linear em relação a uma pluralidade de coeficientes harmônicos esféricos, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de um campo (262) que especifica um modo de predição (237) usado quando se comprime o componente espacial.12. Device (16, 24) characterized in that it comprises one or more processors configured to: generate a bit stream (21) comprising a compressed version of a spatial component of a sound field (57), the spatial component being defined into a spherical harmonic domain and is generated by performing a linear decomposition with respect to a plurality of spherical harmonic coefficients, where the compressed version of the spatial component is represented in the bit stream using, at least in part, a field (262) which specifies a prediction mode (237) used when compressing the spatial component. 13. Dispositivo, de acordo com a reivindicação 12, caracterizado pelos um ou mais processadores serem configurados para gerar o fluxo de bits incluindo um de: informações de tabela de Huffman que especificam uma tabela de Huffman usada quando se comprime o componente espacial; um código de Huffman para representar um identificador de categoria que identifica uma categoria de compressão à qual o componente espacial corresponde; um bit de sinal que identifica se o componente espacial tem um valor positivo ou um valor negativo; e um código de Huffman para representar um valor residual do componente espacial.Device according to claim 12, characterized in that one or more processors are configured to generate the bit stream including one of: Huffman table information specifying a Huffman table used when compressing the spatial component; a Huffman code to represent a category identifier that identifies a compression category to which the spatial component corresponds; a sign bit that identifies whether the spatial component has a positive value or a negative value; and a Huffman code to represent a residual value of the spatial component. 14. Dispositivo, de acordo com a reivindicação 12, caracterizado pela decomposição compreender uma decomposição de valor singular.Device according to claim 12, characterized in that the decomposition comprises a singular value decomposition. 15. Memória caracterizada por compreender instruções armazenadas na mesma que, quando executadas, fazem com que um ou mais processadores realizem um método conforme definido em qualquer uma das reivindicações 1 a 3, 10 ou 11.15. Memory characterized by comprising instructions stored therein which, when executed, cause one or more processors to perform a method as defined in any one of claims 1 to 3, 10 or 11.
BR112015030103-7A 2013-05-29 2014-05-29 COMPRESSION OF SOUND FIELD DECOMPOSED REPRESENTATIONS BR112015030103B1 (en)

Applications Claiming Priority (39)

Application Number Priority Date Filing Date Title
US201361828615P 2013-05-29 2013-05-29
US201361828445P 2013-05-29 2013-05-29
US61/828,615 2013-05-29
US61/828,445 2013-05-29
US201361829182P 2013-05-30 2013-05-30
US201361829155P 2013-05-30 2013-05-30
US201361829174P 2013-05-30 2013-05-30
US61/829,155 2013-05-30
US61/829,182 2013-05-30
US61/829,174 2013-05-30
US201361829791P 2013-05-31 2013-05-31
US201361829846P 2013-05-31 2013-05-31
US61/829,791 2013-05-31
US61/829,846 2013-05-31
US201361886617P 2013-10-03 2013-10-03
US201361886605P 2013-10-03 2013-10-03
US61/886,617 2013-10-03
US61/886,605 2013-10-03
US201361899034P 2013-11-01 2013-11-01
US201361889041P 2013-11-01 2013-11-01
US61/899,034 2013-11-01
US61/889,041 2013-11-01
US201461925158P 2014-01-08 2014-01-08
US201461925112P 2014-01-08 2014-01-08
US201461925126P 2014-01-08 2014-01-08
US201461925074P 2014-01-08 2014-01-08
US61/925,074 2014-01-08
US61/925,126 2014-01-08
US61/925,112 2014-01-08
US61/925,158 2014-01-08
US201461933706P 2014-01-30 2014-01-30
US201461933721P 2014-01-30 2014-01-30
US61/933,706 2014-01-30
US61/933,721 2014-01-30
US201462003515P 2014-05-27 2014-05-27
US62/003,515 2014-05-27
US14/289,522 US11146903B2 (en) 2013-05-29 2014-05-28 Compression of decomposed representations of a sound field
US14/289,522 2014-05-28
PCT/US2014/040048 WO2014194110A1 (en) 2013-05-29 2014-05-29 Compression of decomposed representations of a sound field

Publications (2)

Publication Number Publication Date
BR112015030103A2 BR112015030103A2 (en) 2020-07-14
BR112015030103B1 true BR112015030103B1 (en) 2021-12-28

Family

ID=55288976

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015030103-7A BR112015030103B1 (en) 2013-05-29 2014-05-29 COMPRESSION OF SOUND FIELD DECOMPOSED REPRESENTATIONS

Country Status (2)

Country Link
CN (1) CN105340008B (en)
BR (1) BR112015030103B1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10972851B2 (en) * 2017-10-05 2021-04-06 Qualcomm Incorporated Spatial relation coding of higher order ambisonic coefficients
SG11202105719RA (en) 2018-12-07 2021-06-29 Fraunhofer Ges Forschung Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators
CN115376530A (en) * 2021-05-17 2022-11-22 华为技术有限公司 Three-dimensional audio signal coding method, device and coder

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101890229B1 (en) * 2010-03-26 2018-08-21 돌비 인터네셔널 에이비 Method and device for decoding an audio soundfield representation for audio playback
NZ587483A (en) * 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
CN101977349A (en) * 2010-09-29 2011-02-16 华南理工大学 Decoding optimizing and improving method of Ambisonic voice repeating system
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation

Also Published As

Publication number Publication date
BR112015030103A2 (en) 2020-07-14
CN105340008B (en) 2019-06-14
CN105340008A (en) 2016-02-17

Similar Documents

Publication Publication Date Title
US11962990B2 (en) Reordering of foreground audio objects in the ambisonics domain
US20150127354A1 (en) Near field compensation for decomposed representations of a sound field
BR112015030103B1 (en) COMPRESSION OF SOUND FIELD DECOMPOSED REPRESENTATIONS

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 29/05/2014, OBSERVADAS AS CONDICOES LEGAIS.