BR112015030102B1 - Compressão de representações decompostas de campo sonoro - Google Patents

Compressão de representações decompostas de campo sonoro Download PDF

Info

Publication number
BR112015030102B1
BR112015030102B1 BR112015030102-9A BR112015030102A BR112015030102B1 BR 112015030102 B1 BR112015030102 B1 BR 112015030102B1 BR 112015030102 A BR112015030102 A BR 112015030102A BR 112015030102 B1 BR112015030102 B1 BR 112015030102B1
Authority
BR
Brazil
Prior art keywords
vectors
coefficients
audio
matrix
spherical harmonic
Prior art date
Application number
BR112015030102-9A
Other languages
English (en)
Other versions
BR112015030102A2 (pt
Inventor
Nils Günther Peters
Dipanjan Sen
Original Assignee
Qualcomm Incorporated
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Incorporated filed Critical Qualcomm Incorporated
Publication of BR112015030102A2 publication Critical patent/BR112015030102A2/pt
Publication of BR112015030102B1 publication Critical patent/BR112015030102B1/pt

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/021Aspects relating to docking-station type assemblies to obtain an acoustical effect, e.g. the type of connection to external loudspeakers or housings, frequency improvement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)

Abstract

COMPRESSÃO DE REPRESENTAÇÕES DECOMPOSTAS DE CAMPO SONORO. Trata-se, em geral, de técnicas para obter versões decompostas de coeficientes harmônicos esféricos. Em conformidade com essas técnicas, um dispositivo que compreende um ou mais processadores pode ser configurado para determinar um primeiro conjunto diferente de zero de coeficientes de um vetor que representa um componente distinto de um campo sonoro, sendo que o vetor foi decomposto a partir de pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.

Description

[0001] Este pedido reivindica o benefício do Pedido Provisório n° U.S. 61/828.445 depositado em 29 de maio de 2013, Pedido Provisório n° U.S. 61/829.791 depositado em 31 de maio de 2013, Pedido Provisório n° U.S. 61/899.034 depositado em 01 de novembro de 2013, Pedido Provisório n° U.S. 61/899.041 depositado em 01 de novembro de 2013, Pedido Provisório n° U.S. 61/829.182 depositado em 30 de maio de 2013, Pedido Provisório n° U.S. 61/829.174 depositado em 30 de maio de 2013, Pedido Provisório n° U.S. 61/829.155 depositado em 30 de maio de 2013, Pedido Provisório n° U.S. 61/933.706 depositado em 30 de janeiro de 2014, Pedido Provisório n° U.S. 61/829.846 depositado em 31 de maio de 2013, Pedido Provisório n° U.S. 61/886.605 depositado em 03 de outubro de 2013, Pedido Provisório n° U.S. 61/886.617 depositado em 03 de outubro de 2013, Pedido Provisório n° U.S. 61/925.158 depositado em 08 de janeiro de 2014, Pedido Provisório n° U.S. 61/933.721 depositado em 30 de janeiro de 2014, Pedido Provisório n° U.S. 61/925.074 depositado em 08 de janeiro de 2014, Pedido Provisório n° U.S. 61/925.112 depositado em 08 de janeiro de 2014, Pedido Provisório n° U.S. 61/925.126 depositado em 08 de janeiro de 2014 e Pedido Provisório n° U.S. 62/003.515 depositado em 27 de maio de 2014 e Pedido Provisório n° U.S. 61/828.615 depositado em 29 de maio de 2013, cujo conteúdo completo de cada um é incorporado no presente documento a título de referência.
CAMPO DA TÉCNICA
[0002] Esta revelação refere-se a dados de áudio e, mais especificamente, a compressão de dados de áudio.
ANTECEDENTES
[0003] Um sinal de ambissônicos de ordem superior (HOA) (frequentemente representado por uma pluralidade de coeficientes harmônicos esféricos (SHC) ou outros elementos hierárquicos) é uma representação tridimensional de um campo sonoro. Essa representação de HOA ou SHC pode representar esse campo sonoro de uma maneira que é independente da geometria de alto-falante usada para reproduzir um sinal de áudio de multicanal renderizado a partir desse sinal de SHC. Esse sinal de SHC também pode facilitar a compatibilidade com versões anteriores à medida que esse sinal de SHC pode ser renderizado para formatos de multicanal bem conhecidos e altamente adotados, como um formato de canal de áudio 5.1 ou um formato de canal de áudio 7.1. A representação de SHC pode habilitar, portanto, uma representação melhor de um campo sonoro que também acomoda a compatibilidade com versões anteriores.
SUMÁRIO
[0004] Em geral, as técnicas são descritas para a compressão e descompressão de dados de áudio ambissônicos de ordem superior.
[0005] Em um aspecto, um método compreende obter um ou mais primeiros vetores que descrevem componentes distintos do campo sonoro e um ou mais segundos vetores que descrevem os componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos desempenhando-se uma transformação em relação à pluralidade de coeficientes harmônicos esféricos.
[0006] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para determinar um ou mais primeiros vetores que descrevem componentes distintos do campo sonoro e um ou mais segundos vetores que descrevem componentes de segundo plano do campo sonoro, sendo que tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos realizando-se uma transformação em relação à pluralidade de coeficientes harmônicos esféricos.
[0007] Em outro aspecto, um dispositivo compreende meios para obter um ou mais primeiros vetores que descrevem componentes distintos do campo sonoro e um ou mais segundos vetores que descrevem componentes de segundo plano do campo sonoro, sendo que tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos realizando-se uma transformação em relação à pluralidade de coeficientes harmônicos esféricos, e meios para armazenar os um ou mais primeiros vetores.
[0008] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que os um ou mais processadores obtenham um ou mais primeiros vetores que descrevem componentes distintos do campo sonoro e um ou mais segundos vetores que descrevem os componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos desempenhando-se uma transformação em relação à pluralidade de coeficientes harmônicos esféricos.
[0009] Em outro aspecto, um método compreende selecionar um dentre uma pluralidade de esquemas de descompressão baseada na indicação de se uma versão comprimida de coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético, e descomprimir a versão comprimida dos coeficientes harmônicos esféricos usando aquele esquema selecionado da pluralidade de esquemas de descompressão.
[0010] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para selecionar um dentre uma pluralidade de esquemas de descompressão baseada na indicação de se uma versão comprimida de coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético, e descomprimir a versão comprimida dos coeficientes harmônicos esféricos com o uso aquele esquema selecionado da pluralidade de esquemas de descompressão.
[0011] Em outro aspecto, um dispositivo compreende meios para selecionar um dentre uma pluralidade de esquemas de descompressão baseada na indicação de se uma versão comprimida de coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético, e meios para descomprimir a versão comprimida dos coeficientes harmônicos esféricos com o uso aquele esquema selecionado da pluralidade de esquemas de descompressão.
[0012] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado nele instruções que, quando executadas, fazem com que um ou mais processadores de um dispositivo de decodificação integrado para selecionar um dentre uma pluralidade de esquemas de descompressão baseada na indicação de se uma versão comprimida de coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético, e descomprimir a versão comprimida dos coeficientes harmônicos esféricos com o uso aquele esquema selecionado da pluralidade de esquemas de descompressão.
[0013] Em outro aspecto, um método compreende obter uma indicação de se os coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético.
[0014] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para obter uma indicação de se os coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético.
[0015] Em outro aspecto, um dispositivo compreende meios para armazenar coeficientes harmônicos esféricos representativos de um campo sonoro, e meios para obter uma indicação de se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético.
[0016] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores obtenham uma indicação de se os coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético.
[0017] Em outro aspecto, um método compreende quantizar um ou mais primeiros vetores representativos de um ou mais componentes de um campo sonoro, e compensar o erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que também são representativos dos mesmos um ou mais componentes do campo sonoro.
[0018] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para quantizar um ou mais primeiros vetores representativos de um ou mais componentes de um campo sonoro, e compensar erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que também são representativos dos mesmos um ou mais componentes do campo sonoro.
[0019] Em outro aspecto, um dispositivo compreende meios para quantizar um ou mais primeiros vetores representativos de um ou mais componentes de um campo sonoro e meios para compensar o erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que também são representativos dos mesmos um ou mais componentes do campo sonoro.
[0020] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores quantizem um ou mais primeiros vetores representativos de um ou mais componentes de um campo sonoro, e compensem erros introduzidos devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que também são representativos dos mesmos um ou mais componentes do campo sonoro.
[0021] Em outro aspecto, um método compreende realizar, com base em uma taxa de bit alvo, a redução de ordem em relação a uma pluralidade de coeficientes harmônicos esféricos ou decomposições dos mesmos para gerar coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos, em que a pluralidade de coeficientes harmônicos esféricos representa um campo sonoro.
[0022] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para realizar, com base em uma taxa de bit alvo, a redução de ordem em relação a uma pluralidade de coeficientes harmônicos esféricos ou decomposições dos mesmos para gerar coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos, em que a pluralidade de coeficientes harmônicos esféricos representa um campo sonoro.
[0023] Em outro aspecto, um dispositivo compreende meios para armazenar uma pluralidade de coeficientes harmônicos esféricos ou decomposições dos mesmos, e meios para realizar, com base em uma taxa de bit alvo, a redução de ordem em relação à pluralidade de coeficientes harmônicos esféricos ou as decomposições dos mesmos para gerar coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos, em que a pluralidade de coeficientes harmônicos esféricos representa um campo sonoro.
[0024] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores para realizar, com base em uma taxa de bit alvo, a redução de ordem em relação a uma pluralidade de coeficientes harmônicos esféricos ou decomposições dos mesmos para gerar coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos, em que a pluralidade de coeficientes harmônicos esféricos representa um campo sonoro.
[0025] Em outro aspecto, um método compreende obter um primeiro conjunto diferente de zero de coeficientes de um vetor que representa um componente distinto do campo sonoro, sendo que o vetor foi decomposto a partir de uma pluralidade de coeficientes harmônicos esféricos que descrevem um campo sonoro.
[0026] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para obter um primeiro conjunto diferente de zero de coeficientes de um vetor que representa um componente distinto de um campo sonoro, sendo que o vetor foi decomposto a partir de uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.
[0027] Em outro aspecto, um dispositivo compreende meios para obter um primeiro conjunto diferente de zero de coeficientes de um vetor que representa um componente distinto de um campo sonoro, sendo que o vetor foi decomposto a partir de uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro e meios para armazenar o primeiro conjunto diferente de zero de coeficientes.
[0028] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores para determinar um primeiro conjunto diferente de zero de coeficientes de um vetor que representa um componente distinto de um campo sonoro, sendo que o vetor foi decomposto a partir de uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.
[0029] Em outro aspecto, um método compreende obter, a partir de um fluxo de bits, pelo menos um dentre um ou mais vetores decompostos a partir dos coeficientes harmônicos esféricos que foram recombinados com coeficientes harmônicos esféricos de segundo plano, em que os coeficientes harmônicos esféricos descrevem um campo sonoro, e em que os coeficientes harmônicos esféricos de segundo plano descreveram um ou mais componentes de segundo plano do mesmo campo sonoro.
[0030] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para determinar, a partir de um fluxo de bits, pelo menos um dentre um ou mais vetores decompostos a partir dos coeficientes harmônicos esféricos que foram recombinados com coeficientes harmônicos esféricos de segundo plano, em que os coeficientes harmônicos esféricos descrevem um campo sonoro, e em que os coeficientes harmônicos esféricos de segundo plano descreveram um ou mais componentes de segundo plano do mesmo campo sonoro.
[0031] Em outro aspecto, um dispositivo compreende meios para obter, a partir de um fluxo de bits, pelo menos um dentre um ou mais vetores decompostos a partir dos coeficientes harmônicos esféricos que foram recombinados com coeficientes harmônicos esféricos de segundo plano, em que os coeficientes harmônicos esféricos descrevem um campo sonoro, e em que os coeficientes harmônicos esféricos de segundo plano descreveram um ou mais componentes de segundo plano do mesmo campo sonoro.
[0032] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores obtenham, a partir de um fluxo de bits, pelo menos um dentre um ou mais vetores decompostos a partir dos coeficientes harmônicos esféricos que foram recombinados com coeficientes harmônicos esféricos de segundo plano, em que os coeficientes harmônicos esféricos descrevem um campo sonoro, e em que os coeficientes harmônicos esféricos de segundo plano descreveram um ou mais componentes de segundo plano do mesmo campo sonoro.
[0033] Em outro aspecto, um método compreende identificar um ou mais objetos de áudio distintos a partir de um ou mais coeficientes harmônicos esféricos (SHC) associados aos objetos de áudio com base em uma direcionalidade determinada para um ou mais dos objetos de áudio.
[0034] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para identificar um ou mais objetos de áudio distintos a partir de um ou mais coeficientes harmônicos esféricos (SHC) associados aos objetos de áudio com base em uma direcionalidade determinada para um ou mais dos objetos de áudio.
[0035] Em outro aspecto, um dispositivo compreende meios para armazenar um ou mais coeficientes harmônicos esféricos (SHC) e meios para identificar um ou mais objetos de áudio distintos a partir do um ou mais coeficientes harmônicos esféricos (SHC) associados aos objetos de áudio com base em uma direcionalidade determinada para um ou mais dos objetos de áudio.
[0036] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores identifiquem um ou mais objetos de áudio distintos a partir de um ou mais coeficientes harmônicos esféricos (SHC) associados aos objetos de áudio com base em uma direcionalidade determinada para um ou mais dos objetos de áudio.
[0037] Em outro aspecto, um método compreende desempenhar uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos para gerar representações decompostas da pluralidade de coeficientes harmônicos esféricos representativos de um ou mais objetos de áudio e que correspondem informações direcionais, em que os coeficientes harmônicos esféricos são associados a uma ordem e descrevem um campo sonoro, determinar informações direcionais distintas e em segundo plano a partir das informações direcionais, reduzir uma ordem das informações direcionais associadas aos objetos de áudio de segundo plano para gerar informações direcionais de segundo plano transformadas, aplicar compensação para aumentar valores das informações direcionais transformadas para preservar uma energia geral do campo sonoro.
[0038] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para realizar uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos para gerar representações decompostas da pluralidade de coeficientes harmônicos esféricos representativos de um ou mais objetos de áudio e que correspondem informações direcionais, em que os coeficientes harmônicos esféricos são associados a uma ordem e descrevem um campo sonoro, determinar informações direcionais distintas e em segundo plano a partir das informações direcionais, reduzir uma ordem das informações direcionais associadas aos objetos de áudio de segundo plano para gerar informações direcionais de segundo plano transformadas, aplicar compensação para aumentar valores das informações direcionais transformadas para preservar uma energia geral do campo sonoro.
[0039] Em outro aspecto, um dispositivo compreende meios para desempenhar uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos para gerar representações decompostas da pluralidade de coeficientes harmônicos esféricos representativos de um ou mais objetos de áudio e que correspondem informações direcionais, em que os coeficientes harmônicos esféricos são associados a uma ordem e descrevem um campo sonoro, meios para determinar informações direcionais distintas e em segundo plano a partir das informações direcionais, meios para reduzir uma ordem das informações direcionais associadas aos objetos de áudio de segundo plano para gerar informações direcionais de segundo plano transformadas e meios para aplicar compensação para aumentar valores das informações direcionais transformadas para preservar uma energia geral do campo sonoro.
[0040] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores realizem uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos para gerar representações decompostas da pluralidade de coeficientes harmônicos esféricos representativos de um ou mais objetos de áudio e informações direcionais correspondentes, em que os coeficientes harmônicos esféricos são associados a uma ordem e descrevem um campo sonoro, determinem informações direcionais distintas e de segundo plano a partir das informações direcionais, reduzem uma ordem das informações direcionais associadas aos objetos de áudio de segundo plano para gerar informações direcionais de segundo plano transformadas, e aplicam compensação para aumentar os valores das informações direcionais transformadas para preservar uma energia geral do campo sonoro.
[0041] Em outro aspecto, um método compreende obter coeficientes harmônicos esféricos interpolados decompostos por um segmento de tempo, pelo menos em parte, desempenhando-se uma interpolação em relação a uma primeira decomposição de uma primeira pluralidade de coeficientes harmônicos esféricos e uma segunda decomposição de uma segunda pluralidade de coeficientes harmônicos esféricos.
[0042] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para obter coeficientes harmônicos esféricos interpolados decompostos por um segmento de tempo, pelo menos em parte, desempenhando-se uma interpolação em relação a uma primeira decomposição de uma primeira pluralidade de coeficientes harmônicos esféricos e uma segunda decomposição de uma segunda pluralidade de coeficientes harmônicos esféricos.
[0043] Em outro aspecto, um dispositivo compreende meios para armazenar uma primeira de coeficientes harmônicos esféricos e uma segunda pluralidade de coeficientes harmônicos esféricos e meios para obter coeficientes harmônicos esféricos interpolados decompostos por um segmento de tempo, pelo menos em parte, desempenhando-se uma interpolação em relação a uma primeira decomposição da primeira pluralidade de coeficientes harmônicos esféricos e a segunda decomposição de uma segunda pluralidade de coeficientes harmônicos esféricos.
[0044] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que compreende um ou mais processadores obtenham coeficientes harmônicos esféricos interpolados decompostos por um segmento de tempo, pelo menos em parte, desempenhando-se uma interpolação em relação a uma primeira decomposição de uma primeira pluralidade de coeficientes harmônicos esféricos e uma segunda decomposição de uma segunda pluralidade de coeficientes harmônicos esféricos.
[0045] Em outro aspecto, um método compreende obter um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0046] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para obter um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0047] Em outro aspecto, um dispositivo compreende meios para obter um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos e meios para armazenar o fluxo de bits.
[0048] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores obtenham um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0049] Em outro aspecto, um método compreende gerar um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0050] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para gerar um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0051] Em outro aspecto, um dispositivo compreende meios para gerar um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos e meios para armazenar o fluxo de bits.
[0052] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem instruções que, quando executadas, fazem com que um ou mais processadores gerem um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0053] Em outro aspecto, um método compreende identificar um livro de códigos de Huffman para usar quando descomprimir uma versão comprimida de um componente espacial de uma pluralidade de componentes espaciais comprimidos com base em uma ordem da versão comprimida do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais comprimidos, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0054] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para identificar um livro de códigos de Huffman para usar quando descomprimir uma versão comprimida de um componente espacial de uma pluralidade de componentes espaciais comprimidos com base em uma ordem da versão comprimida do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais comprimidos, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0055] Em outro aspecto, um dispositivo compreende meios para identificar um livro de códigos de Huffman para usar quando descomprimir uma versão comprimida de um componente espacial de uma pluralidade de componentes espaciais comprimidos com base em uma ordem da versão comprimida do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais comprimidos, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos, e meios para encadear a pluralidade de componentes espaciais comprimidos.
[0056] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores identifiquem um livro de códigos de Huffman para usar quando se descomprime um componente espacial de uma pluralidade de componentes espaciais com base em uma ordem do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0057] Em outro aspecto, um método compreende identificar um livro de códigos de Huffman para usar quando se comprime um componente espacial de uma pluralidade de componentes espaciais com base em uma ordem do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais, os componentes espaciais gerados desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0058] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para identificar um livro de códigos de Huffman para usar quando se comprime um componente espacial de uma pluralidade de componentes espaciais com base em uma ordem do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais, os componentes espaciais gerados desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0059] Em outro aspecto, um dispositivo compreende meios para armazenar um livro de códigos de Huffman, e meios para identificar o livro de códigos de Huffman para usar quando se comprime um componente espacial de uma pluralidade de componentes espaciais com base em uma ordem do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais, os componentes espacial gerados desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0060] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores identifiquem um livro de códigos de Huffman para usar quando se comprime um componente espacial de uma pluralidade de componentes espaciais com base em uma ordem do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0061] Em outro aspecto, um método compreende determinar um tamanho de etapa de quantização para ser usado quando se comprime um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0062] Em outro aspecto, um dispositivo compreende um ou mais processadores configurados para determinar um tamanho de etapa de quantização para ser usado quando se comprime um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0063] Em outro aspecto, um dispositivo compreende meios para determinar um tamanho de etapa de quantização para ser usado quando se comprime um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos, e meios para armazenar o tamanho de etapa de quantização.
[0064] Em outro aspecto, um meio de armazenamento legível por computador não transitório tem armazenado no mesmo, instruções que, quando executadas, fazem com que um ou mais processadores determinam um tamanho de etapa de quantização a ser usada quando se comprime um componente espacial de um campo sonoro, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0065] Os detalhes da um ou mais aspectos das técnicas são estabelecidos nos desenhos anexos e na descrição abaixo. Outros recursos, objetos e vantagens dessas técnicas serão evidentes a partir da descrição e dos desenhos, e a partir das reivindicações.
BREVE DESCRIÇÃO DOS DESENHOS
[0066] As Figuras 1 e 2 são diagramas que ilustram funções de base harmônica esférica de várias ordens e subordens.
[0067] A Figura 3 é um diagrama que ilustra um sistema que pode realizar vários aspectos das técnicas descritas nesta revelação.
[0068] A Figura 4 é um diagrama de blocos que ilustra, em mais detalhes, um exemplo do dispositivo de codificação de áudio mostrado no exemplo da Figura 3 que pode realizar vários aspectos das técnicas descritas nesta revelação.
[0069] A Figura 5 é um diagrama de blocos que ilustra o dispositivo de decodificação de áudio da Figura 3 em mais detalhes.
[0070] A Figura 6 é um fluxograma que ilustra a operação exemplificativa de uma unidade de análise de conteúdo de um dispositivo de codificação de áudio no desempenho de vários aspectos das técnicas descritas nesta revelação.
[0071] A Figura 7 é um fluxograma que ilustra a operação exemplificativa de um dispositivo de codificação de áudio no desempenho de vários aspectos das técnicas de síntese com base em vetor descritas nesta revelação.
[0072] A Figura 8 é um fluxograma que ilustra a operação exemplificativa de um dispositivo de decodificação de áudio no desempenho de vários aspectos das técnicas descritas nesta revelação.
[0073] As Figuras 9A a 9L são diagramas de bloco que ilustram vários aspectos do dispositivo de codificação de áudio do exemplo da Figura 4 em mais detalhes.
[0074] As Figuras 10A a 10O(ii) são diagramas que ilustram uma porção do fluxo de bits ou informações de canal auxiliar que podem especificar os componentes espaciais comprimidos em mais detalhes.
[0075] As Figuras 1lA a 11G são diagramas de blocos que ilustram, em mais detalhes, várias unidades do dispositivo de decodificação de áudio mostrado no exemplo da Figura 5.
[0076] A Figura 12 é um diagrama que ilustra um ecossistema de áudio exemplificativo que pode realizar vários aspectos das técnicas descritas nesta revelação.
[0077] A Figura 13 é um diagrama que ilustra um exemplo do ecossistema de áudio da Figura 12 em mais detalhes.
[0078] A Figura 14 é um diagrama que ilustra um exemplo do ecossistema de áudio da Figura 12 em mais detalhes.
[0079] As Figuras 15A e 15B são diagramas que ilustram outros exemplos do ecossistema de áudio da Figura 12 em mais detalhes.
[0080] A Figura 16 é um diagrama que ilustra um dispositivo de codificação de áudio exemplificativo que pode realizar vários aspectos das técnicas descritas nesta revelação.
[0081] A Figura 17 é um diagrama que ilustra um exemplo do dispositivo de codificação de áudio da Figura 16 em mais detalhes.
[0082] A Figura 18 é um diagrama que ilustra um dispositivo de decodificação de áudio exemplificativo que pode realizar vários aspectos das técnicas descritas nesta revelação.
[0083] A Figura 19 é um diagrama que ilustra um exemplo do dispositivo de decodificação de áudio da Figura 18 em mais detalhes.
[0084] As Figuras 20A a 20G são diagramas que ilustram dispositivos de aquisição de áudio exemplificativos que podem realizar vários aspectos das técnicas descritas nesta revelação.
[0085] As Figuras 21A a 21G são diagramas que ilustram dispositivos de reprodução de áudio exemplificativos que podem realizar vários aspectos das técnicas descritas nesta revelação.
[0086] As Figuras 22A a 22H são diagramas que ilustram ambientes de reprodução de áudio exemplificativos de acordo com uma ou mais técnicas descritas nesta revelação.
[0087] A Figura 23 é um diagrama que ilustra um caso de uso exemplificativo em que um usuário pode experimentar um campo sonoro em 3D de um jogo de esporte enquanto usa fones de ouvido de acordo com uma ou mais técnicas descritas nesta revelação.
[0088] A Figura 24 é um diagrama que ilustra um estádio de esportes em que um campo sonoro em 3D pode ser gravado de acordo com uma ou mais técnicas descritas nesta revelação.
[0089] A Figura 25 é um diagrama de fluxo que ilustra uma técnica para renderizar um campo sonoro em 3D com base em uma paisagem de áudio local de acordo com uma ou mais técnicas descritas nesta revelação.
[0090] A Figura 26 é um diagrama que ilustra um estúdio de jogos exemplificativo de acordo com uma ou mais técnicas descritas nesta revelação.
[0091] A Figura 27 é um diagrama que ilustra uma pluralidade de sistemas de jogo que inclui renderizar mecanismos de acordo com uma ou mais técnicas descritas nesta revelação.
[0092] A Figura 28 é um diagrama que ilustra uma configuração de alto-falante que pode ser simulada através de fones de ouvido de acordo com uma ou mais técnicas descritas nesta revelação.
[0093] A Figura 29 é um diagrama que ilustra uma pluralidade de dispositivos móveis que podem ser usados para adquirir e/ou editar um campo sonoro em 3D de acordo com uma ou mais técnicas descritas nesta revelação.
[0094] A Figura 30 é um diagrama que ilustra um quadro de vídeo associado a um campo sonoro em 3D que pode ser processado de acordo com uma ou mais técnicas descritas nesta revelação.
[0095] As Figuras 31A a 31M são diagramas que ilustram gráficos que mostram vários resultados de simulação de desempenhar a categorização sintética ou gravada do campo sonoro de acordo com vários aspectos das técnicas descritas nesta revelação.
[0096] A Figura 32 é um diagrama que ilustra um gráfico de valores únicos a partir de uma matriz S decomposta a partir de coeficientes ambisonic de ordem superior de acordo com as técnicas descritas nesta revelação.
[0097] As Figuras 33A e 33B são diagramas que ilustram os respectivos gráficos que mostram um impacto potencial que a reordenação tem quando codifica os vetores que descrevem componentes de primeiro plano do campo sonoro de acordo com as técnicas descritas nesta revelação.
[0098] As Figuras 34 e 35 são diagramas conceituais que ilustram diferenças entre identificação somente com base em energia e com base em direcionalidade de objetos de áudio distintos, de acordo com esta revelação.
[0099] As Figuras 36A a 36G são diagramas que ilustram projeções de pelo menos uma porção da versão decomposta de coeficientes harmônicos esféricos para o domínio espacial de modo a desempenhar a interpolação de acordo com vários aspectos das técnicas descritas nesta revelação.
[0100] A Figura 37 ilustra uma representação de técnicas para obter uma interpolação espaço-temporal conforme descrito no presente documento.
[0101] A Figura 38 é um diagrama de blocos que ilustra matrizes U.S. artificiais, USi e US2, para blocos de SVD sequenciais para um sinal multidimensional de acordo com técnicas descritas no presente documento.
[0102] A Figura 39 é um diagrama de blocos que ilustra a decomposição de quadros subsequentes de um sinal de ambisonics de ordem superior (HOA) com o uso de Decomposição de Valor Único e suavização dos componentes espaço-temporais de acordo com as técnicas descritas nesta revelação.
[0103] As Figuras 40A a 40J são, cada uma, um diagrama de blocos que ilustra os dispositivos de codificação de áudio que podem realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descrevem campos sonoros bi ou tridimensionais.
[0104] A Figura 41A a 41D são diagramas de blocos que ilustram, cada um, um dispositivo de decodificação de áudio exemplificativo que pode realizar vários aspectos das técnicas descritas nesta revelação para decodificar coeficientes harmônicos esféricos que descrevem campos sonoros bi ou tridimensionais.
[0105] As Figuras 42A a 42C são, cada uma, diagramas de blocos que ilustram a unidade de redução de ordem mostrada nos exemplos das Figuras 40B a 40J em mais detalhes.
[0106] A Figura 43 é um diagrama que ilustra a unidade de compressão V mostrada na Figura 401 em mais detalhes.
[0107] A Figura 44 é um diagrama que ilustra operações exemplificativas realizadas pelo dispositivo de codificação de áudio para compensar o erro de quantização de acordo com vários aspectos das técnicas descritas nesta revelação.
[0108] As Figuras 45A e 45B são diagramas que ilustram a interpolação de subquadros a partir de porções de dois quadros de acordo com vários aspectos das técnicas descritas nesta revelação.
[0109] As Figuras 46A a 46E são diagramas que ilustram um corte transversal de uma projeção de um ou mais vetores de uma versão decomposta de uma pluralidade de coeficientes harmônicos esféricos que foram interpolados de acordo com as técnicas descritas nesta revelação.
[0110] A Figura 47 é um diagrama de blocos que ilustra, em mais detalhes, a unidade de extração dos dispositivos de decodificação de áudio mostrados nos exemplos das Figuras 41A a 41D.
[0111] A Figura 48 é um diagrama de blocos que ilustra a unidade de renderização de áudio do dispositivo de decodificação de áudio mostrado nos exemplos das Figuras 41A a 41D em mais detalhes.
[0112] As Figuras 49A a 49E(ii) são diagramas que ilustram os respectivos sistemas de codificação de áudio que podem implantar vários aspectos das técnicas descritas nesta revelação.
[0113] As Figuras 50A e 50B são diagramas de blocos que ilustram, cada uma, uma das duas abordagens diferentes para reduzir potencialmente a ordem do conteúdo de segundo plano de acordo com as técnicas descritas nesta revelação. ilustra os exemplos de um caminho de compressão de componente distinto de um dispositivo de codificação de áudio que pode implantar vários aspectos das técnicas descritas nesta revelação para comprimir os coeficientes harmônicos esféricos.
[0114] A Figura 51 é um diagrama de blocos que ilustra os exemplos de um caminho de compressão de componente distinto de um dispositivo de codificação de áudio que pode implantar vários aspectos das técnicas descritas nesta revelação para comprimir os coeficientes harmônicos esféricos.
[0115] As Figuras 52 são um diagrama de blocos que ilustra outro exemplo de um dispositivo de decodificação de áudio que pode implantar vários aspectos das técnicas descritas nesta revelação para reconstruir ou praticamente reconstruir coeficientes harmônicos esféricos (SHC).
[0116] A Figura 53 é um diagrama de bloco que ilustra um outro exemplo de um dispositivo de codificação de áudio que pode realizar vários aspectos das técnicas descritas nesta revelação.
[0117] A Figura 54 é um diagrama de blocos que ilustra, em mais detalhes, uma implantação exemplificativa do dispositivo de codificação de áudio mostrado no exemplo da Figura 53.
[0118] As Figuras 55A e 55B são diagramas que ilustram um exemplo de realizar vários aspectos das técnicas descritas nesta revelação para girar um campo sonoro.
[0119] A Figura 56 é um diagrama que ilustra um campo sonoro exemplificativo capturado de acordo com um primeiro quadro de referência que é, então, girado de acordo com as técnicas descritas nesta revelação para expressar o campo sonoro em termos de um segundo quadro de referência.
[0120] As Figuras 57A a 57E são, cada uma, um diagrama que ilustra fluxos de bits formados de acordo com as técnicas descritas nesta revelação.
[0121] A Figura 58 é um fluxograma que ilustra a operação exemplificativa do dispositivo de codificação de áudio mostrado no exemplo da Figura 53 na implantação dos aspectos de rotação das técnicas descritas nesta revelação.
[0122] A Figura 59 é um fluxograma que ilustra a operação exemplificativa do dispositivo de codificação de áudio mostrado no exemplo da Figura 53 na realização dos aspectos de transformação das técnicas descritas nesta revelação.
DESCRIÇÃO DETALHADA
[0123] A evolução do som surround disponibilizou muitos formatos de saída para o entretenimento hoje em dia. Os exemplos de tais formatos de som surround do consumidor são, principalmente, "canal" com base no fato de que os mesmos especificam implicitamente alimentações para os alto-falantes em determinadas coordenadas geométricas. Esses incluem o formato popular 5.1 (que inclui os seis canais a seguir: esquerda frontal (FL), direita frontal (FR), centro ou centro frontal, esquerda posterior ou esquerda surround, direita posterior ou direita surround, e efeitos de baixa frequência (LFE)), o crescente formato 7.1, vários formatos que incluem alto falantes de altura como o formato 7.1.4 e o formato 22.2 (por exemplo, para uso com o padrão de Televisão de Definição Ultra Alta). Os formatos para não consumidor podem abranger qualquer quantidade de alto-falantes (em geometrias simétricas e não simétricas) frequentemente designados "arranjos surround". Um exemplo de tal arranjo inclui 32 alto-falantes posicionados em coordenadas dos cantos de um icosaedro truncado.
[0124] A entrada em um codificador de MPEG futuro é opcionalmente um dos três formatos possíveis: (i) áudio com base em canal tradicional (conforme discutido acima), que é destinado a ser reproduzido através de alto- falantes em posições pré-especificadas; (ii) áudio com base em objeto, que envolve dados de modulação de código de pulso discreto (PCM) para únicos objetos de áudio com metadados associados que contêm suas coordenadas de local (dentre outras informações); e (iii) áudio com base em cena, que envolve representar o campo sonoro com uso de coeficientes de funções de base harmônica esférica (também chamados de “coeficientes harmônicos esféricos” ou SHC, “ambisonics de ordem superior” ou HOA, e “coeficientes de HOA”). Esse codificador de MPEG futuro pode ser descrito em mais detalhes em um documento intitulado “Call for Proposals for 3D Audio”, pela Organização Internacional para Padronização/Comissão Internacional de Eletrotécnica (ISO)/(IEC) JTC1/SC29/WG11/N13411, liberado em janeiro de 2013 em Genebra, Suíça, e disponível em http://mpeg.chiariglione.org/sites/default/files/files/stan dards/parts/docs/w13411.zip
[0125] Há vários formatos com base em canal de "som surround" no mercado. Eles variam, por exemplo, de sistema de home theatre 5.1 (que foi o mais bem-sucedido em termos de fazer avanços nas salas de estar além do estéreo) ao sistema 22.2 desenvolvido por NHK (Nippon Hoso Kyokai ou Japan Broadcasting Corporation). Os criadores de conteúdo (por exemplo, estúdios de Hollywood) gostariam de produzir a trilha sonora para um filme uma vez e sem gastar esforços para remixar a mesma para cada configuração de alto- falante. Recentemente, as Organizações de Desenvolvimento de Padrões têm considerado modos nos quais deve-se fornecer uma codificação para um fluxo de bits padronizado e uma decodificação subsequente que é adaptável e agnóstica à geometria do alto-falante (e número) e condições acústicas no local da reprodução (que envolve um renderizador).
[0126] Para fornecer tal flexibilidade para os criadores de conteúdo, um conjunto hierárquico de elementos podem ser usados para representar um campo sonoro. O conjunto hierárquico de elementos pode se referir a um conjunto de elementos em que os elementos são ordenados de tal modo que um conjunto básico de elementos ordenados inferiores fornece uma representação completa do campo sonoro modelado. Conforme o conjunto é estendido para incluir elementos de ordem superior, a representação se torna mais detalhada, aumentando a resolução.
[0127] Um exemplo de um conjunto hierárquico de elementos é um conjunto de coeficientes harmônicos esféricos (SHC). A expressão a seguir demonstra uma descrição ou representação de um campo sonoro com o uso de SHC:
Figure img0001
[0128] Essa expressão mostra que a pressão pi em qualquer ponto {rr, θr, cpr} do campo sonoro, no tempo t, pode ser representada unicamente pelo SHC, Amn(k). No presente,
Figure img0002
c a velocidade do som (-343 m/s), {rr, θr, (pr} é um ponto de referência (ou ponto de observação),jn(^) é a função de Bessel esférica da ordem n,
Figure img0003
são as funções de base harmônica esférica da ordem n e subordem m. Pode-se reconhecer que o termo em parênteses quadrados é uma representação de domínio de frequência do sinal (isto é, S(co, rr, θr, <pr)) que pode ser aproximada por várias transformações de tempo e frequência, como a transformação de Fourier discreta (DFT), a transformada de cosseno discreto (DCT) ou uma transformada de ondeleta. Outros exemplos de conjuntos hierárquicos incluem conjuntos de coeficientes de transformada de ondeleta e outros conjuntos de coeficientes de funções com base de multirresolução.
[0129] A Figura 1 é um diagrama que ilustra funções de base harmônica esférica da ordem zero (n = 0) até a quarta ordem (n = 4). Conforme pode ser visto, para cada ordem, há uma expressão de subordens m que são mostrados, mas não explicitamente notados no exemplo da Figura 1 para facilitar os fins de ilustração.
[0130] A Figura 2 é outro diagrama que ilustra funções de base harmônica esférica da ordem zero (n = 0) até a quarta ordem (n = 4). Na Figura 2, as funções de base harmônica esférica são mostradas no espaço de coordenada tridimensional tanto com a ordem quanto com a subordem mostradas.
[0131] O SHC
Figure img0004
pode ou ser fisicamente adquirido (por exemplo, gravado) através de várias configurações de arranjo de microfone ou, alternativamente, pode ser derivado de descrições com base em canal ou com base em objeto do campo sonoro. O SHC representa o áudio com base em cena, em que o SHC pode ser inserido em um codificador de áudio para obter o SHC codificado que pode promover a transmissão ou armazenamento mais eficaz. Por exemplo, uma representação de quarta ordem que envolve (1+4)2 (25, e, por isso, quarta ordem) os coeficientes podem ser usados.
[0132] Conforme notado acima, o SHC pode ser derivado de uma gravação por microfone com o uso de um microfone. Vários exemplos de como o SHC pode ser derivado dos arranjos de microfone são descritos em Poletti, M., “Three-Dimensional Surround Sound Systems Based on Spherical Harmonics”, J. Audio Eng. Soc, Volume 53, n° 11, novembro de 2005, páginas 1.004 a 1.025.
[0133] Para ilustrar como esses SHCs podem ser derivados de uma descrição com base em objeto, considere a equação a seguir. Os coeficientes
Figure img0005
para o campo sonoro que corresponde a um objeto de áudio individual podem ser expressos como:
Figure img0006
[0134] em que i é
Figure img0007
é a função de Hankel esférica (do segundo tipo) da ordem n, e {rs, θs, tps} é o local do objeto. Conhecendo a energia da fonte do objeto g(ío) como uma função da frequência (por exemplo, com o uso das técnicas de análise de tempo e frequência, como realizar uma transformação rápida de Fourier no fluxo de PCM) permite converter cada objeto de PCM e seu local para o SHC
Figure img0008
. Ademais, pode ser mostrado (uma vez que o exposto acima é uma decomposição linear e ortogonal) que os coeficientes de
Figure img0009
para cada objeto são aditivos. Dessa maneira, uma multiplicidade dos objetos de PCM podem ser . . , .... , representados pelos coeficientes de
Figure img0010
(por exemplo, como uma soma dos vetores de coeficiente para os objetos individuais). Essencialmente, esses coeficientes contêm informações sobre o campo sonoro (a pressão como uma fu não de coordenadas em 3D), e o exposto acima representa a transformação a partir de objetos individuais em uma representação do campo sonoro geral, nas redondezas do ponto de observação {rr, θr, <Pr}- As Figuras restantes são descritas abaixo no contexto da codificação de áudio com base em objeto e com base em SHC.
[0135] A Figura 3 é um diagrama que ilustra um sistema 10 que pode realizar vários aspectos das técnicas descritas nesta revelação. Conforme mostrado no exemplo da Figura 3, o sistema 10 inclui um criador de conteúdo 12 e um consumidor de conteúdo 14. Embora descrito no contexto do criador de conteúdo 12 e do consumidor de conteúdo 14, as técnicas podem ser implantadas em qualquer contexto em que os SHCs (que podem ser referidos como coeficientes de HOA) ou qualquer outra representação hierárquica de um campo sonoro são codificadas para formar um fluxo de bits representativo dos dados de áudio. Além do mais, o criador de conteúdo 12 pode representar qualquer forma de dispositivo de computação com capacidade de implantar as técnicas descritas nesta revelação, que inclui um fone (ou telefone celular), um computador do tipo tablet, um telefone inteligente ou um computador do tipo desktop para fornecer alguns exemplos. Igualmente, o consumidor de conteúdo 14 pode representar qualquer forma de dispositivo de computação com capacidade de implantar as técnicas descritas nesta revelação, que inclui um fone (ou telefone celular), um computador do tipo tablet, um telefone inteligente, um decodificador ou um computador do tipo desktop para fornecer alguns exemplos.
[0136] O criador de conteúdo 12 pode representar um estúdio de filme ou outra entidade que possa gerar conteúdo de áudio de multicanal para o consumo por consumidores de conteúdo, como o consumidor de conteúdo 14. Em alguns exemplos, o criador de conteúdo 12 pode representar um usuário individual que gostaria de comprimir os coeficientes de HOA 11. Frequentemente, esse criador de conteúdo gera conteúdo de áudio em conjunto com o conteúdo de vídeo. O consumidor de conteúdo 14 representa um indivíduo que possui ou tem acesso a um sistema de reprodução de áudio, que pode se referir a qualquer forma de sistema de reprodução de áudio com capacidade de renderizar o SHC para reproduzir como conteúdo de áudio de multicanal. No exemplo da Figura 3, o consumidor de conteúdo 14 inclui um sistema de reprodução de áudio 16.
[0137] O criador de conteúdo 12 inclui um sistema de edição de áudio 18. O criador de conteúdo 12 obtém gravações ao vivo 7 em vários formatos (inclusive diretamente como coeficientes de HOA) e objetos de áudio 9, que o criador de conteúdo 12 pode editar com o uso de sistema de edição de áudio 18. O criador de conteúdo pode, durante o processo de edição, renderizar coeficientes de HOA 11 a partir de objetos de áudio 9, ouvir às alimentações do alto-falante renderizadas em uma tentativa de identificar vários aspectos do campo sonoro que exigem edição adicional. O criador de conteúdo 12 pode, então, editar os coeficientes de HOA 11 (potencialmente de modo indireto através da manipulação de diferentes objetos dos objetos de áudio 9 a partir dos quais os coeficientes de HOA de fonte podem ser derivados da maneira descrita acima). O criador de conteúdo 12 pode empregar o sistema de edição de áudio 18 para os coeficientes de HOA 11. O sistema de edição de áudio 18 representa qualquer sistema com capacidade de editar dados de áudio e emitir esses dados de áudio como um ou mais coeficientes harmônicos esféricos de fonte.
[0138] Quando o processo de edição estiver completo, o criador de conteúdo 12 pode gerar um fluxo de bits 21 com base nos coeficientes de HOA 11. Ou seja, o criador de conteúdo 12 inclui um dispositivo de codificação de áudio 20 que representa um dispositivo configurado para codificar ou de outro modo comprimir coeficientes de HOA 11 de acordo com vários aspectos das técnicas descritas nesta revelação para gerar o fluxo de bits 21. O dispositivo de codificação de áudio 20 pode gerar o fluxo de bits 21 para a transmissão, como um exemplo, através de um canal de transmissão, que pode ser um canal com fio ou sem fio, um dispositivo de armazenamento de dados, ou semelhantes. O fluxo de bits 21 pode representar uma versão codificada dos coeficientes de HOA 11 e pode incluir um fluxo de bits primário e um outro fluxo de bits auxiliar, que pode ser referido como informações de canal auxiliar.
[0139] Embora descrito em mais detalhes abaixo, o dispositivo de codificação de áudio 20 pode ser configurado para codificar os coeficientes de HOA 11 com base em uma síntese com base em vetor ou uma síntese com base direcional. Para determinar se deve-se realizar a metodologia de síntese com base em vetor ou uma metodologia de síntese com base direcional, o dispositivo de codificação de áudio 20 pode determinar, com base pelo menos em parte nos coeficientes de HOA 11, independente do fato de os coeficientes de HOA 11 serem gerados por meio de uma gravação natural de um campo sonoro (por exemplo, gravação ao vivo 7) ou artificialmente produzido (isto é, de modo sintético) a partir, como um exemplo, de objetos de áudio 9, como um objeto de PCM. Quando os coeficientes de HOA 11 foram gerados a partir dos objetos de áudio 9, o dispositivo de codificação de áudio 20 pode codificar os coeficientes de HOA 11 com o uso da metodologia de síntese com base direcional. Quando os coeficientes de HOA 11 foram capturados ao vivo com o uso, por exemplo, de um eigenmike, o dispositivo de codificação de áudio 20 pode codificar os coeficientes de HOA 11 com base na metodologia de síntese com base em vetor. A distinção acima representa um exemplo de onde a metodologia de síntese com base em vetor ou com base direcional pode ser instalada. Pode haver outros casos em que qualquer um ou ambos podem ser úteis para gravações naturais, conteúdo artificialmente gerado ou uma mistura dos dois (conteúdo híbrido). Ademais, também é possível usar ambas as metodologias simultaneamente para codificar um único quadro de tempo de coeficientes de HOA.
[0140] Supondo-se que, para fins de ilustração, o dispositivo de codificação de áudio 20 determina que os coeficientes de HOA 11 foram capturados ao vivo ou de outro modo representam gravações ao vivo, como a gravação ao vivo 7, o dispositivo de codificação de áudio 20 podem ser configurados para codificar os coeficientes de HOA 11 com o uso de uma metodologia de síntese com base em vetor que envolve a aplicação de uma transformada inversível linear (LIT). Um exemplo da transformada inversível linear é referida como uma “decomposição de valor único” (ou “SVD”). Nesse exemplo, o dispositivo de codificação de áudio 20 pode aplicar a SVD aos coeficientes de HOA 11 para determinar uma versão decomposta dos coeficientes de HOA 11. O dispositivo de codificação de áudio 20 pode, então, analisar a versão decomposta dos coeficientes de HOA 11 para identificar vários parâmetros, que podem facilitar a reordenação da versão decomposta dos coeficientes de HOA 11. O dispositivo de codificação de áudio 20 pode, então, reordenar a versão decomposta dos coeficientes de HOA 11 com base nos parâmetros identificados, em que tal reordenação, conforme descrito em mais detalhes abaixo, pode aprimorar a eficiência de codificação dado que a transformação pode reordenar os coeficientes de HOA através dos quadros dos coeficientes de HOA (em que um quadro inclui comumente M amostras dos coeficientes de HOA 11 e M é, em alguns exemplos, definido em 1.024). Após a reordenação da versão decomposta dos coeficientes de HOA 11, o dispositivo de codificação de áudio 20 pode selecionar aqueles da versão decomposta dos coeficientes de HOA 11 representativos de componentes do campo sonoro de primeiro plano (ou, em outras palavras, distintos, predominantes ou salientes). O dispositivo de codificação de áudio 20 pode especificar a versão decomposta dos coeficientes de HOA 11 representativos dos componentes de primeiro plano como um objeto de áudio e informações direcionais associadas.
[0141] O dispositivo de codificação de áudio 20 também pode realizar uma análise de campo sonoro em relação aos coeficientes de HOA 11 a fim de, pelo menos em parte, identificar aqueles dos coeficientes de HOA 11 representativos de um ou mais componentes do campo sonoro de segundo plano (ou, em outras palavras, ambiente). O dispositivo de codificação de áudio 20 pode realizar a compensação de energia em relação aos componentes de segundo plano dado que, em alguns exemplos, os componentes de segundo plano podem incluir apenas um subconjunto de qualquer dada amostra dos coeficientes de HOA 11 (por exemplo, como aqueles que correspondem a zero e funções de base esférica de primeira ordem e não aqueles que correspondem às funções de base esférica de segunda ordem ou de ordem superior). Quando a redução de ordem for realizada, em outras palavras, o dispositivo de codificação de áudio 20 pode aumentar (por exemplo, somar/subtrair energia a/de) os coeficientes de HOA de segundo plano restantes dos coeficientes de HOA 11 para compensar a alteração na energia geral que resulta da realização da redução de ordem.
[0142] O dispositivo de codificação de áudio 20 pode realizar, em seguida, uma forma de codificação psicoacústica (como formas de surround MPEG, MPEG-AAC, MPEG-USAC ou outras formas conhecidas de codificação psicoacústica) em relação a cada um dos coeficientes de HOA 11 representativos dos componentes de segundo plano e cada um dos objetos de áudio de primeiro plano. O dispositivo de codificação de áudio 20 pode realizar uma forma de interpolação em relação às informações direcionais de primeiro plano e, então, pode realizar uma redução de ordem em relação às informações direcionais de primeiro plano interpoladas para gerar informações direcionais de primeiro plano de ordem reduzida. O dispositivo de codificação de áudio 20 pode realizar adicionalmente, em alguns exemplos, uma quantização em relação às informações direcionais de primeiro plano de ordem reduzida, que emitem informações direcionais de primeiro plano codificadas. Em algumas ocasiões, essa quantização pode compreender uma quantização escalar/por entropia. O dispositivo de codificação de áudio 20 pode, então, formar o fluxo de bits 21 para incluir os componentes de segundo plano codificados, os objetos de áudio de primeiro plano codificados, e as informações direcionais quantizadas. O dispositivo de codificação de áudio 20 pode então transmitir ou de outro modo enviar o fluxo de bits 21 para o consumidor de conteúdo 14.
[0143] Embora mostrado na Figura 3 como sendo diretamente transmitido para o consumidor de conteúdo 14, o criador de conteúdo 12 pode emitir o fluxo de bits 21 para um dispositivo intermediário posicionado entre o criador de conteúdo 12 e o consumidor de conteúdo 14. Esse dispositivo intermediário pode armazenar o fluxo de bits 21 para a entrega posterior para o consumidor de conteúdo 14, que pode solicitar esse fluxo de bits. O dispositivo intermediário pode compreender um servidor de arquivo, um servidor de rede, um computador do tipo desktop, um computador do tipo laptop, um computador do tipo tablet, um telefone móvel, um telefone inteligente ou qualquer outro dispositivo com capacidade de armazenar o fluxo de bits 21 para posterior recuperação através de um decodificador de áudio. Esse dispositivo intermediário pode residir em uma rede de entrega de conteúdo com capacidade de transmitir de modo contínuo o fluxo de bits 21 (e possivelmente em conjunto com a transmissão de um fluxo de bits de dados de vídeo correspondente) para assinantes, como o consumidor de conteúdo 14, que solicita o fluxo de bits 21.
[0144] Alternativamente, o criador de conteúdo 12 pode armazenar o fluxo de bits 21 em um meio de armazenamento, como um disco compacto, um disco de vídeo digital, um disco de vídeo em alta definição ou outras mídias de armazenamento, cuja maioria tem capacidade de ser lida por um computador e, portanto, pode ser referida como mídias de armazenamento legíveis por computador ou mídias de armazenamento legíveis por computador não transitórias. Nesse contexto, o canal de transmissão pode se referir àqueles canais através dos quais o conteúdo armazenado nesses meios são transmitidos (e podem incluir lojas de varejo e outro mecanismo de entrega baseado em loja). Em qualquer evento, as técnicas desta revelação não devem ser, portanto, limitadas nesse sentido ao exemplo da Figura 3.
[0145] Conforme adicionalmente mostrado no exemplo da Figura 3, o consumidor de conteúdo 14 inclui o sistema de reprodução de áudio 16. O sistema de reprodução de áudio 16 pode representar qualquer sistema de reprodução de áudio com capacidade de reproduzir dados de áudio de multicanal. O sistema de reprodução de áudio 16 pode incluir inúmeros Concorrentes diferentes 22. Os Concorrentes 22 podem, cada um, fornecer uma forma diferente de renderização, em que as formas diferentes de renderização podem incluir um ou mais dentre os vários modos de realizar variação gradual de amplitude com base em vetor (VBAP) e/ou um ou mais dentre os vários modos de realizar a síntese de campo sonoro. Conforme usado no presente documento, “A e/ou B” significa “A ou B” ou tanto “A quanto B”.
[0146] O sistema de reprodução de áudio 16 pode incluir adicionalmente um dispositivo de decodificação de áudio 24. O dispositivo de decodificação de áudio 24 pode representar um dispositivo configurado para decodificar os coeficientes de HOA 11‘ a partir do fluxo de bits 21, em que os coeficientes de HOA 11‘ podem ser semelhantes aos coeficientes de HOA 11, mas diferem devido às operações de perda (por exemplo, quantização) e/ou transmissão por meio do canal de transmissão. Ou seja, o dispositivo de decodificação de áudio 24 pode desquantizar as informações direcionais de primeiro plano especificadas no fluxo de bits 21, enquanto também realiza a decodificação psicoacústica em relação aos objetos de áudio de primeiro plano especificados no fluxo de bits 21 e nos coeficientes de HOA codificados representativos de componentes de segundo plano. O dispositivo de decodificação de áudio 24 pode realizar adicionalmente a interpolação em relação às informações direcionais de primeiro plano decodificadas e, então, determinar os coeficientes de HOA representativos dos componentes de primeiro plano com base nos objetos de áudio de primeiro plano decodificados e nas informações direcionais de primeiro plano interpoladas. O dispositivo de decodificação de áudio 24 pode então determinar os coeficientes de HOA 11’ com base nos coeficientes de HOA determinados representativos dos componentes de primeiro plano e dos coeficientes de HOA decodificados representativos dos componentes de segundo plano.
[0147] O sistema de reprodução de áudio 16 pode, após a decodificação do fluxo de bits 21, obter os coeficientes de HOA 11‘ e renderizar os coeficientes de HOA 11‘ para emitir alimentações de alto-falante 25. As alimentações de alto-falante 25 pode acionar um ou mais alto-falantes (que não são mostrados no exemplo da Figura 3 para facilidade de fins de ilustração).
[0148] Para selecionar o renderizador adequado ou, em algumas ocasiões, gerar um renderizador adequado, o sistema de reprodução de áudio 16 pode obter informações de alto-falante 13 indicativas de um número de alto-falantes e/ou uma geometria espacial dos alto-falantes. Em algumas ocasiões, o sistema de reprodução de áudio 16 pode obter as informações de alto-falante 13 com o uso de um microfone de referência e que aciona os alto-falantes de tal maneira a determinar dinamicamente as informações de alto-falante 13. Em outras ocasiões ou em conjunto com a determinação dinâmica das informações de alto-falante 13, o sistema de reprodução de áudio 16 pode estimular um usuário a fazer interface com o sistema de reprodução de áudio 16 e introduzir as informações de alto-falante 16.
[0149] O sistema de reprodução de áudio 16 pode, então, selecionar um dos Concorrentes de áudio 22 com base nas informações de alto-falante 13. Em algumas ocasiões, o sistema de reprodução de áudio 16 pode, quando nenhum dos Concorrentes de áudio 22 estiver dentro de alguma medida de similaridade limite (no sentido da geometria do alto-falante) àquela especificada nas informações de alto-falante 13, gerar o um dentre os Concorrentes de áudio 22 com base nas informações de alto- falante 13. O sistema de reprodução de áudio 16 pode, em algumas ocasiões, gerar o um dos Concorrentes de áudio 22 com base nas informações de alto-falante 13 sem tentar primeiro selecionar um Concorrente existente dentre os Concorrentes de áudio 22.
[0150] A Figura 4 é um diagrama de blocos que ilustra, em mais detalhes, um exemplo do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 3 que pode realizar vários aspectos das técnicas descritas nesta revelação. O dispositivo de codificação de áudio 20 inclui uma unidade de análise de conteúdo 26, uma unidade de metodologia de síntese com base em vetor 27 e uma unidade de metodologia de síntese com base direcional 28.
[0151] A unidade de análise de conteúdo 26 representa uma unidade configurada para analisar o conteúdo dos coeficientes de HOA 11 para identificar se os coeficientes de HOA 11 representa o conteúdo gerado a partir de uma gravação ao vivo ou um objeto de áudio. A unidade de análise de conteúdo 26 pode determinar se os coeficientes de HOA 11 foram gerados a partir de uma gravação de um campo sonoro real ou de um objeto de áudio artificial. A unidade de análise de conteúdo 26 pode fazer essa determinação de vários modos. Por exemplo, a unidade de análise de conteúdo 26 pode codificar (N+1)2-1 os canais e predizer o último canal restante (que pode ser representado como um vetor). A unidade de análise de conteúdo 26 pode aplicar escalares a pelo menos alguns dos canais (N+1)2-1 e somar os valores resultantes para determinar o último canal restante. Ademais, nesse exemplo, a unidade de análise de conteúdo 26 pode determinar uma precisão do canal predito. Nesse exemplo, se a precisão do canal predito é relativamente alta (por exemplo, a precisão excede um limite específico), os coeficientes de HOA 11 são provavelmente gerados a partir de um objeto de áudio sintético. Em contrapartida, se a precisão do canal predito é relativamente baixa (por exemplo, a precisão está abaixo do limite específico), os coeficientes de HOA 11 são mais prováveis de representar um campo sonoro gravado. Poe exemplo, nesse exemplo, se uma razão entre sinal e ruído (SNR) do canal predito estiver acima de 100 decibéis (dbs), os coeficientes de HOA 11 são mais prováveis de representar um campo sonoro gerado a partir de um objeto de áudio sintético. Em contrapartida, a SNR de um campo sonoro gravado com o uso de um microfone próprio pode ser de 5 a 20 dbs. Assim, pode haver uma demarcação evidente em razões SNR entre o campo sonoro representado pelos coeficientes de HOA 11 gerados a partir de uma gravação direta real e de um objeto de áudio sintético.
[0152] Mais especificamente, a unidade de análise de conteúdo 26 pode, quando se determinar se os coeficientes de HOA 11 representativos de um campo sonoro forem gerados a partir de um objeto de áudio sintético, obter uns coeficientes com quadro de coeficientes de HOA, que pode ser de tamanho de 25 por 1.024 para uma representação de quarta ordem (isto é, N = 4). Após obter os coeficientes de HOA com quadro (que podem ser denotados no presente documento como uma matriz de SHC com quadro 11 e matrizes de SHC com quadro subsequentes podem ser denotadas como matrizes de SHC com quadro 27B, 27C, etc.). A unidade de análise de conteúdo 26 pode então excluir o primeiro vetor dos coeficientes de HOA com quadro 11 para gerar coeficientes de HOA com quadro reduzidos. Em alguns exemplos, esse primeiro vetor excluído dos coeficientes de HOA com quadro 11 pode corresponder àqueles dos coeficientes de HOA 11 associados à função de base harmônica esférica de ordem zero, de subordem zero.
[0153] A unidade de análise de conteúdo 26 pode, então, predizer o primeiro vetor diferente de zero dos coeficientes de HOA reduzidos com quadro a partir de vetores restantes dos coeficientes de HOA reduzidos com quadro. O primeiro vetor diferente de zero pode se referir a um primeiro vetor que vai da primeira ordem (e que considera cada uma das subordens dependentes de ordem) a quarta ordem (e que considera cada uma das subordens dependentes de ordem) que tem valores além de zero. Em alguns exemplos, o primeiro vetor diferente de zero dos coeficientes de HOA reduzidos com quadro se refere àqueles dos coeficientes de HOA 11 associados à função de base harmônica esférica de primeira ordem, de subordem zero. Embora descrito em relação ao primeiro vetor diferente de zero, as técnicas podem predizer outros vetores dos coeficientes de HOA reduzidos com quadro a partir de vetores restantes dos coeficientes de HOA reduzidos com quadro. Por exemplo, a unidade de análise de conteúdo 26 pode predizer aqueles dentre os coeficientes de HOA reduzidos com quadro associados a uma função de base harmônica esférica de primeira ordem, de primeira subordem ou uma função de base harmônica esférica de primeira ordem, de primeira subordem negativa. Como ainda outros exemplos, a unidade de análise de conteúdo 26 pode predizer aqueles dentre os coeficientes de HOA reduzidos com quadro associados a uma função de base harmônica esférica de segunda ordem, de ordem zero.
[0154] Para predizer o primeiro vetor diferente de zero, a unidade de análise de conteúdo 26 pode operar de acordo com a equação a seguir:
Figure img0011
[0155] em que z é de 1 a (N+1)2-1, que é 23 para uma representação de quarta ordem, cxi denota alguma constante para o z’-ésimo vetor, e V1 se refere ao z’-ésimo vetor. Após predizer o primeiro vetor diferente de zero, a unidade de análise de conteúdo 26 pode obter um erro com base no primeiro vetor diferente de zero predito e no vetor diferente de zero real. Em alguns exemplos, a unidade de análise de conteúdo 26 subtrai o primeiro vetor diferente de zero predito do primeiro vetor diferente de zero real para derivar o erro. A unidade de análise de conteúdo 26 pode computar o erro como uma soma do valor absoluto das diferenças entre cada entrada no primeiro vetor diferente de zero predito e o primeiro vetor diferente de zero real.
[0156] Uma vez que o erro é obtido, a unidade de análise de conteúdo 26 pode computar uma razão com base em uma energia do primeiro vetor diferente de zero real e do erro. A unidade de análise de conteúdo 26 pode determinar essa energia calculando-se o quadrado de cada entrada do primeiro vetor diferente de zero adicionando-se as entradas quadradas entre si. A unidade de análise de conteúdo 26 pode, então, comparar essa razão a um limite. Quando a razão não exceder o limite, a unidade de análise de conteúdo 26 pode determinar que os coeficientes de HOA com quadro 11 são gerados a partir de uma gravação e indicam no fluxo de bits que a representação codificada correspondente dos coeficientes de HOA 11 foi gerada a partir de uma gravação. Quando a razão exceder o limite, a unidade de análise de conteúdo 26 pode determinar que os coeficientes de HOA com quadro 11 são gerados a partir de um objeto de áudio sintético e indicam no fluxo de bits que a representação codificada correspondente dos coeficientes de HOA 11 com quadro foi gerada a partir de um objeto de áudio sintético.
[0157] A indicação de se os coeficientes de HOA com quadro 11 foi gerada a partir de uma gravação ou de um objeto de áudio sintético pode compreender um único bit para cada quadro. O único bit pode indicar que diferentes codificações foram usadas para cada quadro efetivamente comutando entre diferentes modos pelos quais deve-se codificar os quadros correspondentes. Em algumas ocasiões, quando os coeficientes de HOA com quadro 11 foram gerados a partir de uma gravação, a unidade de análise de conteúdo 26 passa os coeficientes de HOA 11 para a unidade de síntese com base em vetor 27. Em algumas ocasiões, quando os coeficientes de HOA com quadro 11 foram gerados a partir de um objeto de áudio sintético, a unidade de análise de conteúdo 26 passa os coeficientes de HOA 11 para a unidade de síntese com base direcional 28. A unidade de síntese com base direcional 28 pode representar uma unidade configurada para realizar uma síntese com base direcional dos coeficientes de HOA 11 para gerar um fluxo de bits com base direcional 21.
[0158] Em outras palavras, as técnicas se baseiam na codificação dos coeficientes de HOA com ou uso de um classificador de front-end. O classificador pode funcionar conforme segue:
[0159] Começar com uma matriz de SH com quadro (diga-se 4a ordem, tamanho de quadro de 1.024, que também pode ser referida como coeficientes de HOA com quadro ou como coeficientes de HOA) - em que uma matriz de tamanho 25 x 1.024 é obtida.
[0160] Excluir o 1° vetor (SH de ordem zero) - para que haja uma matriz de tamanho 24 x 1.024.
[0161] Predizer o primeiro vetor diferente de zero na matriz (um vetor de tamanho 1 x 1.024) - a partir do resto dos vetores na matriz (23 vetores de tamanho 1 x 1.024).
[0162] A predição é conforme segue: vetor predito = soma-sobre-i [alfa-i x vetor-I] (em que a soma sobre I é feita em 23 índices, i=l...23)
[0163] Então, verificar o erro: vetor real - vetor predito = erro.
[0164] Se a razão da energia do vetor/erro for grande (isto é, O erro for menor), então o campo sonoro subjacente (nesse quadro) é esparso/sintético. Ou, o campo sonoro subjacente é um campo sonoro gravado (com o uso, diga-se, de um arranjo de microfone).
[0165] Dependendo da decisão de gravado contra sintético, realizar a codificação/decodificação (que pode se referir à compressão de largura de banda) de modos diferentes. A decisão é uma decisão de 1 bit, que é enviada através do fluxo de bits para cada quadro.
[0166] Conforme mostrado no exemplo da Figura 4, a unidade de síntese com base em vetor 27 pode incluir uma unidade de transformada inversível linear (LIT) 30, uma unidade de cálculo de parâmetro 32, uma unidade de reordenação 34, uma unidade de seleção de primeiro plano 36, uma unidade de compensação de energia 38, uma unidade psicoacústica codificadora de áudio 40, uma unidade de geração de fluxo de bits 42, uma unidade de análise de campo sonoro 44, uma unidade de redução de coeficiente 46, uma unidade de seleção de segundo plano (BG) 48, uma unidade de interpolação espaço-temporal 50 e uma unidade de quantização 52.
[0167] A unidade de transformada inversível linear (LIT) 30 recebe os coeficientes de HOA 11 na forma de canais HOA, cada canal é representativo de um bloco ou quadro de um coeficiente associado a uma dada ordem, subordem das funções de base esféricas (que podem ser denotadas como HOA[k], em que k pode denotar o quadro ou bloco de amostras atual). A matriz de coeficientes de HOA 11 pode ter dimensões D: Mx (N+1)2.
[0168] Ou seja, a unidade de LIT 30 pode representar uma unidade configurada para realizar uma forma de análise referida como decomposição de valor único. Embora descrito em relação à SVD, as técnicas descritas nesta revelação podem ser realizadas em relação a qualquer transformação ou decomposição semelhante que forneça conjuntos de saída compactada de energia linearmente não corrigida. Também, a referência a “conjuntos” nesta revelação é geralmente destinada a se referir aos conjuntos diferentes de zero a menos que seja especificamente estabelecido o contrário e não seja destinado a se referir à definição matemática clássica de conjuntos que incluem o denominado “conjunto vazio”.
[0169] Uma transformação alternativa pode compreender uma análise de componente principal, que é frequentemente referida como “PCA.” PCA se refere a um procedimento matemático que emprega uma transformação ortogonal para converter um conjunto de observações de variáveis possivelmente correlacionadas em um conjunto de variáveis linearmente não corrigidas referidas como componentes principais. As variáveis linearmente não corrigidas representam variáveis que não têm relação estatística (ou dependência) entre si. Esses componentes principais podem ser descritos como tendo um grau pequeno de correção estatística entre si. Em qualquer evento, o número de componentes principais denominados é menor ou igual ao número de variáveis originais. Em alguns exemplos, a transformação é definida de tal modo que o primeiro componente principal tem a maior variância possível (ou, em outras palavras, é responsável por tanto quanto a variabilidade nos dados conforme possível), e cada componente seguinte, por sua vez, tem a mais elevada variância possível sob a restrição de que esse componente sucessivo é ortogonal aos componentes precedentes (que podem ser reiniciados como não corrigidos com os mesmos). A PCA pode realizar uma forma de redução de ordem, que em termos dos coeficientes de HOA 11 pode resultar na compressão dos coeficientes de HOA 11. Dependendo do contexto, a PCA pode ser referida por inúmeros nomes diferentes, como transformada de Karhunen-Loeve discreta, a transformada de Hotellmg, decomposição ortogonal apropriada (POD) e decomposição de valor próprio (EVD) para citar alguns exemplos. As propriedades de tais operações que são propícias ao objetivo subjacente de compressão de dados de áudio são a "compactação de energia" e "descorrelação" dos dados de áudio de multicanal.
[0170] Em qualquer evento, a unidade de LIT 30 realiza uma decomposição de valor único (que, novamente, pode ser referida como “SVD”) para transformar os coeficientes de HOA 11 em dois ou mais conjuntos de coeficientes de HOA transformados. Esses “conjuntos” de coeficientes de HOA transformados podem incluir vetores de coeficientes de HOA transformados. No exemplo da Figura 4, a unidade de LIT 30 pode realizar a SVD em relação aos coeficientes de HOA 11 para gerar uma denominada matriz V, uma matriz S e uma matriz U. SVD, em álgebra linear, pode representar uma fatorização de uma matriz X real ou complexa de y-por-z (em que X pode representar dados de áudio de multicanal, como os coeficientes de HOA 11) na forma a seguir:
Figure img0012
[0171] U pode representar uma matriz unitária real ou complexa de y-por-y, em que as colunas y de U são comumente conhecidas como os vetores únicos esquerdos dos dados de áudio de multicanal. S pode representar uma matriz diagonal retangular de y-por-z com números reais não negativos na diagonal, em que os valores diagonais de S são comumente conhecidos como os valores únicos dos dados de áudio de multicanal. V* (que pode denotar uma transposta conjugada de V) pode representar uma matriz unitária real ou complexa de z-por-z, em que as colunas z de V* são comumente conhecidas como os vetores únicos direitos dos dados de áudio de multicanal.
[0172] Embora descrito nesta revelação como sendo aplicadas aos dados de áudio de multicanal que compreendem coeficientes de HOA 11, as técnicas podem ser aplicadas a qualquer forma de dados de áudio de multicanal. Desse modo, o dispositivo de codificação de áudio 20 pode realizar uma decomposição de valor único em relação aos dados de áudio de multicanal representativos de pelo menos uma porção de campo sonoro para gerar uma matriz U representativa de vetores únicos esquerdos dos dados de áudio de multicanal, uma matriz S representativa de valores únicos dos dados de áudio de multicanal e uma matriz V representativa de vetores únicos direitos dos dados de áudio de multicanal, e que representa os dados de áudio de multicanal como uma função de pelo menos uma porção de um ou mais dentre a matriz U, a matriz S e a matriz V.
[0173] Em alguns exemplos, a matriz V* na expressão matemática referida acima é denotada como a transposta conjugada da matriz V para refletir que SVD pode ser aplicada às matrizes que compreendem números complexos. Quando aplicadas às matrizes que compreendem apenas números reais, o conjugado complexo da matriz V (ou, em outras palavras, a matriz V*) pode ser considerado para ser a transposta da matriz V. Abaixo, supõe-se que, para facilidade de fins de ilustração, os coeficientes de HOA 11 compreendem números reais com o resultado de que a matriz V é emitida através de SVD em vez da matriz V*. Além do mais, embora denotado como a matriz V nesta revelação, a referência à matriz V deve ser compreendida para se referir à transposta da matriz V onde adequado. Embora supõe-se que seja a matriz V, as técnicas podem ser aplicadas de uma maneira semelhante aos coeficientes de HOA 11 que têm coeficientes complexos, em que a saída da SVD é a matriz V*. Dessa maneira, as técnicas não devem ser limitadas nesse sentido para fornecer apenas a aplicação de SVD para gerar uma matriz V, mas podem incluir a aplicação de SVD nos coeficientes de HOA 11 que têm componentes complexos para gerar uma matriz V*.
[0174] Em qualquer ocasião a unidade de LIT 30 pode realizar uma forma em blocos de SVD em relação a cada bloco (que pode se referir a um quadro) de dados de áudio ambisonics de ordem superior (HOA) (em que esses dados de áudio ambisonics incluem blocos ou amostras dos coeficientes de HOA 11 ou qualquer outra forma de dados de áudio de múltiplos canais). Conforme notado acima, uma variável M pode ser usada para denotar o comprimento de um quadro de áudio em amostras. Por exemplo, quando um quadro de áudio incluir 1.024 amostras de áudio, M é igual a 1.024. Embora descrito em relação a esse típico valor para M, as técnicas desta revelação não devem ser limitadas a esse típico valor para M. A unidade de LIT 30 pode realizar, portanto, uma SVD em blocos em relação a um bloco dos coeficientes de HOA 11 que têm coeficientes de HOA de M-por-(N+1)2, em que N, novamente, denota a ordem dos dados de áudio de HOA. A unidade de LIT 30 pode gerar, através da realização dessa SVD, uma matriz V, uma matriz S e uma matriz U, em que cada uma das matrizes pode representar as respectivas matrizes V, S e U descritas acima. Desse modo, a unidade de transformada inversível linear 30 pode realizar a SVD em relação aos coeficientes de HOA 11 para emitir vetores XJS[k] 33 (que podem representar uma versão combinada dos vetores S e dos vetores U) que têm dimensões D: M x (N+1)2, e vetores V[k] 35 que têm dimensões D: (N+1)2 x (N+1)2. Os elementos de vetor individual na matriz U.S.[k] também podem ser designados XPS(k) enquanto os vetores individuais da matriz V[k] também podem ser designados v(k).
[0175] Uma análise das matrizes U, S e V podem revelar que essas matrizes carregam ou representam características espaciais e temporais do campo sonoro subjacente representado acima por X. Cada um dos vetores N em U (de comprimento de amostras M) pode representar sinais de áudio separados normalizados como uma função de tempo (para o período de tempo representado por amostras M), que são ortogonais entre si e que foram desacoplados de quaisquer características espaciais (que também podem ser referidas como informações direcionais). As características espaciais, que representam o formato espacial e largura de posição (r, theta, phi) podem ser em vez disso representadas por vetores individuais
Figure img0013
na matriz V (cada um do comprimento (N+1)2). Ambos os vetores na matriz U e na matriz V são normalizados de tal modo que suas energias com o quadrado da média da raiz são iguais à unidade. A energia dos sinais de áudio em U são, então, representadas pelos elementos diagonais em S. A multiplicação de U e S para formar XPS[k] (com elementos de vetor individuais XPS (k)), representa, então, o sinal de áudio com energias verdadeiras. A habilidade da decomposição SVD para desacoplar os sinais por tempo de áudio (em U), suas energias (em S) e suas características espaciais (em V) pode sustentar vários aspectos das técnicas descritas nesta revelação. Ademais, esse modelo de sintetização dos coeficientes de HOA[k] subjacentes, X, por uma multiplicação de vetor de XJS[k] e V[k] origina o termo “metodologia de síntese com base em vetor”, que é usado por todo este documento.
[0176] Embora descrito como sendo realizada diretamente em relação aos coeficientes de HOA 11, a unidade de LIT 30 pode aplicar a transformada inversível linear aos derivados dos coeficientes de HOA 11. Por exemplo, a unidade de LIT 30 pode aplicar a SVD em relação a uma matriz de densidade espectral de potência derivada dos coeficientes de HOA 11. A matriz de densidade espectral de potência pode ser denotada como PSD e obtida através da multiplicação de matriz da transposta da hoaFrame para a hoaFrame, conforme esboçado no pseudocódigo que segue abaixo. A notação hoaFrame se refere a um quadro dos coeficientes de HOA 11.
[0177] A unidade de LIT 30 pode, após aplicar a SVD (svd) à PSD, obter uma matriz S[k]2 (S quadrada) e uma matriz V[k]. A matriz S[k]2 pode denotar uma matriz S[k] quadrada, onde a unidade de LIT 30 pode aplicar uma operação de raiz quadrada à matriz S[k]2 para obter a matriz S[k]. A unidade de LIT 30 pode, em algumas ocasiões, realizar a quantização em relação à matriz V[k] para obter uma matriz V[k] quantizada (que pode ser denotada como matriz V[k]’). A unidade de LIT 30 pode obter a matriz U[k] multiplicando-se primeiro a matriz S[k] pela matriz V[k]’ quantizada para obter uma matriz SV[k]’. A unidade de LIT 30 pode, em seguida, obter a pseudoinversa (pinv) da matriz SV[k]’ e, então, multiplicar os coeficientes de HOA 11 pela pseudoinversa da matriz SV[k]’ para obter a matriz U[k]. O que foi exposto anteriormente pode ser representado pelo pseudocódigo a seguir:
Figure img0014
[0178] Através da realização de SVD em relação à densidade espectral de potência (PSD) dos coeficientes de HOA em vez dos próprios coeficientes, a unidade de LIT 30 pode reduzir potencialmente a complexidade computacional de realizar a SVD em termos de um ou mais dentre os ciclos de processador e espaço de armazenamento, enquanto alcança a mesma eficiência de codificação de áudio de fonte que se a SVD fosse aplicada diretamente aos coeficientes de HOA. Ou seja, a SVD do tipo PSD descrita acima pode demandar potencialmente menos em termos de computação devido à SVD ser feita em uma matriz F*F (com F sendo o número de coeficientes de HOA). Em comparação com uma matriz M * F com M sendo o comprimento de quadro, isto é, 1.024 ou mais amostras. A complexidade de uma SVD pode agora, através da aplicação à PSD em vez dos coeficientes de HOA 11, ser cerca de O(LA3) em comparação com O (M*LA2) quando aplicado aos coeficientes de HOA 11 (em que O (*) denota a notação denotes a notação big-O de complexidade computacional comum às técnicas de ciência de computador).
[0179] A unidade de cálculo de parâmetro 32 representa a unidade configurada para calcular vários parâmetros, como um parâmetro de correlação (R), parâmetros de propriedades direcionais (θ, cp, r) e uma propriedade de energia (e). Cada um desses parâmetros para o quadro atual pode ser denotado como R[k], θ[k], cp [k], e[k] e e[k]. A unidade de cálculo de parâmetro 32 pode realizar uma análise de energia e/ou correlação (ou denominada correlação cruzada) em relação aos vetores U.S.[k] 33 para identificar esses parâmetros. A unidade de cálculo de parâmetro 32 também pode determinar esses parâmetros para o quadro anterior, em que os parâmetros de quadro anterior podem ser denotados R[k-1], θ[k-l], <p[k-l], r[k-l] e e[k- l], com base no quadro anterior do vetor U.S.[k-1] e vetores V[k-1]. A unidade de cálculo de parâmetro 32 pode emitir os parâmetros atuais 37 e os parâmetros anteriores 39 para a unidade de reordenação 34.
[0180] Ou seja, a unidade de cálculo de parâmetro 32 pode realizar uma análise de energia em relação a cada um dentre os primeiros vetores U.S.[k] 33 que correspondem a um primeiro tempo e cada um dos segundos vetores U.S.[k] 33 que correspondem a um segundo tempo, que computa uma energia com quadrado da média da raiz para pelo menos uma porção de (mas frequentemente todo) o primeiro quadro de áudio e uma porção de (mas frequentemente todo) o segundo quadro de áudio e, desse modo, pode gerar energias 2L, uma para cada um dentre os primeiros L vetores U.S.[k] 33 do primeiro quadro de áudio e um para cada um dentre os segundos vetores U.S.[k -1] 33 do segundo quadro de áudio.
[0181] Em outros exemplos, a unidade de cálculo de parâmetro 32 pode realizar uma correlação cruzada entre alguma porção do conjunto de amostras (se não todo o mesmo) para cada um dentre os primeiros vetores XJS[k] 33 e cada um dentre os segundos vetores U.S.[k-1] 33. A correlação cruzada pode se referir à correlação cruzada conforme compreendido nas técnicas de processamento de sinal. Em outras palavras, a correlação cruzada pode se referir a uma medida de similaridade entre duas formas de onda (que nesse caso é definida como um conjunto discreto de amostras M) como uma função de um retardamento aplicada a um deles. Em alguns exemplos, para realizar a correlação cruzada, a unidade de cálculo de parâmetro 32 compara a última amostra L de cada um dos primeiros vetores XJS[k] 27, em termos de vez, para as primeiras amostras L de cada um dos restantes dos segundos vetores U.S.[k-1] 33 para determinar um parâmetro de correlação. Conforme usado no presente documento, uma operação “em termos de vez” se refere a um elemento através da operação de elemento feita em relação a um primeiro conjunto de elementos e um segundo conjunto de elementos, em que a operação extrai um elemento de cada um dentre o primeiro e o segundo conjuntos de elementos “por vez” de acordo com uma ordenação dos conjuntos.
[0182] A unidade de cálculo de parâmetro 32 também pode analisar os vetores V[k] e/ou V[k-1] 35 para determinar parâmetros de propriedade direcional. Esses parâmetros de propriedade direcional podem fornecer uma indicação de movimento e local do objeto de áudio representado pelos vetores XJS[k] e/ou U.S.[k-1] 33 correspondentes. A unidade de cálculo de parâmetro 32 pode fornecer qualquer combinação de parâmetros atuais de primeiro plano 37 (determinados em relação aos vetores XJS[k] 33 e/ou aos vetores V[k] 35) e qualquer combinação dos parâmetros anteriores 39 (determinados em relação aos vetores U.S.[k-1] 33 e/ou aos vetores V[k-1] 35) para a unidade de reordenação 34.
[0183] A decomposição de SVD não garante que o sinal de áudio/objeto representado pelo p-ésimo vetor em vetores U.S.[k-1] 33, que podem ser denotados como o vetor U.S.[£-l][p] (ou, alternativamente, como
Figure img0015
será o mesmo sinal de áudio/objeto (avançado no tempo) representado pelo p-ésimo vetor nos vetores XJS[k] 33, que também podem ser denotados como vetores U.S.[k][p] 33 (ou, alternativamente como
Figure img0016
Os parâmetros calculados pela unidade de cálculo de parâmetro 32 podem ser usados pela unidade de reordenação 34 para reordenar os objetos de áudio para representar sua avaliação natural ou continuidade com o tempo.
[0184] Ou seja, a unidade de reordenação 34 pode então comparar cada um dos parâmetros 37 a partir dos primeiros vetores U.S.[k] 33 em termos de vez contra cada um dos parâmetros 39 para os segundos vetores U.S.[k-1] 33. A unidade de reordenação 34 pode reordenar (com o uso, como um exemplo, de um algoritmo húngaro) os vários vetores dentro da matriz U.S.[k] 33 e da matriz V[k] 35 com base nos parâmetros atuais 37 e nos parâmetros anteriores 39 para emitir uma matriz reordenada U.S.[k] 33’ (que pode ser denotada matematicamente como U.S.[k]) e uma matriz reordenada V[k] 35’ (que pode ser denotada matematicamente como V[k]) para uma unidade de seleção de som em primeiro plano (ou som predominante - PS) 36 (“unidade de seleção de primeiro plano 36”) e uma unidade de compensação de energia 38.
[0185] Em outras palavras, a unidade de reordenação 34 pode representar uma unidade configurada para reordenar os vetores dentro da matriz U.S.[k] 33 para gerar a matriz reordenada U.S.[k] 33‘. A unidade de reordenação 34 pode ordenar a matriz XJS[k] 33 por causa da ordem dos vetores XJS[k] 33 (em que, novamente, cada vetor dos vetores U.S.[k] 33, que novamente podem ser alternativamente denotados como
Figure img0017
, pode representar um ou mais objetos distintos (ou, em outras palavras, predominantes) de monoáudio presentes no campo sonoro) pode variar a partir de porções dos dados de áudio. Ou seja, dado que o dispositivo de codificação de áudio 12, em alguns exemplos, opera nessas porções dos dados de áudio geralmente referidos como quadros de áudio, a posição de vetores que correspondem a esses objetos de monoáudio distintos conforme representados na matriz U.S.[k] 33 como derivados, pode variar de quadro de áudio para quadro de áudio devido à aplicação de SVD aos quadros e a saliência variante de cada objeto de áudio de quadro para quadro.
[0186] Passar os vetores dentro da matriz XJ S[k] 33 diretamente para a unidade psicoacústica codificadora de áudio 40 sem reordenar os vetores dentro da matriz U.S.[k] 33 de quadro de áudio para quadro de áudio pode reduzir a extensão da compressão alcançável por alguns esquemas de compressão, como esquemas de compressão de herança que se desempenham melhor quando os objetos de monoáudio são contínuos (em termos de canal, que é definido nesse exemplo pela ordem de posição dos vetores dentro da matriz U.S.[k] 33 relacionados entre si) através de quadros de áudio. Além do mais, quando não reordenada, a codificação dos vetores dentro da matriz U.S.[k] 33 pode reduzir a qualidade dos dados de áudio quando decodificado. Por exemplo, os codificadores de AAC, que podem ser representados no exemplo da Figura 3 pela unidade psicoacústica codificadora de áudio 40, podem comprimir mais eficientemente um ou mais vetores reordenados dentro da matriz U.S.[k] 33’ de quadro a quadro na comparação à compressão alcançada quando se codifica diretamente os vetores dentro da matriz U.S.[k] 33 de quadro a quadro. Embora descrito acima em relação aos codificadores de AAC, as técnicas podem ser realizadas em relação a qualquer codificador que forneça melhor compressão quando os objetos de monoáudio forem especificados através de quadros em uma ordem ou posição específica (em termos de canal).
[0187] Vários aspectos das técnicas podem, desse modo, possibilitar que o dispositivo de codificação de áudio 12 para reordenar um ou mais vetores (por exemplo, os vetores dentro da matriz U.S.[k] 33 para gerar um ou mais vetores reordenados dentro da matriz U.S.[k] 33’ reordenada e, desse modo, facilitam a compressão dos vetores dentro da matriz U.S.[k] 33 por um codificador de áudio de herança, como a unidade psicoacústica codificadora de áudio 40).
[0188] Por exemplo, a unidade de reordenação 34 pode reordenar uma ou mais vetores dentro da matriz U.S.[k] 33 de um primeiro quadro de áudio subsequente em tempo ao segundo quadro ao qual um ou mais segundos vetores dentro da matriz U.S.[k-1] 33 corresponde com base nos parâmetros atuais 37 e parâmetros anteriores 39. Embora descrito no contexto de um de um primeiro quadro de áudio que é subsequente em tempo ao segundo quadro de áudio, o primeiro quadro de áudio pode preceder em tempo o segundo quadro de áudio. Dessa maneira, as técnicas não devem ser limitadas ao exemplo descrito nesta revelação.
[0189] Por questão de ilustração, considera-se a Tabela 1 a seguir em que cada um dos vetores p dentro da matriz U.S.[k] 33 é denotado como U.S. [k][p], em que k denota se o vetor correspondente é do -ésimo quadro ou do quadro anterior (k-1) e p denota a fileira do vetor em relação aos vetores do mesmo quadro de áudio (em que a matriz U.S.[k] tem (N+1)2 como vetores). Conforme notado acima, supondo-se que N seja determinado para ser um, p pode denotar vetores um (1) a (4).
Figure img0018
[0190] Na Tabela 1 acima, a unidade de reordenação 34 compara a energia computada para U.S.[£- 1][1] à energia computada para cada um dentre U.S.[k][1], U.S.[k][2], U.S.[k][3], U.S.[k][4], a energia computada para U.S.[k-1][2] à energia computada para cada um dentre U.S.[k][1], U.S.[k][2], U.S.[k][3], U.S.[k][4], etc. A unidade de reordenação 34 pode então descartar um ou mais dos segundos vetores U.S.[k-1] 33 do segundo quadro de áudio precedente (em termos de tempo). Por questão de ilustração, considera-se a Tabela 2 a seguir que mostra os restantes segundos vetores U.S.[k-1] 33:
Figure img0019
[0191] Na Tabela 2 acima, a unidade de reordenação 34 pode determinar, com base na comparação de energia que a energia computada para U.S.[k-1][1] é semelhante à energia computada para cada uma dentre U.S.[k][1] e U.S.[k][2], a energia computada para U.S.[k- 1][2] é semelhante à energia computada para cada uma dentre U.S.[k][1] e U.S.[k][2], a energia computada para XJS[k- 1][3] é semelhante à energia computada para cada uma dentre U.S.[k][3] e U.S.[k][4], e a energia computada para U.S.[k- 1][4] é semelhante à energia computada para cada uma dentre U.S.[k][3] e U.S.[k][4]. Em alguns exemplos, a unidade de reordenação 34 pode realizar a análise de energia adicional para identificar uma similaridade entre cada um dos primeiros vetores da matriz U.S.[k] 33 e cada um dos segundos vetores da matriz U.S.[k-1] 33.
[0192] Em outros exemplos, a unidade de reordenação 32 pode reordenar os vetores com base nos parâmetros atuais 37 e os parâmetros anteriores 39 que se referem à correlação cruzada. Nesses exemplos, com referência novamente à Tabela 2 acima, a unidade de reordenação 34 pode determinar a correlação exemplificativa a seguir expressa na Tabela 3 com base nesses parâmetros de correlação cruzada:
Figure img0020
[0193] A partir da Tabela 3 acima, a unidade de reordenação 34 determina, como um exemplo, que o vetor U.S.[k-1][1] se correlaciona ao vetor U.S.[k][2] diferentemente posicionado, o vetor XJS[k-1][2] se correlaciona ao vetor U.S.[k][1] diferentemente posicionado, o vetor U.S.[k-1][3] se correlaciona ao vetor U.S.[k][3] semelhantemente posicionado e o vetor U.S.[k- 1][4] se correlaciona ao vetor U.S.[k][4] semelhantemente posicionado. Em outras palavras, a unidade de reordenação 34 determina o que pode ser referido como informações reordenadas que descrevem como reordenar os primeiros vetores da matriz XJ S[k] 33 de tal modo que o vetor U.S.[k][2] seja reposicionado na primeira fileira dos primeiros vetores da matriz U.S.[k] 33 e o vetor U.S.[k][1] é reposicionado na segunda fileira dos primeiros vetores XJS[k] 33. A unidade de reordenação 34 pode, então, reordenar os primeiros vetores da matriz U.S.[k] 33 com base nessas informações de reordenação para gerar a matriz U.S.[k] 33’ reordenada.
[0194] Adicionalmente, a unidade de reordenação 34 pode, embora não mostrado no exemplo da Figura 4, fornecer essas informações de reordenação para o dispositivo de geração de fluxo de bits 42, que pode gerar o fluxo de bits 21 para incluir essas informações de reordenação de modo que o dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24 mostrado no exemplo das Figuras 3 e 5, possam determinar como reordenar os vetores reordenados da matriz U.S.[k] 33’ de modo a recuperar os vetores da matriz U.S.[k] 33.
[0195] Embora descrito acima como realizando um processo de duas etapas que envolve uma análise com base, primeiro, em parâmetros específicos à energia e, então, em parâmetros de correlação cruzada, a unidade de reordenação 32 pode apenas realizar essa análise apenas em relação aos parâmetros de energia para determinar as informações de reordenação, realizar essa análise apenas em relação aos parâmetros de correlação cruzada para determinar as informações de reordenação ou realizar a análise em relação a ambos os parâmetros de energia e os parâmetros de correlação cruzada da maneira descrita acima. Adicionalmente, as técnicas podem empregar outros tipos de processos para determinar a correlação que não envolver realizar um ou ambos dentre uma comparação de energia e/ou uma correlação cruzada. Dessa maneira, as técnicas não devem ser limitadas nesse sentido aos exemplos estabelecidos acima. Além do mais, outros parâmetros obtidos a partir da unidade de cálculo de parâmetro 32 (como os parâmetros de posição espacial derivados dos vetores V ou correlação dos vetores na V[k] e V[k-1]) também podem ser usados (ou concorrente/junta ou sequencialmente) com os parâmetros de energia e de correlação cruzada obtidos a partir de U.S.[k] e U.S.[k-l] para determinar a ordenação correta dos vetores em U.S..
[0196] Como um exemplo de usar a correlação dos vetores na matriz V, a unidade de cálculo de parâmetro 34 pode determinar que os vetores da matriz Y[k] 35 sejam correlacionados conforme especificado na Tabela 4 a seguir:
Figure img0021
[0197] A partir da Tabela 4 acima, a unidade de reordenação 34 determina, como um exemplo, que o vetor V[k-1][1] se correlaciona ao vetor V[k][2] diferentemente posicionado, o vetor V[k-1][2] se correlaciona ao vetor V[k][1] diferentemente posicionado, o vetor V[k-1][3] se correlaciona ao vetor V[k][3] semelhantemente posicionado e o vetor V[&-1][4] se correlaciona ao vetor V[&][4] semelhantemente posicionado. A unidade de reordenação 34 pode produzir a versão reordenada dos vetores da matriz Y[k] 35 como uma matriz Y[k] 35’ reordenada.
[0198] Em alguns exemplos, a mesma reordenação que é aplicada aos vetores na matriz U.S. também é aplicada aos vetores na matriz V. Em outras palavras, qualquer análise usada na reordenação dos vetores V pode ser usada em conjunto com qualquer análise usada para reordenar os vetores U.S.. Para ilustrar um exemplo em que as informações de reordenação não são somente determinadas em relação aos parâmetros de energia e/ou aos parâmetros de correlação cruzada em relação aos vetores U.S.[&] 35, a unidade de reordenação 34 também pode realizar essa análise em relação aos vetores Y[k] 35 com base nos parâmetros de correlação cruzada e nos parâmetros de energia de uma maneira semelhante àquela descrita acima em relação aos vetores Y[k] 35. Além do mais, embora os vetores XJS[k] 33 não tenham quaisquer propriedades direcionais, os vetores Y[k] 35 podem fornecer informações relacionadas à direcionalidade dos vetores XJS[k] 33 correspondente. Nesse sentido, a unidade de reordenação 34 pode identificar correlações entre os vetores V[k] 35 e vetores V[k-1] 35 com base em uma análise de parâmetros de propriedades direcionais correspondentes. Ou seja, em alguns exemplos, o objeto de áudio se move dentro de um campo sonoro de uma maneira contínua quando em movimento ou que fica em um local relativamente estável. Como tal, a unidade de reordenação 34 pode identificar esses vetores da matriz V[k] 35 e da matriz V[k-1] 35 que exibe algum movimento fisicamente realístico conhecido ou que fica estacionário dentro do campo sonoro conforme relacionado, reordenando os vetores XJS[k] 33 e os vetores V[k] 35 com base na correlação de propriedades direcionais. Em qualquer evento, a unidade de reordenação 34 pode emitir os vetores reordenados U.S.[k] 33’ e os vetores reordenados V[k] 35’ para a unidade de seleção de primeiro plano 36.
[0199] Adicionalmente, as técnicas podem empregar outros tipos de processos para determinar a ordem correta que não envolve realizar um ou ambos dentre uma comparação de energia e/ou uma correlação cruzada. Dessa maneira, as técnicas não devem ser limitadas nesse sentido aos exemplos estabelecidos acima.
[0200] Embora descrito acima como a reordenação dos vetores da matriz V para espelhar a reordenação dos vetores da matriz U.S., em determinadas ocasiões, os vetores V podem ser reordenados diferentemente dos vetores U.S., onde os elementos de sintaxe separados podem ser gerados para indicar a reordenação dos vetores U.S. e a reordenação dos vetores V. Em algumas ocasiões, os vetores V podem não ser reordenados e apenas os vetores U.S. podem ser reordenados dado que os vetores V podem não ser codificados de modo psicoacústico.
[0201] Uma modalidade em que a reordenação dos vetores da matriz V e dos vetores da matriz U.S. é diferente quando a intenção for trocar os objetos de áudio no espaço - isto é, mover os mesmos para longe da posição gravada original (quando o campo sonoro subjacente for uma gravação natural) ou a posição artisticamente destinada (quando o campo sonoro subjacente for uma mistura artificial de objetos). Como um exemplo, supõe-se que hajam duas fontes de áudio A e B, A pode ser o som de um gato “miau” que emana da parte “esquerda” do campo sonoro e B pode ser o som de um cachorro “au-au" que emana da parte “direita” do campo sonoro. Quando a reordenação do V e U.S. forem diferentes, a posição das duas fontes de som é trocada. Após a troca, A (o “miau”) emana da parte direita do campo sonoro e B (o "au-au") emana da parte esquerda do campo sonoro.
[0202] A unidade de análise de campo sonoro 44 pode representar uma unidade configurada para realizar uma análise de campo sonoro em relação aos coeficientes de HOA 11, de modo a alcançar, potencialmente, uma taxa-alvo de bits 41. A unidade de análise de campo sonoro 44 pode, com base em tal análise e/ou em uma taxa-alvo de bits recebida 41, determinar a quantidade total de formações de instâncias de codificador psicoacústico (que pode ser uma função da quantidade total de canais ambientes ou de segundo plano (BGTOT) e a quantidade de canais de primeiro plano ou, em outras palavras, canais predominantes. A quantidade total de formações de instâncias de codificador psicoacústico pode ser denotada como numHOATransportChannels. A unidade de análise de campo sonoro 44 também pode determinar, novamente para alcançar potencialmente a taxa-alvo de bits 41, a quantidade total de canais de primeiro plano (nFG) 45, a ordem mínima do campo sonoro (NBG ou, alternativamente, MmAmbHoaOrder) de segundo plano (ou, em outras palavras, ambiente), a quantidade correspondente de canais reais representativos da ordem mínima de campo sonoro de segundo plano (NBGa = (MinAmbHoaOrder+1)2) e índices (i) de canais de HOA de BG adicionais para enviar (que podem ser denotados, coletivamente, como informações de canal de segundo plano 43 no exemplo da Figura 4). As informações de canal de segundo plano 42 também podem ser denominadas informações de canal ambiente 43. Cada um dos canais que permanece a partir de numHOATransportChannels - NBGa, pode tanto ser um “canal de segundo plano/ambiente adicional”, um “canal predominante com base em vetor ativo”, um “sinal predominante com base direcional ativa” ou “completamente inativo”. Em uma modalidade, tais tipos de canal podem ser indicados (como um “ChannelType”) elemento de sintaxe através de dois bits (por exemplo, 00:canal de segundo plano adicional; 01:sinal predominando com base em vetor; 10: sinal inativo; 11: sinal com base direcional). A quantidade total de sinais de segundo plano ou ambientes, NBGa, pode ser determinada através de (MmAmbHoaOrder +1)2 + a quantidade de vezes em que o índice 00 (no exemplo acima) aparece como um tipo de canal no fluxo de bits para tal quadro.
[0203] De qualquer forma, a unidade de análise de campo sonoro 44 pode selecionar a quantidade de canais de segundo plano (ou, em outras palavras, ambientes) e a quantidade de canais de primeiro plano (ou, em outras palavras, predominantes) com base na taxa-alvo de bits 41, de modo a selecionar mais canais de segundo plano e/ou de primeiro plano quando a taxa-alvo de bits 41 é relativamente superior (por exemplo, quando a taxa-alvo de bits 41 é igual ou maior do que 512 Kbps). Em uma modalidade, os numHOATransportChannels podem ser estabelecidos como 8 enquanto a MmAmbHoaOrder pode ser estabelecida como 1 na seção de cabeçalho do fluxo de bits (que é descrito em maiores detalhes em relação às Figuras 10 a 100(ii)). Nesse cenário, em todos os quadros, quatro canais podem ser dedicados a representar a porção de segundo plano ou ambiente do campo sonoro enquanto os outros 4 canais podem, à base de quadro por quadro, variar no tipo de canal - por exemplo, tanto usado como um canal de segundo plano/ambiente adicional quanto um canal de primeiro plano/predominante. Os sinais de primeiro plano/predominantes podem ser tanto um sinal com base em vetor quanto um sinal com base direcional, conforme descrito acima.
[0204] Em algumas ocorrências, a quantidade total de sinais predominantes com base em vetor para um quadro, pode ser determinada através da quantidade de vezes que o índice de ChannelType for 01, no fluxo de bits de tal quadro no exemplo acima. Na modalidade acima, para todos os canais de segundo plano/ambientes adicionais (por exemplo, correspondentes a um ChannelType de 00), informações correspondentes de quais dentre os possíveis coeficientes de HOA (além dos quatro primeiros) pode ser representado no canal. Essas informações, para um conteúdo de HOA de quarta ordem, podem ser um índice para indicar entre 5 a 25 (os quatro primeiros 1 a 4 podem ser enviados todo o tempo quando minAmbHoaOrder é estabelecida como 1, por isso, precisa indicar apenas um dentre 5 a 25). Tais informações podem, portanto, ser enviadas com o uso de um elemento de sintaxe de 5 bits (para conteúdo de 4a ordem), que pode ser denotado como “CodedAmbCoeffldx”.
[0205] Em uma segunda modalidade, todos os sinais de primeiro plano/predominantes são sinais com base em vetor. Em tal segunda modalidade, a quantidade total de sinais de primeiro plano/predominantes pode ser determinada através de nFG = numHOATransportChannels - [(MinAmbHoaOrder +1)2 + a quantidade de vezes que o índice 00].
[0206] A unidade de análise de campo sonoro 44 emite as informações de canal de segundo plano 43 e os coeficientes de HOA 11 para a unidade de seleção de segundo plano (BG) 46, as informações de canal de segundo plano 43 para a unidade de redução de coeficiente 46 e a unidade de geração de fluxo de bits 42 e a nFG 45 para uma unidade de seleção de primeiro plano 36.
[0207] Em alguns exemplos, a unidade de análise de campo sonoro 44 pode selecionar, com base em uma análise dos vetores da matriz 33 U.S.[k] e na taxa-alvo de bits 41, uma quantidade de variável de tais componentes que tenha o maior valor. Em outras palavras, a unidade de análise de campo sonoro 44 pode determinar um valor para uma variável A (que pode ser similar ou substancialmente similar a NBG), que separa dois subespaços, através da análise do declive da curva criada através dos valores diagonais descendentes dos vetores da matriz 33 S[k], em que os grandes valores singulares representam sons de primeiro plano ou distintos e os baixos valores singulares representam componentes de segundo plano do campo sonoro. Ou seja, a variável A pode segmentar o campo sonoro geral para formar um subespaço de primeiro plano e um subespaço de segundo plano.
[0208] Em alguns exemplos, a unidade de análise de campo sonoro 44 pode usar um primeiro e um segundo derivativo da curva de valor singular. A unidade de análise de campo sonoro 44 também pode limitar o valor para que a variável A seja entre um e cinco. Como outro exemplo, a unidade de análise de campo sonoro 44 pode limitar o valor da variável A para que seja entre um e (N+1)2. Alternativamente, a unidade de análise de campo sonoro 44 pode predefinir o valor para a variável A, tal como para um valor de quatro. De qualquer forma, com base no valor de A, a unidade de análise de campo sonoro 44 determina a quantidade total de canais de primeiro plano (nFG) 45, a ordem do campo sonoro de segundo plano (NBG) e a quantidade (NBGa) e os índices (i) de canais de HOA de BG adicionais a serem enviados.
[0209] Ademais, a unidade de análise de campo sonoro 44 pode determinar a energia dos vetores na matriz 35 V[k] a uma base por vetor. A unidade de análise de campo sonoro 44 pode determinar a energia para cada um dos vetores na matriz 35 V[k] e identificar os que têm uma alta energia como componentes de primeiro plano.
[0210] Ademais, a unidade de análise de campo sonoro 44 pode realizar várias outras análises em relação aos coeficientes de HOA 11, inclusive uma análise de energia espacial, uma análise de mascaramento espacial, uma análise de difusão ou outras formas de análises auditivas. A unidade de análise de campo sonoro 44 pode realizar a análise de energia espacial através da transformação dos coeficientes de HOA 11 em áreas de identificação e domínio espacial de alta energia representativas de componentes direcionais do campo sonoro que devem ser preservadas. A unidade de análise de campo sonoro 44 pode realizar a análise de mascaramento espacial perceptiva de uma maneira similar à da análise de energia espacial, com a exceção de que a unidade de análise de campo sonoro 44 pode identificar áreas espaciais que são mascaradas através de sons de energia superior espacialmente próximos. A unidade de análise de campo sonoro 44 pode, em seguida, com base nas áreas perceptivamente mascaradas, identificar menos componentes de primeiro plano em alguns casos. A unidade de análise de campo sonoro 44 pode realizar adicionalmente uma análise de difusão em relação aos coeficientes de HOA 11 para identificar áreas de energia difusa que podem representar componentes de segundo plano do campo sonoro.
[0211] A unidade de análise de campo sonoro 44 também pode representar uma unidade configurada para determinar saliência, distinção ou predominância de dados de áudio que representam um campo sonoro, com o uso de informações com base em direcionalidade associadas aos dados de áudio. Embora as determinações com base em energia possam aprimorar a rederização de um campo sonoro decomposto através de SVD para identificar componentes de áudio distintos do campo sonoro, as determinações com base em energia também podem fazer com que um dispositivo identifique erroneamente componentes de áudio de segundo plano como componentes de áudio distintos, em casos em que Os componentes de áudio de segundo plano exibem um alto nível de energia. Ou seja, uma separação somente com base em energia de componentes de áudio distintos e de segundo plano pode não ser robusta, enquanto os componentes de áudio de segundo plano energéticos (por exemplo, mais altos) podem ser incorretamente identificados como componentes de áudio distintos. Distinguir de modo mais robusto entre componentes de áudio distintos e de segundo plano do campo sonoro, vários aspectos das técnicas descritas na presente revelação possibilitam que a unidade de análise de campo sonoro 44 realize uma análise com base em direcionalidade dos coeficientes de HOA 11 para separar os componentes de primeiro plano e ambientes a partir das versões decompostas dos coeficientes de HOA 11.
[0212] Nesse aspecto, a unidade de análise de campo sonoro 44 podem representar uma unidade configurada ou, de outro modo, operável para identificar elementos distintos (ou de primeiro plano) de elementos de segundo plano incluído em um ou mais dos vetores na matriz 33 U.S.[k] e os vetores na matriz 35 V[k]. De acordo com algumas técnicas com base em SVD, os componentes mais energéticos (por exemplo, os poucos primeiros vetores de uma ou mais dentre a matriz 33 U.S.[k] e a matriz 35 V[k] ou vetores derivados das mesmas) podem ser tratados como componentes distintos. Entretanto, os componentes mais energéticos (que são representados por vetores) de um ou mais dos vetores na matriz 33 U.S.[k] e os vetores na matriz 35 V[k] podem, em todos os cenários, não representar os componentes/sinais que são os mais direcionais.
[0213] A unidade de análise de campo sonoro 44 pode implantar um ou mais aspectos das técnicas descritas no presente documento para identificar elementos de primeiro plano/direto/predominante com base na direcionalidade dos vetores de um ou mais dos vetores na matriz 33 U.S.[k] e os vetores na matriz 35 V[k] ou vetores derivados das mesmas. Em alguns exemplos, a unidade de análise de campo sonoro 44 pode identificar ou selecionar como componentes de áudio distintos (em que os componentes também podem ser denominados como “objetos”), um ou mais vetores tanto com base na energia quanto na direcionalidade dos vetores. Por exemplo, a unidade de análise de campo sonoro 44 pode identificar os vetores de um ou mais dos vetores na matriz 33 U.S.[k] e os vetores na matriz 35 V[k] (ou vetores derivados das mesmas) que exibem tanto alta energia quanto alta direcionalidade (por exemplo, representado como um quociente de direcionalidade) como componentes de áudio distintos. Como um resultado, se a unidade de análise de campo sonoro 44 determina que um vetor particular é relativamente menos direcional quando comparado com outros vetores de um ou mais dos vetores na matriz 33 U.S.[k] e os vetores na matriz 35 V[k] (ou vetores derivados a partir das mesmas), então, independentemente do nível de energia associado ao vetor particular, a unidade de análise de campo sonoro 44 pode determinar que o vetor particular representa componentes de áudio de segundo plano (ou ambiente) do campo sonoro representado através dos coeficientes de HOA 11.
[0214] Em alguns exemplos, a unidade de análise de campo sonoro 44 pode identificar objetos de áudio distintos (que, conforme observado acima, também podem ser denominados como “componentes”) com base na direcionalidade, realizando-se as seguintes operações. A unidade de análise de campo sonoro 44 pode multiplicar (por exemplo, com o uso de um ou mais processos de multiplicação de matriz) vetores na matriz S[k] (que podem ser derivados dos vetores 33 U.S.[k] ou, embora não seja mostrado no exemplo da Figura 4, separadamente emitidos pela unidade de LIT 30) através dos vetores na matriz 35 V[k]. Multiplicando-se a matriz 35 V[k] e os vetores S[k], a unidade de análise de campo sonoro 44 pode obter matriz VS[K]. Adicionalmente, a unidade de análise de campo sonoro 44 pode elevar ao quadrado (isso é, exponenciar a uma potência de dois) pelo menos uma parte das entradas de cada um dos vetores na matriz VS[K]. Em algumas ocorrências, a unidade de análise de campo sonoro 44 pode somar as entradas elevadas ao quadrado de cada vetor que são associadas a uma ordem maior do que 1.
[0215] Como um exemplo, se cada vetor da matriz VS[K], que inclui 25 entradas, a unidade de análise de campo sonoro 44 pode, em relação a cada vetor, elevar ao quadrado as entradas de cada vetor, a começar na quinta entrada e terminando na décima quinta entrada, de modo a somar as entradas elevadas ao quadrado para determinar um quociente de direcionalidade (ou um indicador de direcionalidade). Cada operação de soma pode resultar em um quociente de direcionalidade para um vetor correspondente. Nesse exemplo, a unidade de análise de campo sonoro 44 pode determinar que as entradas de cada fileira que estão associadas a uma ordem menor ou igual a 1, designadamente, da primeira até a quarta entradas, são mais genericamente direcionadas à quantidade de energia e menos à direcionalidade de tais entradas. Ou seja, a menor ordem ambissônica associada a uma ordem de zero ou um corresponde às funções de base esférica que, conforme ilustrado na Figura 1 e na Figura 2, não fornece muitos termos da direção da onda de pressão, mas em vez disso, fornece volume (que é representativo de energia).
[0216] As operações descritas no exemplo acima também podem ser expressadas de acordo com o seguinte pseudocódigo. O pseudocódigo abaixo inclui anotações, sob a forma de instruções de comentário que estão incluídas nos casos consecutivos das cadeias de caracteres “/*” e “*/” (sem aspas).
Figure img0022
[0217] /* A próxima linha é direcionada à análise de cada fileira independentemente e a soma dos valores na primeira fileira (como um exemplo) a partir da quinta entrada até a décima quinta entrada para determinar um quociente de direcionalidade ou métrica de direcionalidade para um vetor correspondente. Elevar ao quadrado as entradas antes da soma. As entradas em cada fileira que está associada a uma ordem maior do que 1 são associadas a uma ordem ambissônica mais alta e têm, portanto, uma maior probabilidade de serem direcionais.
Figure img0023
[0218] /* A próxima linha é direcionada ao sortimento da soma de quadrados para a matriz VS gerada e a seleção de um conjunto dos maiores valores (por exemplo, três ou quatro dos maiores valores)
Figure img0024
[0219] Em outras palavras, de acordo com o pseudocódigo acima, a unidade de análise de campo sonoro 44 pode selecionar entradas de cada vetor da matriz VS[K] decompostas a partir dos coeficientes de HOA 11 que correspondem a uma função de base esférica que tem uma ordem maior do que um. A unidade de análise de campo sonoro 44 pode, em seguida, elevar ao quadrado essas entradas para cada vetor da \matriz S[k], de modo a somar as entradas elevadas ao quadrado para identificar, computar ou, de outro modo, determinar uma métrica de direcionalidade ou quociente para cada vetor da matriz VS[K]. Em seguida, a unidade de análise de campo sonoro 44 pode sortir os vetores da matriz VS[K] com base nas respectivas métricas de direcionalidade de cada um dos vetores. A unidade de análise de campo sonoro 44 pode sortir tais vetores em uma ordem descendente de métricas de direcionalidade, de modo que os vetores com a mais alta direcionalidade correspondente sejam os primeiros e os vetores com a mais baixa direcionalidade correspondente sejam os últimos. A unidade de análise de campo sonoro 44 pode, em seguida, selecionar o subconjunto diferente de zero dos vetores que têm a maior métrica de direcionalidade relativa.
[0220] A unidade de análise de campo sonoro 44 pode realizar qualquer combinação das análises de primeiro plano para determinar a quantidade total de formações de instâncias de codificador psicoacústico (que podem ser uma função da quantidade total de canais ambientes ou de segundo plano (BGTOT) e a quantidade de canais de primeiro plano. A unidade de análise de campo sonoro 44 pode, com base em qualquer combinação das análises de primeiro plano, determinar a quantidade total de canais de primeiro plano (nFG) 45, a ordem do campo sonoro de segundo plano (NBG) e a quantidade (NBGa) e índices (i) de canais de HOA de BG adicionais para enviar (que podem, coletivamente, ser denotados como informações de canal de segundo plano 43 no exemplo da Figura 4).
[0221] Em alguns exemplos, a unidade de análise de campo sonoro 44 pode realizar tal análise a cada M-amostras, que podem ser reprocessadas como em uma base de quadro por quadro. Nesse aspecto, o valor para A pode variar de quadro para quadro. Um caso de um fluxo de bits em que a decisão é realizada a cada M-amostras é mostrado nas Figuras 10 a 100(ii). Em outros exemplos, a unidade de análise de campo sonoro 44 pode realizar essa análise mais do que uma vez por quadro, de modo a analisar duas ou mais porções do quadro. Consequentemente, as técnicas não devem ser limitadas, nesse sentido, aos exemplos descritos na presente revelação.
[0222] A unidade de seleção de segundo plano 48 pode representar uma unidade configurada para determinar coeficientes de HOA de segundo plano ou ambientes 47 com base nas informações de canal de segundo plano (por exemplo, o campo sonoro de segundo plano (NBG) e a quantidade (NBGa) e os índices (i) de canais de HOA de BG adicionais a serem enviados). Por exemplo, quando NBG é igual a um, a unidade de seleção de segundo plano 48 pode selecionar os coeficientes de HOA 11 para cada amostra do quadro de áudio que tem uma ordem igual ou menor do que um. A unidade de seleção de segundo plano 48 pode, nesse exemplo, então, selecionar os coeficientes de HOA 11 que têm um índice identificado através de um dos índices (i) como coeficientes de HOA de BG adicionais, e que a NBGa é fornecida à unidade de geração de fluxo de bits 42 para ser especificada no fluxo de bits 21 de modo a habilitar o dispositivo de decodificação de áudio, tal como o dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 3, para analisar os coeficientes de HOA de BG 47 a partir do fluxo de bits 21. A unidade de seleção de segundo plano 48 pode, em seguida, emitir os coeficientes de HOA ambientes 47 para a unidade de compensação de energia 38. Os coeficientes de HOA ambientes 47 podem ter dimensões D: Mx [(NBG+1)2 + NBGa].
[0223] A unidade de seleção de primeiro plano 36 pode representar uma unidade configurada para selecionar aquelas dentre a matriz 33 U.S.[k]’ reordenada e a matriz 35 V[k]’ reordenada que representa os componentes de primeiro plano ou distintos do campo sonoro com base em nFG 45 (que pode representar um ou mais índices que identificam tais vetores de primeiro plano). A unidade de seleção de primeiro plano 36 pode emitir sinais de nFG 49 (que podem ser denotados como uma U.S.[k]1 reorganizada, NFG 49, FG1, nfG[k] 49, ou
Figure img0025
para a unidade de codificador de áudio psicoacústico 40, em que os sinais de nFG 49 podem ter as dimensões D: M x nFG e cada um representa objetos de monoáudio. A unidade de seleção de primeiro plano 36 também pode emitir a matriz 35 V[k]’ reordenada (ou v''-""' ') (k) 35’) que corresponde aos componentes de primeiro plano do campo sonoro para a unidade de interpolação espaço-temporal 50, em que aquelas das matrizes 35 V[k]’ reordenadas correspondentes aos componentes de primeiro plano podem ser denotadas como matriz 5"" V[k] de primeiro plano (que podem ser matematicamente denotadas como
Figure img0026
) que têm dimensões D: (N+")2 x nFG. A unidade de compensação de energia 38 pode representar uma unidade configurada para realizar compensação de energia em relação aos coeficientes de HOA ambientes 47 para compensar pela perda de energia devido à remoção de vários dentre os canais de HOA através da unidade de seleção de segundo plano 48. A unidade de compensação de energia 38 pode realizar uma análise de energia em relação a uma ou mais dentre a matriz 33 U.S.[k] ‘ reordenada, a matriz 35 V[k]’ reordenada, os sinais de nFG 49, os vetores 5"k V[k] reordenados e os coeficientes de HOA ambientes 47 e, em seguida, realizar a compensação de energia com base em tal análise de energia para gerar os coeficientes de HOA ambientes 47’ de energia compensada. A unidade de compensação de energia 38 pode emitir os coeficientes de HOA ambientes 47’ de energia compensada para a unidade de codificador de áudio psicoacústico 40.
[0224] Efetivamente, a unidade de compensação de energia 38 pode ser usada para compensar por possíveis reduções na energia geral dos componentes de som de segundo plano do campo sonoro geradas pela redução da ordem dos ambiente componentes do campo sonoro descritos através de coeficientes de HOA "" para gerar os coeficientes de HOA ambientes 47 de ordem reduzida (que, em alguns exemplos, têm uma ordem menor do que N em termos de apenas coeficientes incluídos correspondentes às funções de base esférica que têm as seguintes ordens/subordens: [(NBG+1)2 + NBGa]). Em alguns exemplos, a unidade de compensação de energia 38 compensa por essa perda de energia determinando- se um ganho de compensação sob a forma de valores de amplificação para aplicar a cada uma das colunas [(NBG+1)2 + NBGa] dos coeficientes de HOA ambientes 47 a fim de aumentar a energia de quadrado de média de raiz (RMS) dos coeficientes de HOA ambientes 47 para que seja igual ou pelo menos mais aproximada à RMS dos coeficientes de HOA 11 (conforme determinado através da análise de energia agregada de uma ou mais dentre a matriz 33 U.S.[k]’ reordenada, a matriz 35 V[k]’ reordenada, os sinais de nFG 49, os vetores 511 V[k] de primeiro plano e os coeficientes de HOA ambientes 47 de ordem reduzida), antes de emitir os coeficientes de HOA ambientes 47 para a unidade de codificador de áudio psicoacústico 40.
[0225] Em algumas ocorrências, a unidade de compensação de energia 38 pode identificar a RMS para cada fileira e/ou coluna de uma ou mais dentre a matriz 33 U.S.[k]’ reordenada e a matriz 35 V[k]’ reordenada. A unidade de compensação de energia 38 também pode identificar a RMS para cada fileira e/ou coluna de um ou mais dentre os canais de primeiro plano selecionados, que podem incluir os sinais de nFG 49 e os vetores 511 V[k] de primeiro plano e os coeficientes de HOA ambientes 47 de ordem reduzida. A RMS para cada fileira e/ou coluna da uma ou mais dentre a matriz 33 U.S.[k]’ reordenada e a matriz 35 V[k]’ reordenada pode ser armazenada para um vetor denotado RMSFULL, enquanto a RMS para cada fileira e/ou coluna de um ou mais dentre os sinais de nFG 49, o vetores 511 V[k] de primeiro plano e os coeficientes de HOA ambientes 47 de ordem reduzida podem ser armazenadas para um vetor denotado RMSREDUCED- A unidade de compensação de energia 38 pode, em seguida, computar um vetor de valor de amplificação Z, de acordo com a equação a seguir: Z = RMSFULL/RMSREDUCED. A unidade de compensação de energia 38 pode, em seguida, aplicar esse vetor de valor de amplificação Z ou várias porções do mesmo a um ou mais dos sinais de nFG 49, os vetores 511 V[k] de primeiro plano e os coeficientes de HOA ambientes 47 de ordem reduzida. Em algumas ocorrências, o vetor de valor de amplificação Z é aplicado apenas aos coeficientes de HOA ambientes 47 de ordem reduzida pela equação a seguir HOABG-RED = HOABG_REDZT, em que HOABG-RED denota os coeficientes de HOA ambientes 47 de ordem reduzida, HOABG-RED‘ denota a energia compensada, os coeficientes de HOA ambientes 47’ reduzidos e ZT denota a transposta do vetor Z.
[0226] [0214]. Em alguns exemplos, para determinar cada RMS de respectivas fileiras e/ou colunas de uma ou mais dentre a matriz 33 U.S.[k]’ reordenada, a matriz 35 V[k]’ reordenada, os sinais de nFG 49, os vetores 51k V[k] de primeiro plano e os coeficientes de HOA ambientes 47 de ordem reduzida, a unidade de compensação de energia 38 podem, primeiramente, aplicar um renderizador de coeficientes harmônicos esféricos de referência (SHC) às colunas. A aplicação do renderizador de SHC de referência através da unidade de compensação de energia 38 permite a determinação de RMS no domínio de SHC para determinar a energia do campo sonoro geral descrita através de cada fileira e/ou coluna do quadro representado através de fileiras e/ou colunas de uma ou mais dentre a matriz 33’ XJS[k] reordenada, a matriz 35 V[k]’ reordenada, os sinais de nFG 49, os vetores 511 V[k] de primeiro plano e os coeficientes de HOA ambientes 47 de ordem reduzida, conforme descrito em maiores detalhes abaixo.
[0227] A unidade de interpolação espaço- temporal 50 pode representar uma unidade configurada para receber os vetores 5 V[k] de primeiro plano para o k’-ésimo quadro e os vetores 51k V[k-1] de primeiro plano para o quadro anterior (por isso a notação k-1) e realizar uma interpolação espaço-temporal para gerar vetores V[k] de primeiro plano interpolados. A unidade de interpolação espaço-temporal 50 pode recombinar os sinais de nFG 49 com os vetores 51k V[k] de primeiro plano para recuperar os coeficientes de HOA de primeiro plano reordenados. A unidade de interpolação espaço-temporal 50 pode, em seguida, dividir os coeficientes de HOA de primeiro plano reordenados através dos vetores V[k] interpolados para gerar sinais de nFG 49’ interpolados. A unidade de interpolação espaço-temporal 50 também pode emitir aqueles dentre os vetores 511 V[k] de primeiro plano que foram usados para gerar os vetores V[k] de primeiro plano interpolados, de modo que um dispositivo de decodificação de áudio, tal como o dispositivo de decodificação de áudio 24, possa gerar os vetores V[k] de primeiro plano interpolados e, assim, recuperar os vetores 51k V[k] de primeiro plano. Aqueles dos vetores 51k V[k] de primeiro plano usados para gerar os vetores V[k] de primeiro plano interpolados são denotados como o restante dos vetores 53 V[k] de primeiro plano. A fim de assegurar que os mesmos V[k] e V[k-1] sejam usados no codificador e decodificador, (para criar os vetores V[k] interpolados) versões quantizadas/desquantizadas dos mesmos podem ser usadas no codificador e decodificador.
[0228] Nesse aspecto, a unidade de interpolação espaço-temporal 50 pode representar uma unidade que interpola uma primeira porção de um primeiro quadro de áudio a partir de algumas outras porções do primeiro quadro de áudio e um segundo quadro de áudio temporalmente subsequente ou anterior. Em alguns exemplos, as porções podem ser denotadas como subquadros, em que a interpolação conforme realizada em relação aos subquadros é descrita em maiores detalhes abaixo em relação às Figuras 45 a 46E. Em outros exemplos, a unidade de interpolação espaço-temporal 50 pode operar em relação a uma certa última quantidade de amostras do quadro anterior e uma certa primeira quantidade de amostras do quadro subsequente, conforme descrito em maiores detalhes em relação às Figuras 37 a 39. A unidade de interpolação espaço-temporal 50 pode, durante a realização de tal interpolação, reduzir a quantidade de amostras dos vetores 5 V[k] de primeiro plano que precisam ser especificadas no fluxo de bits 21, devido ao fato de que apenas aqueles dentre os vetores 51k V[k] de primeiro plano que são usados para gerar os vetores V[k] interpolados representam um subconjunto dos vetores 51k V[k] de primeiro plano. Ou seja, a fim de tornar a compressão dos coeficientes de HOA 11 potencialmente mais eficaz (reduzindo-se a quantidade dos vetores 51k V[k] de primeiro plano que são especificados no fluxo de bits 21), vários aspectos das técnicas descritas na presente revelação podem fornecer a interpolação de uma ou mais porções do primeiro quadro de áudio, em que cada uma das porções pode representar versões decompostas dos coeficientes de HOA 11.
[0229] A interpolação espaço-temporal pode resultar em diversos benefícios. Primeiro, os sinais de nFG 49 podem não ser contínuos de quadro para quadro devido à natureza de bloco em que a SVD ou outra LIT é realizada. Em outras palavras, visto que a unidade de LIT 30 aplica a SVD a uma base de quadro por quadro, determinadas descontinuidades podem existir nos coeficientes de HOA transformados resultantes como evidência, por exemplo, pela natureza não ordenada da matriz 33 U.S.[k] e da matriz 35 V[k]. Realizando-se essa interpolação, a descontinuidade pode ser reduzida, visto que a interpolação pode ter um efeito de suavização que reduz, potencialmente, quaisquer artefatos introduzidos devido aos limites de quadro (ou, em outras palavras, segmentação dos coeficientes de HOA 11 de modo a formar quadros). Usar os vetores 51k V[k] de primeiro plano para realizar essa interpolação e, em seguida, gerar os sinais de nFG 49’ interpolados com base nos vetores V[k] 51k de primeiro plano interpolados a partir dos coeficientes de HOA reordenados recuperados pode suavizar pelo menos alguns dos efeitos devido à operação de quadro por quadro, assim como devido à reordenação dos sinais de nFG 49.
[0230] Durante a operação, a unidade de interpolação espaço-temporal 50 pode interpolar um ou mais subquadros de um primeiro quadro de áudio a partir de uma primeira decomposição, por exemplo, os vetores 5 V[k] de primeiro plano, de uma porção de uma primeira pluralidade dos coeficientes de HOA 11 incluídos no primeiro quadro e uma segunda decomposição, por exemplo, vetores 51k-1 V[k] de primeiro plano, de uma porção de uma segunda pluralidade dos coeficientes de HOA 11 incluídos em um segundo quadro para gerar os coeficientes harmônicos esféricos interpolados decompostos para o um ou mais subquadros.
[0231] Em alguns exemplos, a primeira decomposição compreende os primeiros vetores 51k V[k] de primeiro plano representativos de vetores singulares à direita da porção dos coeficientes de HOA 11. De modo semelhante, a segunda decomposição compreende os segundos vetores 51k V[k] de primeiro plano representativos de vetores singulares à direita da porção dos coeficientes de HOA 11.
[0232] Em outras palavras, o áudio em 3D com base harmônica esférica pode ser uma representação paramétrica do campo de pressão em 3D em termos de funções de base ortogonal em uma esfera. Quanto maior for a ordem N da representação, potencialmente maior será a resolução espacial e, frequentemente, maior será a quantidade de coeficientes harmônicos esféricos (SH) (para um total de (N+1)2 coeficientes). Para muitas aplicações, uma compressão de largura de banda dos coeficientes pode ser necessária para que se possa transmitir e armazenar os coeficientes de modo eficaz. Essas técnicas direcionadas na presente revelação podem fornecer um processo de redução de dimensionalidade com base com quadro com o uso de Decomposição de Valor Singular (SVD). A análise de SVD pode decompor cada quadro de coeficientes em três matrizes U, S e V. Em alguns exemplos, as técnicas podem manipular alguns dos vetores na matriz U.S.[k], como os componentes de primeiro plano do campo sonoro subjacente. Entretanto, quando manipulados de tal maneira, esses vetores (na matriz S[k] U) são descontínuos de quadro para quadro - embora os mesmos representem o mesmo componente de áudio distinto. Tais descontinuidades podem levar a artefatos significativos quando os componentes são alimentados através de codificadores de áudio de transformada.
[0233] As técnicas descritas na presente revelação podem solucionar essa descontinuidade. Ou seja, as técnicas podem ter por base a observação de que a matriz V pode ser interpretada como eixos espaciais ortogonais no domínio Harmônico Espacial. A matriz U[k] pode representar uma projeção dos dados Harmônicos Esféricos (HOA) nos termos de tais funções de base, em que a descontinuidade pode ser atribuída a eixos geométricos espaciais ortogonais (V[k]) que são alterados em todos os quadros - e são, portanto, descontínuos em si. Isso é diferente de uma decomposição similar, tal como a Transformada de Fourier, em que as funções de base são, em alguns exemplos, constantes de quadro para quadro. Nesses termos, a SVD pode ser considerada como um algoritmo de busca de compatibilidade. As técnicas descritas na presente revelação possibilitam que a unidade de interpolação espaço-temporal 50 mantenha a continuidade entre as funções de base (V[k]) de quadro para quadro - através da interpolação entre os mesmos.
[0234] Conforme observado acima, a interpolação pode ser realizada em relação às amostras. Esse caso é generalizado na descrição acima quando os subquadros compreendem um único conjunto de amostras. Tanto no caso de interpolação sobre as amostras quanto sobre os subquadros, a operação de interpolação pode assumir a forma da equação a seguir:
Figure img0027
[0235] Nessa equação acima, a interpolação pode ser realizada em relação ao único V-vetor v (k) a partir do único V-vetor v(k— 1) que, em uma modalidade, poderia representar V-vetores dos quadros adjacentes k e k- 1. Na equação acima, /, representa a resolução através da qual a interpolação é executada, em que / pode indicar uma amostra de número inteiro e / = 1, T (em que T é o comprimento de amostras através das quais a interpolação é executada e através das quais os vetores interpolados emitidos,
Figure img0028
são necessários e também indica que a saída de tal processo produz / de tais vetores). Alternativamente, / pode indicar subquadros que consistem em múltiplas amostras. Quando, por exemplo, um quadro é dividido em quatro subquadros, / pode compreender valores de 1, 2, 3 e 4, para cada um dos subquadros. O valor de / pode ser sinalizado como um campo denominado “CodedSpatiallnterpolationTime” através de um fluxo de bits - de modo que a operação de interpolação possa ser replicada no decodificador. A w(Z) pode compreender valores das ponderações de interpolação. Quando a interpolação é linear, w(7) pode variar linearmente e monotonicamente entre 0 e 1, como uma função de /. Em outros casos, w(Z) pode variar entre 0 e 1 de uma maneira não linear, porém, monotônica (tal como um quarto de ciclo de um cosseno elevado) como uma função de /. A função, w(Z), pode ser indexada entre algumas diferentes possibilidades de funções e sinalizada no fluxo de bits como um campo denominado “SpatiallnterpolationMethod” de modo que a operação de interpolação idêntica possa ser replicada pelo decodificador. Quando w(Z) é um valor próximo de 0, a saída,
Figure img0029
) pode ser altamente ponderada ou influenciada por v(k— 1). Enquanto quando w(Z) é um valor próximo de 1, isso assegura que a saída,
Figure img0030
, seja altamente ponderada ou influenciada por v(k— 1).
[0236] A unidade de redução de coeficiente 46 pode representar uma unidade configurada para realizar redução de coeficiente em relação aos vetores 53 V[k] de primeiro plano restantes com base nas informações de canal de segundo plano 43 para emitir vetores 55 V[k] de primeiro plano reduzidos para a unidade de quantização 52. Os vetores 55 V[k] de primeiro plano reduzidos podem ter dimensões D:
Figure img0031
[0237] A unidade de redução de coeficiente 46 pode, nesse aspecto, representar uma unidade configurada para reduzir a quantidade de coeficientes dos vetores 53 V[k] de primeiro plano restantes. Em outras palavras, a unidade de redução de coeficiente 46 pode representar uma unidade configurada para eliminar os coeficientes dos vetores V[k] de primeiro plano(que formam os vetores 53 V[k] de primeiro plano restantes) que têm pouca ou nenhuma informação direcional. Conforme descrito acima, em alguns exemplos, os coeficientes dos vetores V[k] distintos ou, em outras palavras, vetores V[k] de primeiro plano correspondentes a funções de base de primeira ordem e ordem zero (que podem ser denotadas como NBG) fornecem poucas informações direcionais e, portanto, podem ser removidos dos vetores V de primeiro plano (através de um processo que pode ser chamado de “redução de coeficiente”). Nesse exemplo, uma maior flexibilidade pode ser fornecida, não apenas para identificar tais coeficientes que correspondem a NBG, mas para identificar canais de HOA adicionais (que podem ser chamados de TotalOfAddAmbHOAChan variável) a partir do conjunto de
Figure img0032
. A unidade de análise de campo sonoro 44 pode analisar os coeficientes de HOA 11 para determinar BGTOT, o que pode identificar, não apenas a (NBG+1)2, mas o TotalOfAddAmbHOAChan, que pode ser chamado, coletivamente, de as informações de canal de segundo plano 43. A unidade de redução de coeficiente 46 pode, em seguida, remover os coeficientes correspondentes a
Figure img0033
e o TotalOfAddAmbHOAChan dos vetores 53 V[k] de primeiro plano restantes para gerar uma matriz 55 dimensional V[k] menor de tamanho
Figure img0034
nFG, que também pode ser denominada como os vetores 55 V[k] de primeiro plano.
[0238] A unidade de quantização 52 pode representar uma unidade configurada para realizar qualquer forma de quantização para comprimir os vetores 55 V[k] de primeiro plano reduzidos para gerar vetores 57 V[k] de primeiro plano codificados, de modo a emitir tais vetores 57 V[k] de primeiro plano codificados para a unidade de geração de fluxo de bits 42. Durante a operação, a unidade de quantização 52 pode representar uma unidade configurada para comprimir um componente espacial do campo sonoro, isso é, um ou mais dos vetores 55 V[k] de primeiro plano reduzidos no presente exemplo. Com propósitos de exemplo, presume-se que os vetores 55 V[k] de primeiro plano reduzidos incluem duas fileiras de vetores que têm, como um resultado da redução de coeficiente, menos do que 25 elementos, cada, (o que implica uma representação de HOA de quarta ordem do campo sonoro). Embora esteja descrito em relação a vetores de duas fileiras, qualquer quantidade de vetores pode ser incluída nos vetores 55 V[k] de primeiro plano reduzidos até (N+1)2, em que n denota a ordem da representação de HOA do campo sonoro. Ademais, embora esteja descrito abaixo de modo a realizar uma quantização de escala e/ou de entropia, a unidade de quantização 52 pode realizar qualquer forma de quantização que resulte na compressão dos vetores 55 V[k] de primeiro plano reduzidos.
[0239] A unidade de quantização 52 pode receber os vetores 55 V[k] de primeiro plano reduzidos e realizar um esquema de compressão para gerar vetores 57 V[k] de primeiro plano codificados. Esse esquema de compressão pode envolver qualquer esquema de compressão concebível para comprimir elementos de um vetor ou dados genericamente e não deve ser limitado ao exemplo descrito abaixo em maiores detalhes. A unidade de quantização 52 pode realizar, como um exemplo, um esquema de compressão que inclui um ou mais dentre: transformar representações de ponto flutuante de cada elemento dos vetores 55 V[k] de primeiro plano reduzidos em representações de número inteiro de cada elemento dos vetores 55 V[k] de primeiro plano reduzidos, quantização uniforme das representações de número inteiro dos vetores 55 V[k] de primeiro plano reduzidos e categorização e codificação das representações de número inteiro quantizadas dos vetores 55 V[k] de primeiro plano restantes.
[0240] Em alguns exemplos, vários dentre o um ou mais processos do presente esquema de compressão podem ser dinamicamente controlados através de parâmetros para alcançar ou aproximadamente alcançar, como um exemplo, uma taxa-alvo de bits para o fluxo de bits 21 resultante. Visto que cada um dos vetores 55 V[k] de primeiro plano reduzidos é ortonormal em relação aos outros, cada um dentre os vetores 55 V[k] de primeiro plano reduzidos pode ser codificado independentemente. Em alguns exemplos, conforme descrito em maiores detalhes abaixo, cada elemento de cada um dos vetores 55 V[k] de primeiro plano reduzidos pode ser codificado com o uso do mesmo modo de codificação (definido através de vários submodos).
[0241] De qualquer forma, conforme observado acima, esse esquema de codificação pode, primeiramente, envolver a transformação das representações de ponto flutuante de cada elemento (que é, em alguns exemplos, um número de ponto flutuante de 32 bits) de cada um dos vetores 55 V[k] de primeiro plano reduzidos para uma representação de número inteiro de 16 bits. A unidade de quantização 52 pode realizar essa transformação de ponto flutuante para número inteiro multiplicando-se cada elemento de um específico dentre os vetores 55 V[k] de primeiro plano reduzidos por 215, que é, em alguns exemplos, realizado através de um deslocamento à direita por 15.
[0242] A unidade de quantização 52 pode, em seguida, realizar a quantização uniforme em relação a todos os elementos do específico dentre os vetores 55 V[k] de primeiro plano reduzidos. A unidade de quantização 52 pode identificar um tamanho de etapa de quantização com base em um valor, que pode ser denotado com um parâmetro de nbits. A unidade de quantização 52 pode determinar dinamicamente esse parâmetro de nbits com base na taxa-alvo de bits 41. A unidade de quantização 52 pode determinar o tamanho de etapa de quantização como uma função de tal parâmetro de nbits. Como um exemplo, a unidade de quantização 52 pode determinar o tamanho de etapa de quantização (denotado como “delta” ou “Δ” na presente revelação) como igual a 2l6-nbits. Nesse exemplo, se nbits for igual a seis, delta é igual a 210 e há 26 níveis de quantização. Nesse aspecto, para um elemento de vetor v, o elemento de vetor quantizado qq é igual a
Figure img0035
[0243]A unidade de quantização 52 pode, em seguida, realizar a categorização e codificação residual dos elementos de vetor quantizados. Como um exemplo, a unidade de quantização 52 pode, para um determinado elemento de vetor quantizado vq, identificar uma categoria (determinando-se um cid identificador de categoria) à qual esse elemento corresponde com o uso da equação a seguir:
Figure img0036
[0244] A unidade de quantização 52 pode, então, usar o código de Huffman nesse cid de índice de categoria, enquanto também identifica um bit de sinal que indica se vq é um valor positivo ou um valor negativo. A unidade de quantização 52 pode, em seguida, identificar um resíduo nessa categoria. Como um exemplo, a unidade de quantização 52 pode determinar esse resíduo de acordo com a equação a seguir:
Figure img0037
[0245] A unidade de quantização 52 pode, então, codificar em bloco esse resíduo com cid-l bits.
[0246] O exemplo a seguir ilustra um exemplo simplificado desse processo de categorização e codificação residual. Primeiramente, presume-se que nbits seja igual a seis, de modo que vq □ [-31,31]. Em seguida, presume-se o seguinte:
Figure img0038
[0247] Além disso, presume-se o seguinte:
Figure img0039
Figure img0040
[0248] Assim, para um \>q = [6, -17, 0, 0, 3], o seguinte pode ser determinado:
[0249] » cid = 3,5,0,0,2
[0250] » sinal = 1,0,x,x,l
[0251] » resíduo = 2,1,x,x, 1
[0252] » Bits para 6 = ‘0010’ + 1 ‘ + ‘ 10’
[0253] » Bits para -17 = ‘00111 ‘ + 'O’ + ‘0001‘
[0254] » Bits para 0 = ‘0’
[0255] » Bits para 0 = ‘0’
[0256] » Bits para 3 = ‘000’ + ‘ l ‘ + ‘ l ‘
[0257] » Bits totais = 7 + 10+ 1 + 1 +5 = 24
[0258] » Bits médios = 24/5 = 4,8 Embora não mos trado no exemplo simplificado supracitado, a unidade de quantização 52 pode selecionar diferentes livros de códigos de Huffman para diferentes valores de nbits durante a codificação do cid. Em alguns exemplos, a unidade de quantização 52 pode fornecer uma tabela de codificação de Huffman diferente para valores de nbits 6,..., 15. Além disso, a unidade de quantização 52 pode incluir cinco livros de códigos de Huffman diferentes para cada um dos diferentes valores de nbits na faixa de 6,...15 para um total de 50 livros de códigos de Huffman. Nesse aspecto, a unidade de quantização 52 pode incluir uma pluralidade de diferentes livros de códigos de Huffman para acomodar a codificação do cid em diversos contextos estatísticos diferentes.
[0259] Para ilustrar, a unidade de quantização 52 pode, para cada um dos valores de nbits, incluir um primeiro livro de códigos de Huffman para codificar os elementos de vetor de um a quatro, um segundo livro de códigos de Huffman para codificar os elementos de vetor de cinco a nove, um terceiro livro de códigos de Huffman para codificar os elementos de vetor de nove em diante. Esses primeiros três livros de códigos de Huffman podem ser usados quando um dentre os vetores 55 V[k] de primeiro plano reduzidos a serem comprimidos não for previsto a partir de um dos vetores 55 V[k] de primeiro plano reduzidos correspondentes temporalmente subsequentes e não for representativo de informações espaciais de um objeto de áudio sintético (um definido, por exemplo, originalmente por um objeto de áudio modulado por código de pulso (PCM)). A unidade de quantização 52 pode incluir adicionalmente, para cada um dos valores de nbits, um quarto livro de códigos de Huffman para codificar um dentre os vetores 55 V[k] de primeiro plano reduzidos quando o mesmo dentre os vetores 55 V[k] de primeiro plano reduzidos for previsto a partir de um dos vetores 55 V[k] de primeiro plano reduzidos correspondente temporalmente subsequente. A unidade de quantização 52 também pode incluir, para cada um dos valores de nbits, um quinto livro de códigos de Huffman para codificar o um dentre os vetores 55 V[k] de primeiro plano reduzidos quando o mesmo dentre os vetores 55 V[k] de primeiro plano reduzidos for representativo de um objeto de áudio sintético. Os vários livros de códigos de Huffman podem ser desenvolvidos para cada um desses diferentes contextos estatísticos, isso é, o contexto não previsto e não sintético, o contexto previsto e o contexto sintético nesse exemplo.
[0260] A tabela a seguir ilustra a seleção de tabela de Huffman e os bits a serem especificados no fluxo de bits para permitir que a unidade de descompressão selecione a tabela de Huffman apropriada:
Figure img0041
[0261] Na tabela supracitada, o modo de previsão (“Modo de prev”) indica se a previsão foi realizada para o vetor atual, enquanto a Tabela de Huffman (“info de HT”) indica as informações de livro de códigos (ou tabela) de Huffman adicionais usadas para selecionar uma dentre as tabelas de Huffman de um a cinco.
[0262] A tabela a seguir ilustra adicionalmente esse processo de seleção de tabela de Huffman considerando-se vários contextos ou cenários estatísticos.
Figure img0042
[0263] Na tabela supracitada, a coluna “Registro” indica o contexto de codificação quando o vetor é representativo de um objeto de áudio que foi registrado enquanto a coluna “Sintético” indica um contexto de codificação para quando o vetor é representativo de um objeto de áudio sintético. A fileira “Sem Previsão” indica o contexto de codificação quando a previsão não é realizada em relação aos elementos de vetor, enquanto a fileira “Com previsão” indica o contexto de codificação quando a previsão é realizada em relação aos elementos de vetor. Conforme mostrado nessa tabela, a unidade de quantização 52 seleciona HT{1, 2, 3} quando o vetor é representativo de um objeto de áudio registrado e a previsão não é realizada em relação aos elementos de vetor. A unidade de quantização 52 seleciona HT5 quando o objeto de áudio é representativo de um objeto de áudio sintético e a previsão não é realizada em relação aos elementos de vetor. A unidade de quantização 52 seleciona HT4 quando o vetor é representante de um objeto de áudio registrado e a previsão é realizada em relação aos elementos de vetor. A unidade de quantização 52 seleciona HT5 quando o objeto de áudio é representativo de um objeto de áudio sintético e a previsão é realizada em relação aos elementos de vetor.
[0264] Nesse aspecto, a unidade de quantização 52 pode realizar a quantização de escala e/ou codificação de Huffman observadas acima para comprimir os vetores 55 V[k] de primeiro plano reduzidos, de modo a emitir os vetores 57 V[k] de primeiro plano codificados, que podem ser chamados de informações de canal auxiliar 57. Essas informações de canal auxiliar 57 podem incluir elementos de sintaxe usados para codificar os vetores 55 V[k] de primeiro plano restantes. A unidade de quantização 52 pode emitir as informações de canal auxiliar 57 de uma maneira similar à mostrada no exemplo de uma das Figuras 10B e 10c.
[0265] Conforme observado acima, a unidade de quantização 52 pode gerar elementos de sintaxe para as informações de canal auxiliar 57. Por exemplo, a unidade de quantização 52 pode especificar um elemento de sintaxe em um cabeçalho de uma unidade de acesso (que pode incluir um ou mais quadros) que denota qual dentre a pluralidade de modos de configuração foi selecionado. Embora seja descrito como especificado a uma base por unidade de acesso, a unidade de quantização 52 pode especificar esse elemento de sintaxe a uma base por quadro ou qualquer outra base periódica ou base não periódica (tal como uma vez para todo o fluxo de bits). De qualquer forma, esse elemento de sintaxe pode compreender dois bits que indicam qual dos modos de configuração de quadro foram selecionados para especificar o conjunto de coeficientes diferente de zero dos vetores 55 V[k] de primeiro plano reduzidos para representar os aspectos direcionais desse componente distinto. O elemento de sintaxe pode ser denotado como “codedVVecLength”. Dessa maneira, a unidade de quantização 52 pode sinalizar ou, de outro modo, especificar no fluxo de bits quais dos modos de configuração de quadro foram usados para especificar os vetores 57 V[k] de primeiro plano codificados no fluxo de bits. Embora seja descrito em relação aos modos de configuração de quadro, as técnicas não devem ser limitadas a modos de configuração de quadro, mas a qualquer outra quantidade de modos de configuração, inclusive um único modo de configuração ou uma pluralidade de modos de configuração. A unidade de quantização de escala/de entropia 53 também pode especificar a sinalização 63 como outro elemento de sintaxe nas informações de canal auxiliar 57.
[0266] A unidade de codificador de áudio psicoacústico 40 incluída no dispositivo de codificação de áudio 20 pode representar múltiplos casos de um codificador de áudio psicoacústico, cada um dos quais é usado para codificar um objeto de áudio ou canal de HOA diferente de cada um dos coeficientes de HOA 47’ ambientes de energia compensada e os sinais de nFG 49’ interpolados para gerar coeficientes de HOA ambientes 59 codificados e sinais de nFG 61 codificados. A unidade de codificador de áudio psicoacústico 40 pode emitir os coeficientes de HOA ambientes 59 codificados e os sinais de nFG 61 codificados para a unidade de geração de fluxo de bits 42.
[0267] Em algumas ocorrências, essa unidade de codificador de áudio psicoacústico 40 pode representar um ou mais casos de uma unidade de criptografia de codificação de áudio (AAC) avançada. A unidade de codificador de áudio psicoacústico 40 pode codificar cada coluna ou fileira dos coeficientes de HOA ambientes 47’ de energia compensada e os sinais de nFG 49’ interpolados. Frequentemente, a unidade de codificador de áudio psicoacústico 40 pode invocar uma instância de uma unidade de criptografia de AAC para cada uma dentre as combinações de ordem/subordem restantes nos coeficientes de HOA ambientes 47’ de energia compensada e os sinais de nFG 49’ interpolados. Mais informações a respeito de como os coeficientes harmônicos esféricos de segundo plano 31 podem ser codificados com o uso de uma unidade de criptografia de AAC podem ser encontradas em um trabalho de convenção por Eric Hellerud, et al, intitulado “Encoding Higher Order Ambisonics with AAC”, apresentado na 124-ésima Convenção, em maio de 2008 17 a 20 e disponível em: http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025&conte xt=engpapers. Em algumas ocorrências, a unidade de criptografia de áudio 14 pode codificar o áudio dos coeficientes de HOA ambientes 47’ de energia compensada com o uso de uma taxa-alvo de bits inferior à usada para codificar os sinais de nFG 49’ interpolados, potencialmente comprimindo mais assim, os coeficientes de HOA ambientes 47’ de energia compensada em comparação com os sinais de nFG 49’ interpolados. [0240] A unidade de geração de fluxo de bits 42 incluída no dispositivo de codificação de áudio 20 representa uma unidade que formata dados para estar em conformidade com um formato conhecido (que pode se referir a um formato conhecido por um dispositivo de decodificação), de modo a gerar, assim, o fluxo de bits 21 com base em vetor. A unidade de geração de fluxo de bits 42 pode representar um multiplexador em alguns exemplos, que pode receber os vetores 57 V[k] de primeiro plano codificados, os coeficientes de HOA ambientes 59 codificados, os sinais de nFG 61 codificados e as informações de canal de segundo plano 43. A unidade de geração de fluxo de bits 42 pode, em seguida, gerar um fluxo de bits 21 com base nos vetores 57 V[k] de primeiro plano codificados, nos coeficientes de HOA ambientes 59 codificados, nos sinais de nFG 61 codificados e nas informações de canal de segundo plano 43. O fluxo de bits 21 pode incluir um fluxo de bits primário ou principal e um ou mais fluxos de bits de canal auxiliar.
[0268] Embora não seja mostrado no exemplo da Figura 4, o dispositivo de codificação de áudio 20 também pode incluir uma unidade de saída de fluxo de bits que comuta a saída de fluxo de bits do dispositivo de codificação de áudio 20 (por exemplo, entre o fluxo de bits com base direcional 21 e o fluxo de bits 21 com base em vetor) com base na possibilidade de um quadro atual precisar ser codificado com o uso de síntese com base direcional ou de síntese com base em vetor. Essa unidade de saída de fluxo de bits pode realizar essa comutação com base na saída de elemento de sintaxe através da unidade de análise de conteúdo 26 que indica se uma síntese com base direcional foi realizada (como um resultado da detecção de que os coeficientes de HOA 11 foram gerados a partir de um objeto de áudio sintético) ou uma síntese com base em vetor foi realizada (como um resultado da detecção de que os coeficientes de HOA foram registrados). A unidade de saída de fluxo de bits pode especificar a sintaxe de cabeçalho correta para indicar essa comutação ou codificação atual usada para o quadro atual juntamente com o respectivo dentre os fluxos de bits 21.
[0269] Em algumas ocorrências, vários aspectos das técnicas também possibilitam que o dispositivo de codificação de áudio 20 determine se os coeficientes de HOA 11 são gerados a partir de um objeto de áudio sintético. Tais aspectos das técnicas possibilitam que o dispositivo de codificação de áudio 20 seja configurado para obter uma indicação da possibilidade de os coeficientes harmônicos esféricos representativos de um campo sonoro serem gerados a partir de um objeto de áudio sintético.
[0270] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para determinar se os coeficientes harmônicos esféricos são gerados a partir do objeto de áudio sintético.
[0271] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para excluir um primeiro vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos representativos do campo sonoro para obter uma matriz de coeficiente harmônico esférico com quadro reduzida.
[0272] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para excluir um primeiro vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos representativos do campo sonoro para obter uma matriz de coeficiente harmônico esférico com quadro reduzida e prever um vetor da matriz de coeficiente harmônico esférico com quadro reduzida com base nos vetores restantes da matriz de coeficiente harmônico esférico com quadro reduzida.
[0273] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para excluir um primeiro vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos representativos do campo sonoro para obter uma matriz de coeficiente harmônico esférico com quadro reduzida e prever um vetor da matriz de coeficiente harmônico esférico com quadro reduzida com base, pelo menos em parte, em uma soma dos vetores restantes da matriz de coeficiente harmônico esférico com quadro reduzida.
[0274] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para prever um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos em parte, em uma soma dos vetores restantes da matriz de coeficiente harmônico esférico com quadro.
[0275] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para prever um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos em parte, em uma soma dos vetores restantes da matriz de coeficiente harmônico esférico com quadro e computar um erro com base no vetor previsto.
[0276] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para prever um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos em parte, em uma soma dos vetores restantes da matriz de coeficiente harmônico esférico com quadro e computar um erro com base no vetor previsto e o vetor correspondente da matriz de coeficiente harmônico esférico com quadro.
[0277] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para prever um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos em parte, em uma soma dos vetores restantes da matriz de coeficiente harmônico esférico com quadro e computar um erro como um soma do valor absoluto da diferença do vetor previsto e o vetor correspondente da matriz de coeficiente harmônico esférico com quadro.
[0278] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para prever um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos em parte, em uma soma dos vetores restantes da matriz de coeficiente harmônico esférico com quadro, computar um erro com base no vetor previsto e no vetor correspondente da matriz de coeficiente harmônico esférico com quadro, computar uma razão com base em uma energia do vetor correspondente da matriz de coeficiente harmônico esférico com quadro e o erro e comparar a razão com um limiar para determinar se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético.
[0279] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para especificar a indicação em um fluxo de bits 21 que armazena uma versão comprimida dos coeficientes harmônicos esféricos.
[0280] Em algumas ocorrências, as várias técnicas possibilitam que o dispositivo de codificação de áudio 20 realize uma transformação em relação aos coeficientes de HOA 11. Nesses e em outros casos, o dispositivo de codificação de áudio 20 pode ser configurado para obter um ou mais primeiros vetores que descrevem componentes distintos do campo sonoro e um ou mais segundos vetores que descrevem os componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos desempenhando-se uma transformação em relação à pluralidade de coeficientes harmônicos esféricos 11.
[0281] Nesses e em outros casos, o dispositivo de codificação de áudio 20, em que a transformação compreende uma decomposição de valor singular que gera uma matriz U representativa dos vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos 11.
[0282] Nesses e em outros casos, o dispositivo de codificação de áudio 20, em que o um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST codificados por áudio que, antes da codificação de áudio, foram gerados multiplicando-se um ou mais vetores SDIST codificado por áudio de uma matriz U através de um ou mais vetores SDIST de uma matriz S e em que a matriz U e a matriz S são geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos.
[0283] Nesses e em outros casos, o dispositivo de codificação de áudio 20, em que o um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST codificado por áudio que, antes da codificação de áudio, foram gerados multiplicando-se um ou mais vetores UDIST codificado por áudio de uma matriz U através de um ou mais vetores SDIST codificado por áudio de uma matriz S e um ou mais vetores VTDIST de uma transformada de uma matriz V e em que a matriz U e a matriz S e a matriz V são geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos 11.
[0284] Nesses e em outros casos, o dispositivo de codificação de áudio 20, em que o um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST que, antes da codificação de áudio, foram gerados multiplicando- se um ou mais vetores UDIST codificado por áudio de uma matriz U através de um ou mais vetores SDIST de uma matriz S e um ou mais vetores VTDIST de uma transformada de uma matriz V, em que a matriz U, a matriz S e a matriz V foram geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos e em que o dispositivo de codificação de áudio 20 é adicionalmente configurado para obter um valor D que indica a quantidade de vetores a serem extraídos de um fluxo de bits para formar o um ou mais vetores UDIST * SDIST e o um ou mais vetores DIST.
[0285] Nesses e em outros casos, o dispositivo de codificação de áudio 20, em que o um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST que, antes da codificação de áudio, foram gerados multiplicando- se um ou mais vetores UDIST codificado por áudio de uma matriz U através de um ou mais vetores SDIST de uma matriz S e um ou mais vetores VTDIST de uma transformada de uma matriz V, em que a matriz U, a matriz S e a matriz V foram geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos e em que o dispositivo de codificação de áudio 20 é adicionalmente configurado para obter um valor D que indica, a uma base de quadro de áudio por quadro de áudio, a quantidade de vetores a serem extraídos de um fluxo de bits para formar o um ou mais vetores UDIST * SDIST e o um ou mais vetores VtDIST.
[0286] Nesses e em outros casos, o dispositivo de codificação de áudio 20, em que a transformação compreende uma análise de componente principal para identificar os componentes distintos do campo sonoro e os componentes de segundo plano do campo sonoro.
[0287] Vários aspectos das técnicas descritas na presente revelação podem fornecer o dispositivo de codificação de áudio 20 configurado para compensar pelo erro de quantização.
[0288] Em algumas ocorrências, o dispositivo de codificação de áudio 20 pode ser configurado para quantizar um ou mais primeiros vetores representativos de um ou mais componentes de um campo sonoro e compensar o erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que também são representativos dos mesmos um ou mais componentes do campo sonoro.
[0289] Nesses e em outros casos, o dispositivo de codificação de áudio é configurado para quantizar um ou mais vetores a partir de uma transformada de uma matriz V gerada, pelo menos em parte, realizando-se uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.
[0290] Nesses e em outros casos, o dispositivo de codificação de áudio é adicionalmente configurado para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e configurado para quantizar um ou mais vetores a partir de uma transformada da matriz V.
[0291] Nesses e em outros casos, o dispositivo de codificação de áudio é adicionalmente configurado para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, configurado para quantizar um ou mais vetores a partir da transformada da matriz V e configurado para compensar pelo erro introduzido devido à quantização em um ou mais vetores U * S computados multiplicando-se um ou mais vetores U da matriz U por um ou mais vetores S da matriz S.
[0292] Nesses e em outros casos, o dispositivo de codificação de áudio é adicionalmente configurado para realizar uma decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UDIST da matriz U, em que cada um dos mesmos corresponde a um componente distinto do campo sonoro, determinar um ou mais vetores SDIST da matriz S, em que cada um dos mesmos corresponde ao mesmo componente distinto do campo sonoro e determinar um ou mais vetores VTDIST de uma transformada da matriz V, em que cada um dos mesmos corresponde ao mesmo componente distinto do campo sonoro, configurado para quantizar o um ou mais vetores VTDIST para gerar um ou mais vetores VTQ_DIST e configurado para compensar pelo erro introduzido devido à quantização em um ou mais vetores UDIST * SDIST computados multiplicando- se o um ou mais vetores UDIST da matriz U através de ou mais vetores SDIST da matriz S de modo a gerar um ou mais vetores UDIST * SDIST de erro compensado.
[0293] Nesses e em outros casos, o dispositivo de codificação de áudio é configurado para determinar coeficientes harmônicos esféricos distintos com base no um ou mais vetores UDIST, em que o um ou mais vetores SDIST e o um ou mais vetores VTDIST e realizar pseudoinversão em relação aos vetores VTQ_DIST para dividir os coeficientes harmônicos esféricos distintos pelo um ou mais vetores VTQ_DIST e, assim, gerar um ou mais vetores UC_DIST * SC_DIST de erro compensado que compensam, pelo menos em parte, pelo erro introduzido através da quantização dos vetores VTDIST.
[0294] Nesses e em outros casos, o dispositivo de codificação de áudio é adicionalmente configurado para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UBG da matriz U que descrevem um ou mais componentes de segundo plano do campo sonoro e um ou mais vetores UDIST da matriz U que descrevem um ou mais componentes distintos do campo sonoro, determinar um ou mais SBG vetores da matriz S que descrevem o um ou mais componentes de segundo plano do campo sonoro e um ou mais vetores SDIST da matriz S que descrevem o um ou mais componentes distintos do campo sonoro e determinar um ou mais vetores VTDIST e um ou mais vetores VTBG de uma transformada da matriz V, em que os vetores VTDIST descrevem o um ou mais componentes distintos do campo sonoro e os VTBG descrevem o um ou mais componentes de segundo plano do campo sonoro, configurado para quantizar o um ou mais vetores VTDIST para gerar um ou mais vetores VTQ_DIST e configurado para compensar pelo erro introduzido devido à quantização em coeficientes harmônicos esféricos de segundo plano formados multiplicando-se o um ou mais vetores UBG pelo um ou mais vetores SBG e, em seguida, pelo um ou mais vetores VTBG, de modo a gerar coeficientes harmônicos esféricos de segundo plano de erro compensado.
[0295] Nesses e em outros casos, o dispositivo de codificação de áudio é configurado para determinar o erro com base nos vetores VTDIST e um ou mais vetores UDIST * SDIST formados multiplicando-se os vetores UDIST pelos vetores SDIST e adicionar o erro determinado aos coeficientes harmônicos esféricos de segundo plano para gerar os coeficientes harmônicos esféricos de segundo plano de erro compensado.
[0296] Nesses e em outros casos, o dispositivo de codificação de áudio é configurado para compensar pelo erro introduzido devido à quantização do um ou mais primeiros vetores em um ou mais segundos vetores que também são representativos do mesmo um ou mais componentes do campo sonoro para gerar um ou mais segundos vetores de erro compensado e adicionalmente configurado para gerar um fluxo de bits para incluir o um ou mais segundos vetores de erro compensado e o um ou mais primeiros vetores quantizados.
[0297] Nesses e em outros casos, o dispositivo de codificação de áudio é configurado para compensar pelo erro introduzido devido à quantização do um ou mais primeiros vetores em um ou mais segundos vetores que também são representativos do mesmo um ou mais componentes do campo sonoro para gerar um ou mais segundos vetores de erro compensado e adicionalmente configurado para codificar por áudio o um ou mais segundos vetores de erro compensado e gerar um fluxo de bits para incluir o um ou mais segundos vetores de erro compensado codificados por áudio e o um ou mais primeiros vetores quantizados.
[0298] Os vários aspectos das técnicas podem possibilitar adicionalmente que o dispositivo de codificação de áudio 20 gere coeficientes harmônicos esféricos reduzidos ou decomposições dos mesmos. Em algumas ocorrências, o dispositivo de codificação de áudio 20 pode ser configurado para realizar, com base em uma taxa de bit alvo, a redução de ordem em relação a uma pluralidade de coeficientes harmônicos esféricos ou decomposições dos mesmos para gerar coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos, em que a pluralidade de coeficientes harmônicos esféricos representa um campo sonoro.
[0299] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para, antes da realização da redução de ordem, realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos para identificar um ou mais primeiros vetores que descrevem componentes distintos do campo sonoro e um ou mais segundos vetores que identificam componentes de segundo plano do campo sonoro e configurado para realizar a redução de ordem em relação ao um ou mais primeiros vetores, o um ou mais segundos vetores ou o um ou mais primeiros vetores e o um ou mais segundos vetores.
[0300] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para realizar uma análise de conteúdo em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos e configurado para realizar, com base na taxa-alvo de bits e na análise de conteúdo, a redução de ordem em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos para gerar os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.
[0301] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para realizar uma análise espacial em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos.
[0302] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para realizar uma análise de difusão em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos.
[0303] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é o um ou mais processadores que são configurados para realizar uma análise espacial e uma análise de difusão em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos.
[0304] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para especificar uma ou mais ordens e/ou uma ou mais subordens de funções de base esférica às quais aqueles dentre os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos correspondem em um fluxo de bits que inclui os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.
[0305] Nesses e em outros casos, os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos têm menos valores do que a pluralidade de coeficientes harmônicos esféricos ou as decomposições dos mesmos.
[0306] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para remover aqueles dentre a pluralidade de coeficientes harmônicos esféricos ou vetores das decomposições dos mesmos que têm uma ordem e/ou subordem especificada para gerar os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.
[0307] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para zerar aqueles dentre a pluralidade de coeficientes harmônicos esféricos ou aqueles vetores da decomposição dos mesmos que têm uma ordem e/ou subordem especificada para gerar os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.
[0308] Vários aspectos das técnicas também podem permitir que o dispositivo de codificação de áudio 20 seja configurado para representar componentes distintos do campo sonoro. Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para obter um primeiro conjunto de coeficientes diferente de zero de um vetor a ser usado para representar um componente distinto de um campo sonoro, em que o vetor é decomposto a partir de uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.
[0309] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar o primeiro conjunto diferente de zero dos coeficientes do vetor para incluir todos os coeficientes.
[0310] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar o primeiro conjunto de coeficientes diferente de zero como aqueles dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base, à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.
[0311] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar o primeiro conjunto de coeficientes diferente de zero para incluir aqueles dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde e excluir pelo menos um dentre os coeficientes que correspondem a uma ordem maior do que a ordem da função de base à qual o um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.
[0312] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar o primeiro conjunto de coeficientes diferente de zero para incluir todos os coeficientes com a exceção de pelo menos um dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base, à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.
[0313] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para especificar o primeiro conjunto diferente de zero dos coeficientes do vetor em informações de canal auxiliar.
[0314] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para especificar o primeiro conjunto diferente de zero dos coeficientes do vetor em informações de canal auxiliar sem codificação de áudio do primeiro conjunto diferente de zero dos coeficientes do vetor.
[0315] Nesses e em outros casos, o vetor compreende um vetor decomposto a partir da pluralidade de coeficientes harmônicos esféricos com o uso de síntese com base em vetor.
[0316] Nesses e em outros casos, a síntese à base de vetor compreende uma decomposição de valor singular.
[0317] Nesses e em outros casos, o vetor compreende um vetor V decomposto a partir da pluralidade de coeficientes harmônicos esféricos com o uso da decomposição de valor singular.
[0318] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para selecionar um dentre uma pluralidade de modos de configuração através do qual especificar o conjunto de coeficientes diferente de zero do vetor e especificar o conjunto diferente de zero dos coeficientes do vetor com base no selecionado dentre a pluralidade de modos de configuração.
[0319] Nesses e em outros casos, o um dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui todos os coeficientes.
[0320] Nesses e em outros casos, o um dentre a pluralidade de modos de configuração indica que o conjunto de coeficientes diferente de zero inclui aqueles dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.
[0321] Nesses e em outros casos, o um dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui aqueles dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde e excluir pelo menos um dentre os coeficientes que correspondem a uma ordem maior do que a ordem da função de base à qual o um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.
[0322] Nesses e em outros casos, o um dentre a pluralidade de modos de configuração indica que o conjunto de coeficientes diferente de zero inclui todos os coeficientes com a exceção de pelo menos um dos coeficientes.
[0323] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para especificar o selecionado dentre a pluralidade de modos de configuração em um fluxo de bits.
[0324] Vários aspectos das técnicas descritas na presente revelação também permitem que o dispositivo de codificação de áudio 20 seja configurado para representar tal componente distinto do campo sonoro de várias maneiras. Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para obter um primeiro conjunto de coeficientes diferente de zero de um vetor que representa um componente distinto de um campo sonoro, em que o vetor foi decomposto a partir de uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.
[0325] Nesses e em outros casos, o primeiro conjunto diferente de zero dos coeficientes inclui todos os coeficientes do vetor.
[0326] Nesses e em outros casos, o primeiro conjunto de coeficientes diferente de zero inclui aqueles dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base, à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.
[0327] Nesses e em outros casos, o primeiro conjunto diferente de zero dos coeficientes inclui aqueles dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde e excluir pelo menos um dentre os coeficientes que correspondem a uma ordem maior do que a ordem da função de base à qual o um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.
[0328] Nesses e em outros casos, o primeiro conjunto de coeficientes diferente de zero inclui todos os coeficientes com a exceção de pelo menos um dos coeficientes identificados por não ter informações direcionais suficientes.
[0329] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para extrair o primeiro conjunto diferente de zero dos coeficientes como uma primeira porção do vetor.
[0330] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para extrair o primeiro conjunto do vetor diferente de zero a partir de informações de canal auxiliar e obter uma versão recomposta da pluralidade de coeficientes harmônicos esféricos com base no primeiro conjunto diferente de zero dos coeficientes do vetor.
[0331] Nesses e em outros casos, o vetor compreende um vetor decomposto a partir da pluralidade de coeficientes harmônicos esféricos com o uso de síntese com base em vetor.
[0332] Nesses e em outros casos, a síntese à base de vetor compreende uma decomposição de valor singular.
[0333] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para determinar um dentre uma pluralidade de modos de configuração através do qual extrair o conjunto de coeficientes diferente de zero do vetor de acordo com aquele dentre a pluralidade de modos de configuração e extrair o conjunto diferente de zero dos coeficientes do vetor com base no obtido dentre a pluralidade de modos de configuração.
[0334] Nesses e em outros casos, o um dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui todos os coeficientes.
[0335] Nesses e em outros casos, o um dentre a pluralidade de modos de configuração indica que o conjunto de coeficientes diferente de zero inclui aqueles dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.
[0336] Nesses e em outros casos, o um dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui aqueles dentre os coeficientes que correspondem a uma ordem maior do que uma ordem de uma função de base à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde e excluir pelo menos um dentre os coeficientes que correspondem a uma ordem maior do que a ordem da função de base à qual o um ou mais dentre a pluralidade de coeficientes harmônicos esféricos corresponde.
[0337] Nesses e em outros casos, o um dentre a pluralidade de modos de configuração indica que o conjunto de coeficientes diferente de zero inclui todos os coeficientes com a exceção de pelo menos um dos coeficientes.
[0338] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar aquele dentre a pluralidade de modos de configuração com base em um valor sinalizado em um fluxo de bits.
[0339] Vários aspectos das técnicas também podem, em alguns casos, possibilitar que o dispositivo de codificação de áudio 20 identifique um ou mais objetos de áudio distintos (ou, em outras palavras, objetos de áudio predominantes). Em algumas ocorrências, o dispositivo de codificação de áudio 20 pode ser configurado para identificar um ou mais objetos de áudio distintos a partir de um ou mais coeficientes harmônicos esféricos (SHC) associados aos objetos de áudio com base em uma direcionalidade determinada para um ou mais dos objetos de áudio.
[0340] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para determinar a direcionalidade do um ou mais objetos de áudio com base nos coeficientes harmônicos esféricos associados com os objetos de áudio.
[0341] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para realizar uma decomposição de valor singular em relação aos coeficientes harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade dos coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e representar a pluralidade de coeficientes harmônicos esféricos como uma função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V, em que o dispositivo de codificação de áudio 20 é configurado para determinar a respectiva direcionalidade do um ou mais objetos de áudio tem por base, pelo menos em parte, a matriz V.
[0342] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para reordenar um ou mais vetores da matriz V, de modo que os vetores que têm um quociente de direcionalidade maior sejam posicionados acima dos vetores que têm um menor quociente de direcionalidade na matriz V reordenda.
[0343] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para determinar que os vetores que têm o maior quociente de direcionalidade incluem maiores informações direcionais do que os vetores que têm menos quociente de direcionalidade.
[0344] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para multiplicar a matriz V pela matriz S para gerar uma matriz VS, em que a matriz VS inclui um ou mais vetores.
[0345] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para selecionar entradas de cada fileira da matriz VS que estão associadas a uma ordem maior do que 14, elevar ao quadrado cada uma das entradas selecionadas para formar entradas correspondentes elevadas ao quadrado e para cada fileira da matriz VS, somar todas as entradas elevadas ao quadrado para determinar um quociente de direcionalidade para um vetor correspondente.
[0346] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para selecionar as entradas de cada fileira da matriz VS associada à ordem maior do que 14, em que isso compreende selecionar todas as entradas que se iniciam na 18a entrada de cada fileira da matriz VS e que terminam na 38a entrada de cada fileira da matriz VS.
[0347] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para selecionar um subconjunto dos vetores da matriz VS para representar os objetos de áudio distintos. Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para selecionar quatro vetores da matriz VS e em que os quatro vetores selecionados têm os quatro maiores quocientes de direcionalidade dentre todos os vetores da matriz VS.
[0348] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar que o subconjunto selecionado dos vetores que representa os objetos de áudio distintos tem por base tanto a direcionalidade quanto uma energia de cada vetor.
[0349] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para realizar uma comparação de energia entre um ou mais primeiros vetores e um ou mais segundos vetores representativos dos objetos de áudio distintos para determinar o um ou mais primeiros vetores reordenados, em que o um ou mais primeiros vetores descrevem os objetos de áudio distintos em uma primeira porção dos dados de áudio e o um ou mais segundos vetores descrevem os objetos de áudio distintos em uma segunda porção dos dados de áudio.
[0350] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para realizar uma relação cruzada entre um ou mais primeiros vetores e um ou mais segundos vetores representativos dos objetos de áudio distintos para determinar o um ou mais primeiros vetores reordenados, em que o um ou mais primeiros vetores descrevem os objetos de áudio distintos em uma primeira porção dos dados de áudio e o um ou mais segundos vetores descrevem os objetos de áudio distintos em uma segunda porção dos dados de áudio.
[0351] Vários aspectos das técnicas também podem, em alguns casos, possibilitar que o dispositivo de codificação de áudio 20 seja configurado para realizar uma compensação de energia em relação às decomposições dos coeficientes de HOA 11. Nesses e em outros casos, o dispositivo de codificação de áudio 20 pode ser configurado para realizar uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos para gerar representações decompostas da pluralidade de coeficientes harmônicos esféricos representativos de um ou mais objetos de áudio e informações direcionais correspondentes, em que os coeficientes harmônicos esféricos estão associados a uma ordem e descrevem um campo sonoro, determinam informações direcionais distintas e de segundo plano a partir das informações direcionais, reduzem uma ordem das informações direcionais associadas aos objetos de áudio de segundo plano para gerar informações direcionais de segundo plano transformadas, aplicam compensação para aumentar os valores das informações direcionais transformadas para preservar uma energia geral do campo sonoro.
[0352] Nesses e em outros casos, o dispositivo de codificação de áudio 20 pode ser configurado para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U e uma matriz S representativas dos objetos de áudio e uma matriz V representativa das informações direcionais, determinar vetores de colunas distintas da matriz V e vetores de coluna de segundo plano da matriz V, reduzir uma ordem dos vetores de coluna de segundo plano da matriz V para gerar vetores de coluna de segundo plano transformados da matriz V e aplicar a compensação para aumentar os valores dos vetores de coluna de segundo plano transformados da matriz V para preservar uma energia geral do campo sonoro.
[0353] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para determinar a quantidade de valores singulares salientes da matriz S, em a quantidade de vetores de colunas distintas da matriz V é a quantidade de valores singulares salientes da matriz S.
[0354] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar uma ordem reduzida para os coeficientes harmônicos esféricos e zero valores para as fileiras dos vetores de coluna de segundo plano da matriz V associados a uma ordem que é maior do que a ordem reduzida.
[0355] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é adicionalmente configurado para combinar colunas de segundo plano da matriz U, colunas de segundo plano da matriz S e uma transposta das colunas de segundo plano transformadas da matriz V para gerar coeficientes harmônicos esféricos modificados.
[0356] Nesses e em outros casos, os coeficientes harmônicos esféricos modificados descrevem um ou mais componentes de segundo plano do campo sonoro.
[0357] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar uma primeira energia de um vetor dentre os vetores de coluna de segundo plano da matriz V e uma segunda energia de um vetor dentre os vetores de coluna de segundo plano transformados da matriz V e aplicar um valor de amplificação a cada elemento do vetor dentre os vetores de coluna de segundo plano transformados da matriz V, em que o valor de amplificação compreende uma razão da primeira energia para a segunda energia.
[0358] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar um primeiro quadrado de média de raiz de energia de um vetor dentre os vetores de coluna de segundo plano da matriz V e um segundo quadrado de média de raiz de energia de um vetor dentre os vetores de coluna de segundo plano transformados da matriz V e aplicar um valor de amplificação a cada elemento do vetor dentre os vetores de coluna de segundo plano transformados da matriz V, em que o valor de amplificação compreende uma razão da primeira energia para a segunda energia.
[0359] Vários aspectos das técnicas descritas na presente revelação também possibilitam que o dispositivo de codificação de áudio 20 realize uma interpolação em relação às versões decompostas dos coeficientes de HOA 11. Em algumas ocorrências, o dispositivo de codificação de áudio 20 pode ser configurado para obter coeficientes harmônicos esféricos interpolados decompostos por um segmento de tempo, pelo menos em parte, desempenhando-se uma interpolação em relação a uma primeira decomposição de uma primeira pluralidade de coeficientes harmônicos esféricos e uma segunda decomposição de uma segunda pluralidade de coeficientes harmônicos esféricos.
[0360] Nesses e em outros casos, a primeira decomposição compreende uma primeira matriz V representativa de vetores singulares à direita da primeira pluralidade de coeficientes harmônicos esféricos.
[0361] Nesses e em outros exemplos, a segunda decomposição compreende uma segunda matriz V representativa de vetores singulares à direita da segunda pluralidade de coeficientes harmônicos esféricos.
[0362] Nesses e em outros casos, a primeira decomposição compreende uma primeira matriz V representativa de vetores singulares à direita da primeira pluralidade de coeficientes harmônicos esféricos e a segunda decomposição compreende uma segunda matriz V representativa de vetores singulares à direita da segunda pluralidade de coeficientes harmônicos esféricos.
[0363] Nesses e em outros casos, o segmento de tempo compreende um subquadro de um quadro de áudio.
[0364] Nesses e em outros casos, o segmento de tempo compreende uma amostra de tempo de um quadro de áudio.
[0365] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para obter uma decomposição interpolada da primeira decomposição e a segunda decomposição para um coeficiente harmônico esférico da primeira pluralidade de coeficientes de harmônicos esféricos.
[0366] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para obter decomposições interpoladas da primeira decomposição para uma primeira porção da primeira pluralidade de coeficientes de harmônicos esféricos incluídos no primeiro quadro e a segunda decomposição para uma segunda porção da segunda pluralidade de coeficientes de harmônicos esféricos incluída no segundo quadro, e o dispositivo de codificação de áudio 20 é configurado adicionalmente para aplicar as decomposições interpoladas a um primeiro componente de tempo da primeira porção da primeira pluralidade de coeficientes de harmônicos esféricos incluída no primeiro quadro para gerar um primeiro componente de tempo artificial da primeira pluralidade de coeficientes de harmônicos esféricos, e aplicar as respectivas decomposições interpoladas a um segundo componente de tempo da segunda porção dentre a segunda pluralidade de coeficientes de harmônicos esféricos incluída no segundo quadro para gerar um segundo componente de tempo artificial da segunda pluralidade de coeficientes de harmônicos esféricos incluídos.
[0367] Nesses e em outros casos, o primeiro componente de tempo é gerado realizando-se uma síntese à base de vetor em relação à primeira pluralidade de coeficientes de harmônicos esféricos.
[0368] Nesses e em outros casos, o segundo componente de tempo é gerado realizando-se uma síntese à base de vetor em relação à segunda pluralidade de coeficientes de harmônicos esféricos.
[0369] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para receber o primeiro componente de tempo artificial e o segundo componente de tempo artificial, computar as decomposições interpoladas da primeira decomposição para a primeira porção da primeira pluralidade de coeficientes de harmônicos esféricos e a segunda decomposição para a segunda porção da segunda pluralidade de coeficientes de harmônicos esféricos, e aplicar inversos das decomposições interpoladas ao primeiro componente de tempo artificial para recuperar o primeiro componente de tempo e ao segundo componente de tempo artificial para recuperar o segundo componente de tempo.
[0370] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para interpolar um primeiro componente espacial da primeira pluralidade de coeficientes de harmônicos esféricos e o segundo componente espacial da segunda pluralidade de coeficientes de harmônicos esféricos.
[0371] Nesses e em outros casos, o primeiro componente espacial compreende uma primeira matriz U representativa de vetores singulares à esquerda da primeira pluralidade de coeficientes de harmônicos esféricos.
[0372] Nesses e em outros casos, o segundo componente espacial compreende uma segunda matriz U representativa de vetores singulares à esquerda da segunda pluralidade de coeficientes de harmônicos esféricos.
[0373] Nesses e em outros casos, o primeiro componente espacial é representativo de M segmentos de tempo de coeficientes de harmônicos esféricos para a primeira pluralidade de coeficientes de harmônicos esféricos e o segundo componente espacial é representativo de M segmentos de tempo de coeficientes de harmônicos esféricos para a segunda pluralidade de coeficientes de harmônicos esféricos.
[0374] Nesses e em outros casos, o primeiro componente espacial é representativo de M segmentos de tempo de coeficientes de harmônicos esféricos para a primeira pluralidade de coeficientes de harmônicos esféricos e o segundo componente espacial é representativo de M segmentos de tempo de coeficientes de harmônicos esféricos para a segunda pluralidade de coeficientes de harmônicos esféricos, e o dispositivo de codificação de áudio 20 é configurado para interpolar os últimos N elementos do primeiro componente espacial e os primeiros N elementos do segundo componente espacial.
[0375] Nesses e em outros casos, a segunda pluralidade de coeficientes de harmônicos esféricos é subsequente à primeira pluralidade de coeficientes de harmônicos esféricos no domínio de tempo.
[0376] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para decompor a primeira pluralidade de coeficientes de harmônicos esféricos para gerar a primeira decomposição da primeira pluralidade de coeficientes de harmônicos esféricos.
[0377] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para decompor a segunda pluralidade de coeficientes de harmônicos esféricos para gerar a segunda decomposição da segunda pluralidade de coeficientes de harmônicos esféricos.
[0378] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para realizar uma decomposição de valor singular em relação à primeira pluralidade de coeficientes de harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da primeira pluralidade de coeficientes de harmônicos esféricos, uma matriz S representativa de valores singulares da primeira pluralidade de coeficientes de harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da primeira pluralidade de coeficientes de harmônicos esféricos.
[0379] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para realizar uma decomposição de valor singular em relação à segunda pluralidade de coeficientes de harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da segunda pluralidade de coeficientes de harmônicos esféricos, uma matriz S representativa de valores singulares da segunda pluralidade de coeficientes de harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da segunda pluralidade de coeficientes de harmônicos esféricos.
[0380] Nesses e em outros casos, cada uma dentre a primeira e a segundas pluralidades de coeficientes de harmônicos esféricos representa uma representação de onda plana do campo sonoro.
[0381] Nesses e em outros casos, cada uma dentre a primeira e a segundas pluralidades de coeficientes de harmônicos esféricos representa um ou mais objetos de áudio mono misturados juntamente.
[0382] Nesses e em outros casos, cada uma dentre a primeira e a segundas pluralidades de coeficientes de harmônicos esféricos compreende respectivos primeiro e segundo coeficientes de harmônicos esféricos que representam um campo sonoro tridimensional.
[0383] Nesses e em outros casos, a primeira e a segunda pluralidades de coeficientes de harmônicos esféricos são, cada uma, associadas a pelo menos uma função de base esférica que tem uma ordem maior do que um(1).
[0384] Nesses e em outros casos, a primeira e a segunda pluralidades de coeficientes de harmônicos esféricos são, cada uma, associadas a pelo menos um função de base esférica que tem uma ordem igual a quatro.
[0385] Nesses e em outros casos, a interpolação é uma interpolação ponderada da primeira decomposição e da segunda decomposição, em que os pesos da interpolação ponderada aplicados à primeira decomposição são inversamente proporcionais a um tempo representado por vetores da primeira e segunda decomposições e em que os pesos da interpolação ponderada aplicados à segunda decomposição são proporcionais a um tempo representado por vetores da primeira e segunda decomposições.
[0386] Nesses e em outros casos, os coeficientes de harmônicos esféricos interpolados decompostos suavizam pelo menos um dentre os componentes espaciais e os componentes de tempo da primeira pluralidade de coeficientes de harmônicos esféricos e da segunda pluralidade de coeficientes de harmônicos esféricos.
[0387] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para computar Us[n] = HOA(n) * (V_vec[n])-1 para obter um escalar.
[0388] Nesses e em outros casos, a interpolação compreende uma interpolação linear. Nesses e em outros casos, a interpolação compreende uma interpolação não linear. Nesses e em outros casos, a interpolação compreende uma interpolação de cosseno. Nesses e em outros casos, a interpolação compreende uma interpolação de cosseno ponderada. Nesses e em outros casos, a interpolação compreende uma interpolação cúbica. Nesses e em outros casos, a interpolação compreende um Interpolação de Spline Adaptativa. Nesses e em outros casos, a interpolação compreende uma interpolação de curvatura mínima.
[0389] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para gerar um fluxo de bits que inclui uma representação dos coeficientes de harmônicos esféricos interpolados decompostos para o segmento de tempo, e uma indicação de um tipo da interpolação.
[0390] Nesses e em outros casos, a indicação compreende um ou mais bits que mapeiam para o tipo de interpolação.
[0391] Desta forma, vários aspectos dos conjuntos de procedimentos descritos nesta revelação podem habilitar o dispositivo de codificação de áudio 20 para ser configurado para obter um fluxo de bits que inclui uma representação dos coeficientes de harmônicos esféricos interpolados decompostos para o segmento de tempo, e uma indicação de um tipo da interpolação.
[0392] Nesses e em outros casos, a indicação compreende um ou mais bits que mapeiam para o tipo de interpolação.
[0393] Em relação a isso, o dispositivo de codificação de áudio 20 pode representar uma modalidade dos conjuntos de procedimentos em que o dispositivo de codificação de áudio 20 pode, em alguns casos, ser configurado para gerar um fluxo de bits que compreende uma versão compactada de um componente espacial de um campo sonoro, sendo que o componente espacial é gerado realizando-se uma síntese à base de vetor em relação a uma pluralidade de coeficientes de harmônicos esféricos.
[0394] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para gerar o fluxo de bits para incluir um campo que especifica um modo de predição usado quando se comprime o componente espacial.
[0395] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para gerar o fluxo de bits para incluir informações de tabela de Huffman que especificam uma tabela de Huffman usada quando se comprime o componente espacial.
[0396] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para gerar o fluxo de bits para incluir um campo que indica um valor que expressa um tamanho de etapa de quantização ou uma variável do mesmo usada quando se comprime o componente espacial.
[0397] Nesses e em outros casos, o valor compreende um valor nbits.
[0398] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para gerar o fluxo de bits para incluir uma versão de uma pluralidade de componentes espaciais do campo sonoro cuja versão compactada do componente espacial é incluída, em que o valor expressa o tamanho de etapa de quantização ou uma variável da mesma usada quando se comprime a pluralidade de componentes espaciais.
[0399] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para gerar o fluxo de bits para incluir um código de Huffman para representar um identificador de categoria que identifica uma categoria de compactação à qual o componente espacial corresponde.
[0400] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para gerar o fluxo de bits para incluir um bit de sinal que identifica se o componente espacial é um valor positivo ou um valor negativo.
[0401] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para gerar o fluxo de bits para incluir um código de Huffman para representar um valor residual do componente espacial.
[0402] Nesses e em outros casos, a síntese à base de vetor compreende uma decomposição de valor singular.
[0403] Em relação a isso, o dispositivo de codificação de áudio 20 pode implantar adicionalmente vários aspectos dos conjuntos de procedimentos em que o dispositivo de codificação de áudio 20 pode, em alguns casos, ser configurado para identificar um livro de códigos de Huffman para usar quando se comprime um componente espacial de uma pluralidade de componentes espaciais com base em uma ordem do componente espacial relacionado aos componentes restantes dentre a pluralidade de componentes espaciais, sendo que o componente espacial é gerado realizando-se uma síntese à base de vetor em relação a uma pluralidade de coeficientes de harmônicos esféricos.
[0404] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para identificar o livro de códigos de Huffman com base em um modo de predição usado quando se comprime o componente espacial.
[0405] Nesses e em outros casos, uma versão compactada do componente espacial é representada em um fluxo de bits com o uso, pelo menos em parte, das informações de tabela de Huffman que identificam o livro de códigos de Huffman.
[0406] Nesses e em outros casos, uma versão compactada do componente espacial é representada em um fluxo de bits com o uso, pelo menos em parte, de um campo que indica um valor que expressa um tamanho de etapa de quantização ou uma variável da mesma usada quando se comprime o componente espacial.
[0407] Nesses e em outros casos, o valor compreende um valor nbits.
[0408] Nesses e em outros casos, o fluxo de bits compreende uma versão compactada de uma pluralidade de componentes espaciais do campo sonoro cuja versão compactada do componente espacial é incluída, e o valor expressa o tamanho de etapa de quantização ou uma variável da mesma usada quando se comprime a pluralidade de componentes espaciais.
[0409] Nesses e em outros casos, uma versão compactada do componente espacial é representada em um fluxo de bits com o uso, pelo menos em parte, de um código de Huffman selecionado a partir do livro de códigos de Huffman identificado para representar um identificador de categoria que identifica uma categoria de compactação à qual o componente espacial corresponde.
[0410] Nesses e em outros casos, uma versão compactada do componente espacial é representada em um fluxo de bits com o uso, pelo menos em parte, de um bit de sinal que identifica se o componente espacial é um valor positivo ou um valor negativo.
[0411] Nesses e em outros casos, uma versão compactada do componente espacial é representada em um fluxo de bits com o uso, pelo menos em parte, de um código de Huffman selecionado a partir do livro de códigos de Huffman identificado para representar um valor residual do componente espacial.
[0412] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para comprimir o componente espacial com base no livro de códigos de Huffman identificado para gerar uma versão compactada do componente espacial, e gerar o fluxo de bits para incluir a versão compactada do componente espacial.
[0413] Ademais, o dispositivo de codificação de áudio 20 pode, em alguns casos, implantar vários aspectos dos conjuntos de procedimentos em que o dispositivo de codificação de áudio 20 pode ser configurado para determinar um tamanho de etapa de quantização a ser usado quando se comprime um componente espacial de um campo sonoro, sendo que o componente espacial é gerado realizando-se uma síntese à base de vetor em relação a uma pluralidade de coeficientes de harmônicos esféricos.
[0414] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para determinar o tamanho de etapa de quantização com base em uma taxa de bits alvo.
[0415] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar uma estimativa de um número de usado para representar o componente espacial, e determinar o tamanho de etapa de quantização com base em uma diferença entre a estimativa e uma taxa de bits alvo.
[0416] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para determinar uma estimativa de um número de bits usado para representar o componente espacial, determinar uma diferença entre a estimativa e uma taxa de bits alvo, e determinar o tamanho de etapa de quantização adicionando-se a diferença à taxa de bits alvo.
[0417] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para calcular a estimativa do número de bits que deve ser gerado para o componente espacial dado um livro de códigos correspondente à taxa de bits alvo.
[0418] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para calcular a estimativa do número de bits que deve ser gerado para o componente espacial dado um modo de codificação usado quando se comprime o componente espacial.
[0419] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para calcular uma primeira estimativa do número de bits que deve ser gerado para o componente espacial dado um primeiro modo de codificação a ser usado quando se comprime o componente espacial, calcular uma segunda estimativa do número de bits que deve ser gerado para o componente espacial dado um segundo modo de codificação a ser usado quando se comprime o componente espacial, selecionar uma dentre a primeira estimativa e a segunda estimativa que tem um menor número de bits a ser usado como a estimativa determinada do número de bits.
[0420] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado para identificar um identificador de categoria que identifica uma categoria à qual o componente espacial corresponde, identifica um comprimento de bits de um valor residual para o componente espacial que resultaria quando se comprime o componente espacial correspondente à categoria, e determina a estimativa do número de bits, pelo menos em parte, adicionando um número de bits usados para representar o identificador de categoria para o comprimento de bits do valor residual.
[0421] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para selecionar um dentre uma pluralidade de livros de códigos a ser usada quando se comprime o componente espacial.
[0422] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para determinar uma estimativa de um número de bits usado para representar o componente espacial com o uso de cada um dentre a pluralidade de livros de códigos, e selecionar o livro dentre a pluralidade de livros de códigos que resultou na estimativa determinada que tem o menor número de bits.
[0423] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para determinar uma estimativa de um número de bits usado para representar o componente espacial com o uso de um ou mais dentre a pluralidade de livros de códigos, em que os um ou mais dentre a pluralidade de livros de códigos selecionados com base em uma ordem dos elementos do componente espacial para ser compactado em relação a outros elementos do componente espacial.
[0424] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para determinar uma estimativa de um número de bits usados para representar o componente espacial com o uso de um dentre a pluralidade de livros de códigos projetada para ser usada quando o componente espacial não é previsto a partir de um componente espacial subsequente.
[0425] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para determinar uma estimativa de um número de bits usados para representar o componente espacial com o uso de um dentre a pluralidade de livros de códigos projetada para ser usada quando o componente espacial é previsto a partir de um componente espacial subsequente.
[0426] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para determinar uma estimativa de um número de bits usado para representar o componente espacial com o uso da pluralidade de livros de códigos projetada para ser usada quando o componente espacial é representativa de um objeto de áudio sintético no campo sonoro.
[0427] Nesses e em outros casos, o objeto de áudio sintético compreende um objeto de áudio modulado por código de pulso (PCM).
[0428] Nesses e em outros casos, o dispositivo de codificação de áudio 20 é configurado adicionalmente para determinar uma estimativa de um número de bits usado para representar o componente espacial com o uso da pluralidade de livros de códigos projetada para ser usada quando o componente espacial é representativa de um objeto de áudio gravado no campo sonoro.
[0429] Em cada um dos vários casos descritos acima, deveria ser compreendido que o dispositivo de codificação de áudio 20 pode realizar um método ou de outra forma compreende meios para realizar cada etapa do método para o qual o dispositivo de codificação de áudio 20 é configurado para realizar em alguns casos, esses meios podem compreende um ou mais processadores. Em alguns casos, os um ou mais processadores podem representar um processador de propósito especial configurado por meio de instruções armazenadas em um meio de armazenamento legível por computador não transitório. Em outras palavras, vários aspectos dos conjuntos de procedimentos em cada um dos conjuntos de exemplos de codificação podem fornecer um meio de armazenamento legível por computador não transitório que tem armazenado no mesmo instruções que, quando executadas, fazem com que os um ou mais processadores realizem o método para o qual o dispositivo de codificação de áudio 20 foi configurado para realizar.
[0430] A Figura 5 é um diagrama de blocos que ilustra o dispositivo de decodificação de áudio 24 da Figura 3 em mais detalhes. Conforme mostrado no exemplo da Figura 5, o dispositivo de decodificação de áudio 24 pode incluir uma unidade de extração 72, uma unidade de reconstrução à base de direcionalidade 90 e uma unidade de reconstrução à base de vetor 92.
[0431] A unidade de extração 72 pode representar uma unidade configurada para receber o fluxo de bits 21 e extrair as várias verões codificadas (por exemplo, uma versão codificada à base de direcionalidade ou uma versão codificada à base de vetor) dos coeficientes de HOA 11. A unidade de extração 72 pode determinar a partir do elemento de sintaxe notado acima (por exemplo, o elemento de sintaxe de ChannelType mostrado nos exemplos das Figuras 10E e 10H(i)-100(ii)) se os coeficientes de HOA 11 foram codificados por meio das várias versões. Quando uma codificação à base de direcionalidade foi realizada, a unidade de extração 72 pode extrair a versão à base de direcionalidade dos coeficientes de HOA 11 e os elementos de sintaxe associadas a essa versão codificada (que é denotada como informações à base de direcionalidade 91 no exemplo da Figura 5), que passa essas informações à base de direcionalidade 91 para a unidade de reconstrução à base de direcionalidade 90. Essa unidade de reconstrução à base de direcionalidade 90 pode representar a unidade configurada para reconstruir os coeficientes de HOA na forma de coeficientes de HOA 11’ com base nas informações à base de direcionalidade 91. O fluxo de bits e a disposição de elementos de sintaxe dentro do fluxo de bits são descritos abaixo em maiores detalhes em relação ao exemplo das Figuras 10-100(ii) e 11.
[0432] Quando o elemento de sintaxe indica que os coeficientes HOA 11 foram codificados com o uso de uma síntese com base em vetor, a unidade de extração 72 pode extrair os vetores V[k] de primeiro plano codificados 57, os coeficientes HOA de ambiente codificado 59 e os sinais de nFG codificados 59. A unidade de extração 72 pode passar os vetores de primeiro plano codificados V[k] 57 para a unidade de quantização 74 e os coeficientes de HOA de ambiente codificados 59 em conjunto com os sinais de nFG codificados 61 para a unidade de decodificação psicoacústica 80.
[0433] Para extrair os vetores de primeiro plano codificados V[k] 57, os coeficientes de HOA de ambiente codificados 59 e os sinais de nFG codificados 59, as unidade de extração 72 podem obter as informações de canal auxiliares 57, que incluem o elemento de sintaxe denotado codedVVecLength. A unidade de extração 72 pode analisar o codedVVecLength a partir das informações de canal auxiliares 57. A unidade de extração 72 pode ser configurada para operar em que um dos modos de configuração descritos acima com base no elemento de sintaxe de codedVVecLength.
[0434] A unidade de extração 72 então opera de acordo com qualquer um dos modos de configuração para analisar uma forma compactada dos vetores de primeiro plano reduzidos V[k] 55k a partir das informações de canal auxiliares 57. A unidade de extração 72 pode operar de acordo com a instrução switch apresentada no seguindo pseudo-código com a sintaxe apresentada na tabela de sintaxe a seguir para VectorData:
Figure img0043
Figure img0044
[0435] Na tabela de sintaxe anterior, a primeira instrução switch com os quatro casos (caso 0-3) fornece uma forma através da qual determinar o comprimento de vetor VTDIST no que se refere ao número (WecLength) e índices de coeficientes (VVecCoeffld). O primeiro caso, caso 0, indica que todos os coeficientes para os vetores VTDIST (NumOfHoaCoeffs) são especificados. O segundo caso, caso 1, indica que somente aqueles coeficientes do vetor de VTDIST correspondentes ao número maior do que um MmNumOfCoeffsForAmbHOA são especificados, que podem denotar o que é chamado de (NDIST + 1)2 - (NBG + 1)2 acima. Adicionalmente os coeficientes de NumOfContAddAmbHoaChan identificados em ContAddAmbHoaChan são subtraídos. A lista ContAddAmbHoaChan especifica canais adicionais (em que “canais” se referem a um coeficiente particular correspondente a uma determinada ordem, combinação de subordem) correspondentes a uma ordem que excede a ordem MinAmbHoaOrder. O terceiro caso, caso 2, indica que aqueles coeficientes do vetor de VTDIST correspondentes ao número maior do que um MmNumOfCoeffsForAmbHOA são especificados, que podem denotar o que é chamado de (NDIST + 1)2 - (NBG + 1)2 acima. O quarto caso, caso 3, indica que aqueles coeficientes do vetor VTDIST remanescente após remover os coeficientes identificados por NumOfContAddAmbHoaChan são especificados. Tanto VVecLength quanto a lista de VVecCoeffld são válidos para todos VVectors dentro de HOAFrame.
[0436] Após essa instrução switch, a decisão de se deve realizar desquantização uniforme pode ser controlada por NbitsQ (ou, conforme denotado acima, nbits), que se for igual a 5, uma desquantização de escalar de 8 bit uniforme é realizada. Em contraste, um valor de NbitsQ maior ou igual a 6 pode resultar na aplicação da decodificação de Huffman. O valor de cid referido acima pode ser igual aos dois bits menos significativos do valor de NbitsQ. O modo de predição discutido acima é denotado como o PFlag na tabela de sintaxe acima, enquanto o bit de informações de HT é denotado de CbFlag na tabela de sintaxe acima. A sintaxe remanescente especifica como a decodificação ocorre de forma substancialmente semelhante àquela descrita acima. Vários exemplos do fluxo de bits 21 que se conforma a cada um dos vários casos acima são descritos em maiores detalhes abaixo em relação às Figuras 10H(i)-100(ii).
[0437] A unidade de reconstrução à base de vetor 92 representa uma unidade configurada para realizar operações recíprocas àquelas descritas acima em relação à unidade de síntese à base de vetor 27 com a finalidade de reconstruir os coeficientes de HOA 11’. A unidade de reconstrução à base de vetor 92 pode incluir uma unidade de quantização 74, uma unidade de interpolação espaço-temporal 76, uma unidade de formulação de primeiro plano 78, uma unidade de decodificação psicoacústica 80, uma unidade de formulação de coeficiente de HOA 82 e uma unidade de reordenação 84.
[0438] A unidade de quantização 74 pode representar uma unidade configurada para opera de forma recíproca à unidade de quantização 52 mostrada no exemplo da Figura 4 com a finalidade de desquantificar os vetores de primeiro plano codificados V[k] 57 e gerar assim vetores de primeiro plano reduzidos V[k] 55k. A unidade de desquantização 74 pode, em alguns exemplos, realizar uma forma de decodificação por entropia e desquantização escalar de forma recíproca àquela descrita acima em relação à unidade de quantização 52. A unidade de desquantização 74 pode encaminhar os vetores de primeiro plano reduzidos V[k] 55k para a unidade de reordenação 84.
[0439] A unidade de decodificação psicoacústica 80 pode operar de forma recíproca à unidade de codificação de áudio psicoacústica 40 mostrada no exemplo da Figura 4 com a finalidade de decodificar os coeficientes de HOA de ambiente codificados 59 e os sinais de nFG codificados 61 e gerar assim os coeficientes de HOA de ambiente compensados por energia 47’ e os sinais de nFG interpolados 49’ (que também podem ser chamados de objetos de áudio de nFG interpolados 49’). A unidade de decodificação psicoacústica 80 pode passar os coeficientes HOA de ambiente compensados por energia 47’ para unidade de formulação de coeficiente de HOA 82 e os sinais de nFG 49’ para a reordenação 84.
[0440] A unidade de reordenação 84 pode representar uma unidade configurada para operar de uma maneira recíproca similar àquela descrita acima em relação à unidade de reordenação 34. A unidade de reordenação 84 pode receber elementos de sintaxe indicativos da ordem original dos componentes de primeiro plano dos coeficientes de HOA 11. A unidade de reordenação 84 pode, com base nesses elementos de sintaxe de reordenação, reorganizar os sinais de nFG interpolados 49’ e os vetores 55A V[k] de primeiro plano reduzidos para gerar sinais de nFG 49” reordenados e vetores 55k’V[k] de primeiro plano reordenados. A unidade de reordenação 84 pode emitir os sinais de nFG 49” reordenados para a unidade de formulação de primeiro plano 78 e os vetores 55k’ V[k] de primeiro plano reordenados para a unidade de interpolação espaço- temporal 76.
[0441] A unidade de interpolação espaço- temporal 76 pode operar de uma maneira similar àquela descrita acima em relação à unidade de interpolação espaço- temporal 50. A unidade de interpolação espaço-temporal 76 pode receber os vetores 55k’ V[k] de primeiro plano reordenados e realizar a interpolação espaço-temporal em relação aos vetores 55k’ V[k] de primeiro plano reordenados e vetores 55k-i‘ V[k-1] de primeiro plano reordenados para gerar vetores 55k'” V[k] de primeiro plano interpolados. A unidade de interpolação espaço-temporal 76 pode transmitir os vetores 55k” V[k] de primeiro plano interpolados para a unidade de formulação de primeiro plano 78.
[0442] A unidade de formulação de primeiro plano 78 pode representar uma unidade configurada para realizar multiplicação de matriz em relação aos vetores 55k" V[k] de primeiro plano interpolados e aos sinais de nFG 49” reordenados para gerar os coeficientes HOA de primeiro plano 65. A unidade de formulação de primeiro plano 78 pode realizar uma multiplicação de matriz dos sinais de nFG reordenados 49” pelos vetores de V[k] de primeiro plano interpolados 55k”.
[0443] A unidade de formulação de coeficiente de HOA 82 pode representar uma unidade configurada para adicionar os coeficientes de HOA de primeiro plano 65 para os canais de HOA de ambiente 47’ com a finalidade de obter os coeficientes de HOA 11 ‘, em que a plica reflete que esses coeficientes de HOA 11 ‘ podem ser semelhantes, mas não iguais aos coeficientes de HOA 11. As diferenças entre os coeficientes de HOA 11 e 11 ‘ podem resultar da perda devido à transmissão através de um meio de transmissão com perdas, quantização ou outras operações com perdas.
[0444] Desta forma, os conjuntos de procedimentos podem habilitar um dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24, para determinar, a partir de um fluxo de bits, informações direcionais quantificadas, um objeto de áudio de primeiro plano codificado, e coeficientes de ambissônico de ordem superior de ambiente codificados (HOA), em que as informações direcionais quantificadas e o objeto de áudio de primeiro plano codificado representam coeficientes de HOA de primeiro plano que descrevem um componente de primeiro plano de um campo sonoro, e em que os coeficientes de HOA de ambiente codificados descrevem um componente de ambiente do campo sonoro, desquantificar as informações direcionais quantificadas para gerar informações direcionais, realizar interpolação espaço-temporal em relação às informações direcionais para gerar informações direcionais interpoladas, decodificar por áudio o objeto de áudio de primeiro plano codificado para gerar um objeto de áudio de primeiro plano e os coeficientes de HOA de ambiente codificados para gerar coeficientes de HOA de ambiente, determinar os coeficientes de HOA de primeiro plano como uma função das informações direcionais interpoladas e o objeto de áudio de primeiro plano, e determinar coeficientes de HOA como uma função dos coeficientes de HOA de primeiro plano e os coeficientes de HOA de ambiente.
[0445] Desta forma, vários aspectos dos conjuntos de procedimentos podem habilitar um dispositivo de decodificação de áudio unificado 24 para comutar entre dois esquemas de descompactação diferentes. Em alguns casos, o dispositivo de decodificação de áudio 24 pode ser configurado para selecionar um dentre uma pluralidade de esquemas de descompactação baseada na indicação de se uma versão compactada de coeficientes de harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético, e descomprimir a versão compactada dos coeficientes de harmônicos esféricos com o uso aquele esquema selecionado da pluralidade de esquemas de descompactação. Nesses e em outros casos, o dispositivo de decodificação de áudio 24 compreende um decodificador integrado.
[0446] Em alguns casos, o dispositivo de decodificação de áudio 24 pode ser configurado para obter uma indicação de se coeficientes de harmônicos esféricos representativa de um campo sonoro são gerados a partir de um objeto de áudio sintético.
[0447] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado para obter a indicação a partir de um fluxo de bits que armazena uma versão compactada dos coeficientes de harmônicos esféricos.
[0448] Desta forma, vários aspectos dos conjuntos de procedimentos podem habilitar o dispositivo de decodificação de áudio 24 para obter vetores que descrevem componentes de segundo plano e distintos do campo sonoro. Em alguns casos, o dispositivo de decodificação de áudio 24 pode ser configurado para determinar um ou mais primeiros vetores que descrevem componentes distintos de um campo sonoro e um ou mais segundos vetores que descrevem os componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos desempenhando-se uma transformação em relação a uma pluralidade de coeficientes de harmônicos esféricos.
[0449] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que a transformação compreende uma decomposição de valor singular que gera uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes de harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes de harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes de harmônicos esféricos.
[0450] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que os um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST codificados por áudio que, antes da codificação por áudio, foram gerados multiplicando-se um ou mais vetores UDIST codificados por áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e em que a matriz U e a matriz S são geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes de harmônicos esféricos.
[0451] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para decodificar por áudio os um ou mais vetores UDIST * SDIST codificados por áudio para gerar uma versão decodificada por áudio dos um ou mais vetores UDIST * SDIST codificados por áudio.
[0452] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que os um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST codificados por áudio que, antes da codificação por áudio, foram gerados multiplicando-se um ou mais vetores UDIST codificados por áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e um ou mais vetores VTDIST de uma transposta de uma matriz V, e em que a matriz U e a matriz S e a matriz V são geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes de harmônicos esféricos.
[0453] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para decodificar por áudio os um ou mais vetores UDIST * SDIST codificados por áudio para gerar uma versão decodificada por áudio dos um ou mais vetores UDIST * SDIST codificados por áudio.
[0454] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para multiplicar os vetores UDIST * SDIST pelos vetores VTDIST para recuperar aqueles dentre a pluralidade de harmônicos esféricos representativos dos componentes distintos do campo sonoro.
[0455] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que os um ou mais segundos vetores compreendem um ou mais vetores UBG * SBG * VTBG codificados por áudio que, antes da codificação por áudio, estavam gerando multiplicando-se vetores UBG incluídos dentro de uma matriz U por vetores SBG incluídos dentro de uma matriz S e então pelos vetores VTBG incluídos dentro de uma transposta de uma matriz V, e em que a matriz S, a matriz U e a matriz V foram, cada uma, geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes de harmônicos esféricos.
[0456] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que os um ou mais segundos vetores compreendem um ou mais vetores UBG * SBG * VTBG codificados por áudio que, antes da codificação por áudio, estavam gerando multiplicando-se vetores UBG incluídos dentro de uma matriz U por vetores SBG incluídos dentro de uma matriz S e então por vetores VTBG incluídos dentro de uma transposta de uma matriz V, em que a matriz S, a matriz U e a matriz V foram geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes de harmônicos esféricos, e em que o dispositivo de decodificação de áudio 24 é configurado adicionalmente para decodificar por áudio os um ou mais vetores UBG * SBG * VTBG codificados por áudio para gerar um ou mais vetores UBG * SBG * VTBG decodificados por áudio.
[0457] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que os um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST codificados por áudio que, antes da codificação por áudio, foram gerados multiplicando-se um ou mais vetores UDIST codificados por áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e um ou mais vetores VTDIST de uma transposta de uma matriz V, em que a matriz U, a matriz S e a matriz V foram geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes de harmônicos esféricos, e em que o dispositivo de decodificação de áudio 24 é configurado adicionalmente para decodificar por áudio os um ou mais vetores UDIST * SDIST codificados por áudio para gerar os um ou mais vetores UDIST * SDIST, e multiplicar os vetores UDIST * SDIST pelos vetores VTDIST para recuperar aqueles dentre a pluralidade de coeficientes de harmônicos esféricos que descrevem os componentes distintos do campo sonoro, em que os um ou mais segundos vetores compreendem um ou mais vetores UBG * SBG * VTBG codificados por áudio que, antes da codificação por áudio, foram gerados multiplicando-se vetores UBG incluídos na matriz U por vetores SBG incluídos na matriz S e então por vetores VTBG incluídos na transposta da matriz V, e em que o dispositivo de decodificação de áudio 24 é configurado adicionalmente para decodificar por áudio os um ou mais vetores UBG * SBG * VTBG codificados por áudio para recuperar pelo menos uma porção da pluralidade dos coeficientes de harmônicos esféricos que descrevem componentes de segundo plano do campo sonoro, e adicionar a pluralidade de coeficientes de harmônicos esféricos que descreve os componentes distintos do campo sonoro para a pelo menos porção da pluralidade dos coeficientes de harmônicos esféricos que descrevem os componentes de segundo plano do campo sonoro para gerar uma versão reconstruída da pluralidade de coeficientes de harmônicos esféricos.
[0458] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que os um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST que, antes da codificação por áudio, foram gerados multiplicando-se um ou mais vetores UDIST codificados por áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e um ou mais vetores VTDIST de uma transposta de uma matriz V, em que a matriz U, a matriz S e a matriz V foram geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes de harmônicos esféricos, e em que o dispositivo de decodificação de áudio 20 é configurado adicionalmente para obter um valor D que indica o número de vetores a ser extraído de um fluxo de bits para formar os um ou mais vetores UDIST * SDIST e os um ou mais vetores DiST.
[0459] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que os um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIS que, antes da codificação por áudio, foram gerados multiplicando-se um ou mais vetores UDIST codificados por áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e um ou mais vetores VTDIST de uma transposta de uma matriz V, em que a matriz U, a matriz S e a matriz V foram geradas pelo menos realizando-se a decomposição de valor singular em relação à pluralidade de coeficientes de harmônicos esféricos, e em que o dispositivo de decodificação de áudio 24 é configurado adicionalmente para obter um valor D em uma base de quadro de áudio por quadro de áudio que indica o número de vetores a ser extraído de um fluxo de bits para formar os um ou mais vetores UDIST * SDIST e os um ou mais vetores VTDIST.
[0460] Nesses e em outros casos, o dispositivo de decodificação de áudio 24, em que a transformação compreende uma análise de componente principal para identificar os componentes distintos do campo sonoro e os componentes de segundo plano do campo sonoro.
[0461] Vários aspectos dos conjuntos de procedimentos descritos nesta revelação também podem habilitar o dispositivo de codificação de áudio 24 para realizar interpolação em relação a versões decompostas dos coeficientes de HOA. Em alguns casos, o dispositivo de decodificação de áudio 24 pode ser configurado para obter coeficientes de harmônicos esféricos interpolados decompostos por um segmento de tempo, pelo menos em parte, desempenhando-se uma interpolação em relação a uma primeira decomposição de uma primeira pluralidade de coeficientes de harmônicos esféricos e uma segunda decomposição de uma segunda pluralidade de coeficientes de harmônicos esféricos.
[0462] Nesses e em outros casos, a primeira decomposição compreende uma primeira matriz V representativa de vetores singulares à direita da primeira pluralidade de coeficientes de harmônicos esféricos.
[0463] Nesses e em outros exemplos, a segunda decomposição compreende uma segunda matriz V representativa de vetores singulares à direita da segunda pluralidade de coeficientes de harmônicos esféricos.
[0464] Nesses e em outros casos, a primeira decomposição compreende uma primeira matriz V representativa de vetores singulares à direita da primeira pluralidade de coeficientes de harmônicos esféricos, e a segunda decomposição compreende uma segunda matriz V representativa de vetores singulares à direita da segunda pluralidade de coeficientes de harmônicos esféricos.
[0465] Nesses e em outros casos, o segmento de tempo compreende um subquadro de um quadro de áudio.
[0466] Nesses e em outros casos, o segmento de tempo compreende uma amostra de tempo de um quadro de áudio.
[0467] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado para obter uma decomposição interpolada da primeira decomposição e a segunda decomposição para um coeficiente harmônico esférico da primeira pluralidade de coeficientes de harmônicos esféricos.
[0468] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado para obter decomposições interpoladas da primeira decomposição para uma primeira porção da primeira pluralidade de coeficientes de harmônicos esféricos incluída no primeiro quadro e a segunda decomposição para uma segunda porção da segunda pluralidade de coeficientes de harmônicos esféricos incluída no segundo quadro, e o dispositivo de decodificação de áudio 24 é configurado adicionalmente para aplicar as decomposições interpoladas a um primeiro componente de tempo da primeira porção da primeira pluralidade de coeficientes de harmônicos esféricos incluída no primeiro quadro para gerar um primeiro componente de tempo artificial da primeira pluralidade de coeficientes de harmônicos esféricos, e aplicar as respectivas decomposições interpoladas a um segundo componente de tempo da segunda porção dentre a segunda pluralidade de coeficientes de harmônicos esféricos incluída no segundo quadro para gerar um segundo componente de tempo artificial da segunda pluralidade de coeficientes de harmônicos esféricos incluídos.
[0469] Nesses e em outros casos, o primeiro componente de tempo é gerado realizando-se uma síntese à base de vetor em relação à primeira pluralidade de coeficientes de harmônicos esféricos.
[0470] Nesses e em outros casos, o segundo componente de tempo é gerado realizando-se uma síntese à base de vetor em relação à segunda pluralidade de coeficientes de harmônicos esféricos.
[0471] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para receber o primeiro componente de tempo artificial e o segundo componente de tempo artificial, computar as decomposições interpoladas da primeira decomposição para a primeira porção da primeira pluralidade de coeficientes de harmônicos esféricos e a segunda decomposição para a segunda porção da segunda pluralidade de coeficientes de harmônicos esféricos, e aplicar inversos das decomposições interpoladas ao primeiro componente de tempo artificial para recuperar o primeiro componente de tempo e ao segundo componente de tempo artificial para recuperar o segundo componente de tempo.
[0472] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado para interpolar um primeiro componente espacial da primeira pluralidade de coeficientes de harmônicos esféricos e o segundo componente espacial da segunda pluralidade de coeficientes de harmônicos esféricos.
[0473] Nesses e em outros casos, o primeiro componente espacial compreende uma primeira matriz U representativa de vetores singulares à esquerda da primeira pluralidade de coeficientes de harmônicos esféricos.
[0474] Nesses e em outros casos, o segundo componente espacial compreende uma segunda matriz U representativa de vetores singulares à esquerda da segunda pluralidade de coeficientes de harmônicos esféricos.
[0475] Nesses e em outros casos, o primeiro componente espacial é representativo de M segmentos de tempo de coeficientes de harmônicos esféricos para a primeira pluralidade de coeficientes de harmônicos esféricos e o segundo componente espacial é representativo de M segmentos de tempo de coeficientes de harmônicos esféricos para a segunda pluralidade de coeficientes de harmônicos esféricos.
[0476] Nesses e em outros casos, o primeiro componente espacial é representativo de M segmentos de tempo de coeficientes de harmônicos esféricos para a primeira pluralidade de coeficientes de harmônicos esféricos e o segundo componente espacial é representativo de M segmentos de tempo de coeficientes de harmônicos esféricos para a segunda pluralidade de coeficientes de harmônicos esféricos, e o dispositivo de decodificação de áudio 24 é configurado para interpolar os últimos N elementos do primeiro componente espacial e os primeiros N elementos do segundo componente espacial.
[0477] Nesses e em outros casos, a segunda pluralidade de coeficientes de harmônicos esféricos é subsequente à primeira pluralidade de coeficientes de harmônicos esféricos no domínio de tempo.
[0478] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para decompor a primeira pluralidade de coeficientes de harmônicos esféricos para gerar a primeira decomposição da primeira pluralidade de coeficientes de harmônicos esféricos.
[0479] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para decompor a segunda pluralidade de coeficientes de harmônicos esféricos para gerar a segunda decomposição da segunda pluralidade de coeficientes de harmônicos esféricos.
[0480] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para realizar uma decomposição de valor singular em relação à primeira pluralidade de coeficientes de harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da primeira pluralidade de coeficientes de harmônicos esféricos, uma matriz S representativa de valores singulares da primeira pluralidade de coeficientes de harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da primeira pluralidade de coeficientes de harmônicos esféricos.
[0481] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para realizar uma decomposição de valor singular em relação à segunda pluralidade de coeficientes de harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da segunda pluralidade de coeficientes de harmônicos esféricos, uma matriz S representativa de valores singulares da segunda pluralidade de coeficientes de harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da segunda pluralidade de coeficientes de harmônicos esféricos.
[0482] Nesses e em outros casos, cada uma dentre a primeira e a segunda pluralidades de coeficientes de harmônicos esféricos representa uma representação de onda plana do campo sonoro.
[0483] Nesses e em outros casos, cada uma dentre a primeira e a segunda pluralidades de coeficientes de harmônicos esféricos representa um ou mais objetos de áudio mono misturados juntamente.
[0484] Nesses e em outros casos, cada uma dentre a primeira e a segunda pluralidades de coeficientes de harmônicos esféricos compreende respectivos primeiro e segundo coeficientes de harmônicos esféricos que representam um campo sonoro tridimensional.
[0485] Nesses e em outros casos, a primeira e a segunda pluralidades de coeficientes de harmônicos esféricos são, cada uma, associadas a pelo menos uma função de base esférica que tem uma ordem maior do que um(1).
[0486] Nesses e em outros casos, a primeira e a segunda pluralidades de coeficientes de harmônicos esféricos são, cada uma, associadas a pelo menos um função de base esférica que tem uma ordem igual a quatro.
[0487] Nesses e em outros casos, a interpolação é uma interpolação ponderada da primeira decomposição e segunda decomposição, em que os pesos da interpolação ponderada aplicada à primeira decomposição são inversamente proporcionais a um tempo representado por vetores da primeira e segunda decomposições e em que os pesos da interpolação ponderada aplicada à segunda decomposição são proporcionais a um tempo representado pelos vetores da primeira e segunda decomposições.
[0488] Nesses e em outros casos, os coeficientes de harmônicos esféricos interpolados decompostos suavizam pelo menos um dentre os componentes espaciais e os componentes de tempo da primeira pluralidade de coeficientes de harmônicos esféricos e da segunda pluralidade de coeficientes de harmônicos esféricos.
[0489] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado para computar Us[n] = HOA(n) * (V_vec[n])-1 para obter um escalar.
[0490] Nesses e em outros casos, a interpolação compreende uma interpolação linear. Nesses e em outros casos, a interpolação compreende uma interpolação não linear. Nesses e em outros casos, a interpolação compreende uma interpolação de cosseno. Nesses e em outros casos, a interpolação compreende uma interpolação de cosseno ponderada. Nesses e em outros casos, a interpolação compreende uma interpolação cúbica. Nesses e em outros casos, a interpolação compreende um Interpolação de Spline Adaptativa. Nesses e em outros casos, a interpolação compreende uma interpolação de curvatura mínima.
[0491] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado adicionalmente para gerar um fluxo de bits que inclui uma representação dos coeficientes de harmônicos esféricos interpolados decompostos para o segmento de tempo, e uma indicação de um tipo da interpolação.
[0492] Nesses e em outros casos, a indicação compreende um ou mais bits que mapeiam para o tipo de interpolação.
[0493] Nesses e em outros casos, o dispositivo de codificação de áudio 24 é configurado adicionalmente para obter um fluxo de bits que inclui uma representação dos coeficientes de harmônicos esféricos interpolados decompostos para o segmento de tempo, e uma indicação de um tipo da interpolação.
[0494] Nesses e em outros casos, a indicação compreende um ou mais bits que mapeiam para o tipo de interpolação.
[0495] Vários aspectos dos conjuntos de procedimentos podem, em alguns casos, habilitar adicionalmente o dispositivo de decodificação de áudio 24 para ser configurado para obter um fluxo de bits que compreende uma versão compactada de um componente espacial de um campo sonoro, sendo que o componente espacial é gerado realizando-se uma síntese à base de vetor em relação a uma pluralidade de coeficientes de harmônicos esféricos.
[0496] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso de, pelo menos em parte, um campo que especifica um modo de predição usado quando se comprime o componente espacial.
[0497] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso de, pelo menos em parte, informações de tabela de Huffman que especificam uma tabela de Huffman usada quando se comprime o componente espacial.
[0498] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de um campo que indica um valor que expressa um tamanho de etapa de quantização ou uma variável da mesma usada quando se comprime o componente espacial.
[0499] Nesses e em outros casos, o valor compreende um valor nbits.
[0500] Nesses e em outros casos, o fluxo de bits compreende uma versão compactada de uma pluralidade de componentes espaciais do campo sonoro cuja versão compactada do componente espacial é incluída, e o valor expressa o tamanho de etapa de quantização ou uma variável da mesma usada quando se comprime a pluralidade de componentes espaciais.
[0501] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de um código de Huffman para representar um identificador de categoria que identifica uma categoria de compactação à qual o componente espacial corresponde.
[0502] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de um bit de sinal que identifica se o componente espacial é um valor positivo ou um valor negativo.
[0503] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso de, pelo menos em parte, um código de Huffman para representar um valor residual do componente espacial.
[0504] Nesses e em outros casos, o dispositivo compreende um dispositivo de decodificação de áudio.
[0505] Vários aspectos dos conjuntos de procedimentos também podem habilitar o dispositivo de decodificação de áudio 24 para identificar um livro de códigos de Huffman para usar quando descomprimir uma versão compactada de um componente espacial de uma pluralidade de componentes espaciais compactados com base em uma ordem da versão compactada do componente espacial em relação àqueles restantes da pluralidade de componentes espaciais compactados, o componente espacial gerado desempenhando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes de harmônicos esféricos.
[0506] Nesses e em outros casos, o dispositivo de decodificação de áudio 24 é configurado para obter um fluxo de bits que compreende a versão compactada de um componente espacial de um campo sonoro, e descomprime a versão compactada do componente espacial com o uso, pelo menos em parte, do livro de códigos de Huffman identificado para obter o componente espacial.
[0507] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de um campo que especifica um modo de predição usado quando se comprime o componente espacial, e o dispositivo de decodificação de áudio 24 é configurado para descomprimir a versão compactada do componente espacial com base, pelo menos em parte, no modo de predição para obter o componente espacial.
[0508] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de informações de tabela de Huffman que especificam uma tabela de Huffman usada quando se comprime o componente espacial, e o dispositivo de decodificação de áudio 24 é configurado para descomprimir a versão compactada do componente espacial com base, pelo menos em parte, nas informações de tabela de Huffman.
[0509] Nesses e em outros casos, a versão compactada do componente espacial é representado no fluxo de bits com o uso, pelo menos em parte, de um campo que indica um valor que expressa um tamanho de etapa de quantização ou uma variável do mesmo usada quando se comprime o componente espacial, e o dispositivo de decodificação de áudio 24 é configurado para descomprimir a versão compactada do componente espacial com base, pelo menos em parte, no valor.
[0510] Nesses e em outros casos, o valor compreende um valor nbits.
[0511] Nesses e em outros casos, o fluxo de bits compreende uma versão compactada de uma pluralidade de componentes espaciais do campo sonoro cuja versão compactada do componente espacial está incluída, o valor expressa o tamanho de etapa de quantização ou uma variável da mesma usada quando se comprime a pluralidade de componentes espaciais e o dispositivo de decodificação de áudio 24 é configurado para descomprimir a pluralidade de versão compactada do componente espacial com base, pelo menos em parte, no valor.
[0512] Nesses e em outros casos, a versão compactada do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de um código de Huffman para representar um identificador de categoria que identifica uma categoria de compactação à qual o componente espacial corresponde e o dispositivo de decodificação de áudio 24 é configurado para descomprimir a versão compactada do componente espacial com base, pelo menos em parte, no código de Huffman.
[0513] Nesses e em outros casos, a versão compactada do componente espacial é representado no fluxo de bits com o uso de, pelo menos em parte, um bit de sinal que identifica se o componente espacial é um valor positivo ou m valor negativo, e o dispositivo de decodificação de áudio 24 é configurado para descomprimir a versão compactada do componente espacial com base, pelo menos em parte, no bit de sinal.
[0514] Nesses e em outros casos, a versão compactada do componente espacial é representado no fluxo de bits com o uso, pelo menos em parte, de um código de Huffman para representar um valor residual do componente espacial e o dispositivo de decodificação de áudio 24 é configurado para descomprimir a versão compactada do componente espacial com base, pelo menos em parte, no código de Huffman incluído no livro de códigos de Huffman identificado.
[0515] Em cada um dos vários casos descritos acima, deveria ser compreendido que o dispositivo de decodificação de áudio 24 pode realizar um método ou de outra forma compreende meios para realizar cada etapa do método para o qual o dispositivo de decodificação de áudio 24 é configurado para realizar em alguns casos, esses meios podem compreende um ou mais processadores. Em alguns casos, os um ou mais processadores podem representar um processador de propósito especial configurado por meio de instruções armazenadas em um meio de armazenamento legível por computador não transitório. Em outras palavras, vários aspectos dos conjuntos de procedimentos em cada um dos conjuntos de exemplos de codificação podem fornecer um meio de armazenamento legível por computador não transitório que tem armazenado no mesmo instruções que, quando executadas, fazem com que os um ou mais processadores realizem o método para o qual o dispositivo de decodificação de áudio 24 foi configurado para realizar.
[0516] A Figura 6 é um fluxograma que ilustra a operação exemplificativa de uma unidade de análise de conteúdo de um dispositivo de codificação de áudio, como a unidade de análise de conteúdo 26 mostrada no exemplo da Figura 4, na realização de vários aspectos dos conjuntos de procedimentos descritos nesta revelação.
[0517] A unidade de análise de conteúdo 26 pode, quando se determina se os coeficientes de HOA 11 representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético, obter um quadro de coeficientes de HOA (93), que pode ser de tamanho 25 por 1024 para uma representação de quarta ordem (isto é, N = 4). Após obter os coeficientes de HOA com quadro (que também pode ser denotados no presente documento como uma matriz de SHC com quadro 11 e subsequentes matrizes de SHC com quadro podem ser denotadas como matrizes de SHC com quadro 27B, 27C, etc.), a unidade de análise de conteúdo 26 pode, então, excluir o primeiro vetor dos coeficientes de HOA com quadro 11 para gerar coeficientes de HOA com quadro reduzidos(94).
[0518] A unidade de análise de conteúdo 26 pode, então, prever o primeiro vetor não zero dos coeficientes de HOA com quadro reduzidos a partir dos vetores remanescentes dos coeficientes de HOA com quadro reduzidos(95). Após prever o primeiro vetor não zero, a unidade de análise de conteúdo 26 pode obter um erro com base no primeiro vetor não zero previsto e o vetor não zero real (96). Uma vez que o erro é obtido, a unidade de análise de conteúdo 26 pode computar uma razão com base em uma energia do primeiro vetor não zero real e o erro (97). A unidade de análise de conteúdo 26 pode, então, comparar essa razão a um limite (98). Quando a razão não excede o limite (“NÃO” 98), a unidade de análise de conteúdo 26 pode determinar que a matriz de SHC com quadro 11 é gerada a partir de uma gravação e indica no fluxo de bits que a representação codificada correspondentes da matriz de SHC 11 foi gerada a partir de uma gravação (100, 101). Quando a razão excede o limite (“SIM” 98), a unidade de análise de conteúdo 26 pode determinar que a matriz de SHC com quadro 11 é gerada a partir de um objeto de áudio sintético e indica no fluxo de bits que a representação codificada correspondente da matriz de SHC 11 foi gerada a partir de um objeto de áudio sintético (102, 103). Em alguns casos, quando a matriz de SHC com quadro 11 foi gerada a partir de uma gravação, a unidade de análise de conteúdo 26 passa a matriz de SHC com quadro 11 para a síntese à base de vetor unidade 27 (101). Em alguns casos, quando a matriz de SHC com quadro 11 foi gerada a partir de um objeto de áudio sintético, a unidade de análise de conteúdo 26 passa a matriz de SHC com quadro 11 para a unidade de síntese à base de direcional 28 (104).
[0519] A Figura 7 é um fluxograma que ilustra a operação exemplificativa de um dispositivo de codificação de áudio, como o dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4, na realização de vários aspectos dos conjuntos de procedimentos de síntese à base de vetor descritos nesta revelação. Inicialmente, o dispositivo de codificação de áudio 20 recebe os coeficientes de HOA 11 (106). O dispositivo de codificação de áudio 20 pode invocar a unidade de LIT 30, que pode aplicar uma LIT em relação aos coeficientes de HOA para emitir coeficientes de HOA transformados (por exemplo, no caso de SVD, em que os coeficientes de HOA transformados podem compreender os vetores US[k] 33 e os vetores V[k] 35) (107).
[0520] O dispositivo de codificação de áudio 20 pode, a seguir, invocar a unidade de cálculo de parâmetro 32 para realizar a análise descrita acima em relação a qualquer combinação dos vetores US[k] 33, vetores US[k-1] 33, os vetores V[k] e/ou V[k-1] 35 para identificar vários parâmetros da forma descrita acima. Isto é, a unidade de cálculo de parâmetro 32 pode determinar pelo menos um parâmetro com base em uma análise dos coeficientes de HOA transformados 33/35 (108).
[0521] O dispositivo de codificação de áudio 20 pode, então, invocar a unidade de reordenação 34, que pode reordenar os coeficientes de HOA transformados (que, novamente no contexto de SVD, pode se referir aos vetores XJS[k] 33 e aos vetores V[k] 35) com base no parâmetro para gerar coeficientes de HOA transformados reordenados 33735’ (ou, em outras palavras, os vetores XJS[k] 33’ e os vetores V[k] 35’), conforme descrito acima (109). O dispositivo de codificação de áudio 20 pode, durante qualquer uma das operações de primeiro plano ou operações subsequentes, também invocar a unidade de análise de campo sonoro 44. A unidade de análise de campo sonoro 44 pode, conforme descrito acima, realizar uma análise de campo sonoro em relação aos coeficientes de HOA 11 e/ou aos coeficientes de HOA transformados 33/35 para determinar o número total de canais de primeiro plano (nFG) 45, a ordem do campo sonoro de segundo plano (NBG) e o número (NBGa) e índices (i) de canais de HOA de BG para enviar (que podem coletivamente ser denotados como informações de canal de segundo plano 43 no exemplo da Figura 4) (109).
[0522] O dispositivo de codificação de áudio 20 também pode invocar a unidade de seleção de segundo plano 48. A unidade de seleção de segundo plano 48 pode determinar coeficientes de HOA de ambiente ou segundo plano 47 com base nas informações de canal de segundo plano 43 (110). O dispositivo de codificação de áudio 20 pode invocar, adicionalmente, a unidade de seleção de primeiro plano 36, que pode selecionar aqueles dentre os vetores XJS[k] reordenados 33’ e os vetores V[k] reordenados 35’ que representam componentes distintos ou de primeiro plano do campo sonoro com base em nFG 45 (que pode representar um ou mais índices que identificam esses vetores de primeiro plano) (112).
[0523] O dispositivo de codificação de áudio 20 pode invocar a unidade de compensação de energia 38. A unidade de compensação de energia 38 pode realizar compensação de energia em relação aos coeficientes de HOA de ambiente 47 para compensar pela perda de energia devido à remoção de vários canais dentre os canais de HOA pela unidade de seleção de segundo plano 48 (114) e gerar assim os coeficientes de HOA de ambiente compensados por energia 47’.
[0524] O dispositivo de codificação de áudio 20 pode, então, invocar a unidade de interpolação espaço- temporal 50. A unidade de interpolação espaço-temporal 50 pode realizar interpolação espaço-temporal em relação aos coeficientes de HOA transformados reordenados 33735’ para obter os sinais de primeiro plano interpolados 49’ (que também podem ser chamados de “sinais de nFG interpolados 49”‘) e as informações direcionais de primeiro plano remanescentes 53 (que também podem ser chamadas os “vetores Y[k] 53”) (116). O dispositivo de codificação de áudio 20 pode, então, invocar uma unidade de redução de coeficiente 46. A unidade de redução de coeficiente 46 pode realizar a redução de coeficiente em relação aos vetores V[k] de primeiro plano remanescentes 53 com base nas informações de canal de segundo plano 43 para obter informações direcionais de primeiro plano reduzidas 55 (que também podem ser chamadas de vetores de primeiro plano reduzidos V[k] 55) (118).
[0525] O dispositivo de codificação de áudio 20 pode, então, invocar a unidade de quantização 52 para comprimir, da forma descrita acima, os vetores de primeiro plano reduzidos V[k] 55 e gerar vetores V[ k] de primeiro plano codificados 57 (120).
[0526] O dispositivo de codificação de áudio 20 também pode invocar a unidade codificadora de áudio psicoacústico 40. A unidade codificadora de áudio psicoacústico 40 pode codificar por psicoacústico cada vetor dos coeficientes de HOA de ambiente compensados por energia 47’ e os sinais de nFG interpolados 49’ para gerar coeficientes de HOA de ambiente codificados 59 e sinais de nFG codificados 61. O dispositivo de codificação de áudio pode, então, invocar a unidade de geração de fluxo de bits 42. A unidade de geração de fluxo de bits 42 pode gerar o fluxo de bits 21 com base nas informações direcionais de primeiro plano codificadas 57, os coeficientes de HOA de ambiente codificados 59, os sinais de nFG codificados 61 e as informações de canal de segundo plano 43.
[0527] A Figura 8 é um fluxograma que ilustra a operação exemplificativa de um dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24 mostrado na Figura 5, na realização de vários aspectos dos conjuntos de procedimentos descritos nesta revelação. Inicialmente, o dispositivo de decodificação de áudio 24 pode receber o fluxo de bits 21 (130). Mediante o recebimento de fluxo de bits, o dispositivo de decodificação de áudio 24 pode invocar a unidade de extração 72. Presumindo para propósitos de discussão que o fluxo de bits 21 indica que a reconstrução à base de vetor deve ser realizada, o dispositivo de extração 72 pode analisar esse fluxo de bits para recuperar as informações notadas acima, passando essas informações para a unidade de reconstrução à base de vetor 92.
[0528] Em outras palavras, a unidade de extração 72 pode extrair as informações direcionais de primeiro plano codificadas 57 (que, novamente, também podem ser chamadas de vetores de primeiro plano codificados V[k] 57), os coeficientes de HOA de ambiente codificados 59 e os sinais de primeiro plano codificados (que também podem ser chamados de sinais de nFG de primeiro plano codificados 59 ou os objetos de áudio de primeiro plano codificados 59) a partir do fluxo de bits 21 da forma descrita acima (132).
[0529] O dispositivo de decodificação de áudio 24 pode, adicionalmente, invocar a unidade de quantização 74. A unidade de quantização 74 pode desquantificar e decodificar por entropia as informações direcionais de primeiro plano codificadas 57 para obter informações direcionais de primeiro plano reduzidas 55k (136). O dispositivo de decodificação de áudio 24 também pode invocar a unidade de decodificação psicoacústica 80. A unidade de codificação de áudio psicoacústica 80 pode decodificar os coeficientes de HOA de ambiente codificados 59 e os sinais de primeiro plano codificados 61 para obter coeficientes de HOA de ambiente compensados por energia 47’ e os sinais de primeiro plano interpolados 49’ (138). A unidade de decodificação psicoacústica 80 pode passar os coeficientes HOA de ambiente compensados por energia 47’ para unidade de formulação de coeficiente de HOA 82 e os sinais de nFG 49’ para a unidade reordenação 84.
[0530] A unidade de reordenação 84 pode receber elementos de sintaxe indicativos da ordem original dos componentes de primeiro plano dos coeficientes de HOA 11. A unidade de reordenação 84 pode, com base nesses elementos de sintaxe de reordenação, reorganizar os sinais de nFG interpolados 49’ e os vetores V[k] 55 k de primeiro plano reduzidos para gerar sinais de nFG 49” reordenados e vetores V[k] 55k’ de primeiro plano reordenados (140). A unidade de reordenação 84 pode emitir os sinais de nFG 49” reordenados para a unidade de formulação de primeiro plano 78 e os vetores 55k’ V[k] de primeiro plano reordenados para a unidade de interpolação espaço-temporal 76.
[0531] O dispositivo de decodificação de áudio 24 pode, a seguir, invocar a unidade de interpolação espaço-temporal 76. A unidade de interpolação espaço- temporal 76 pode receber as informações direcionais de primeiro plano reordenadas 55k’ e realizar a interpolação espaço-temporal em relação às informações direcionais de primeiro plano reduzidas para gerar as informações direcionais de primeiro plano interpoladas 55k” (142). A unidade de interpolação espaço-temporal 76 pode transmitir os vetores 55k” V[k] de primeiro plano interpolados para a unidade de formulação de primeiro plano 718.
[0532] O dispositivo de decodificação de áudio 24 pode invocar a unidade de formulação de primeiro plano 78. A unidade de formulação de primeiro plano 78 pode realizar a multiplicação de matriz dos sinais de primeiro plano interpolados 49” pelas informações direcionais de primeiro plano interpoladas 55k” para obter os coeficientes de HOA de primeiro plano 65 (144). O dispositivo de decodificação de áudio 24 também pode invocar a unidade de formulação de coeficiente de HOA 82. A unidade de formulação de coeficiente de HOA 82 pode adicionar os coeficientes de HOA de primeiro plano 65 aos canais de HOA de ambiente 47’ com a finalidade de obter os coeficientes de HOA 11 ‘ (146).
[0533] As Figuras 9A a 9L são diagramas de bloco que ilustram vários aspectos do dispositivo de codificação de áudio 20 do exemplo da Figura 4 em mais detalhes. A Figura 9A é um diagrama de blocos que ilustra a unidade de LIT 30 do dispositivo de codificação de áudio 20 em maiores detalhes. Conforme mostrado no exemplo da Figura 9A, a unidade de LIT 30 pode incluir múltiplas transformadas invertíveis lineares diferentes 200-200N. A unidade de LIT 30 pode incluir, para fornecer alguns exemplos, uma transformada de decomposição de valor singular (SVD) 200A (“SVD 200A”), uma transformada de análise de componente principal(PCA) 200B (“PCA 200B”), uma transformada de Karhunen-Loeve (KLT) 200C (“KLT 200C”), uma transformada de Fourier rápida (FFT) 200D (“FFT 200D”) e uma transformada de cosseno discreta (DCT) 200N (“DCT 200N”). A unidade de LIT 30 pode invocar qualquer uma das transformadas invertíveis lineares 200 para aplicar a respectiva transformada em relação aos coeficientes de HOA 11 e gerar os respectivos coeficientes de HOA transformados 33/35.
[0534] Embora sejam descritos como sendo realizados diretamente em relação aos coeficientes de HOA 11, a unidade de LIT 30 pode aplicar as transformadas invertíveis lineares 200 a derivados dos coeficientes de HOA 11. Por exemplo, a unidade de LIT 30 pode aplicar a SVD 200 em relação a uma matriz de densidade espectral de potência derivada dos coeficientes de HOA 11. A matriz de densidade espectral de potência pode ser denotada como PSD e obtida através da multiplicação de matriz da transposta do hoaFrame para o hoaFrame, conforme destacado no pseudocódigo que segue a abaixo. A notação de hoaFrame se refere a um quadro dos coeficientes de HOA 11.
[0535] A unidade de LIT 30 pode, após a aplicar a SVD 200 (svd) à PSD, pode obter uma matriz S[k]2 (S quadrático) e uma matriz V[k]. A matriz S[k]2 pode denotar uma matriz S[k] quadrática, mediante a qual a unidade de LIT 30 (ou, alternativamente, a unidade de SVD 200 como um exemplo) pode aplicar uma operação de raiz quadrada à matriz S[k]2 para obter a matriz S[k]. A unidade de SVD 200 pode, em alguns casos, realizar a quantização em relação à matriz V[k] para obter uma matriz V[k] quantificada (que pode ser denotada como a matriz V[&]’). A unidade de LIT 30 pode obter a matriz U[k] multiplicando-se primeiro a matriz S[k] pela matriz V[&]’ quantificada para obter uma matriz SV[k]’. A unidade de LIT 30 pode obter a seguir o pseudoinverso (pinv) da matriz SV[k]’ e então multiplicar os coeficientes de HOA 11 pelo pseudoinverso da matriz SV[k]’ para obter a matriz U[k]. A primeiro plano pode ser representado pelo seguinte pseudo-código:
Figure img0045
[0536] Realizando se SVD em relação à densidade espectral de potência (PSD) dos coeficientes de HOA ao invés dos próprios coeficientes, a unidade de LIT 30 pode potencialmente reduzir a complexidade computacional da realização da SVD em termos de um ou mais dos ciclos de processador e espaço de armazenamento, enquanto alcança a mesma eficácia de codificação de áudio fonte como se a SVD fosse aplicada diretamente aos coeficientes de HOA. Isto é, a SVD do tipo PSD descrita acima pode ser potencialmente menos computacionalmente exigente porque a SVD é feita em uma matriz F*F (com F o número de coeficientes de HOA). Em comparação a uma matriz M * F com M como o comprimento de quadro, isto é, 1024 ou mais amostras. A complexidade de uma SVD pode agora, através da aplicação à PSD ao invés dos coeficientes de HOA 11, estar ao redor de 0(LA3) em comparação a 0(M*LA2) quando aplicados aos coeficientes de HOA 11 (em que 0(*) denota a notação de grande 0 de complexidade de computação comum às artes de ciência de computação).
[0537] A Figura 9B é um diagrama de blocos que ilustra uma unidade de LIT 32 do dispositivo de codificação de áudio 20 em maiores detalhes. a unidade de cálculo de parâmetro 32 pode incluir uma unidade de análise de energia 202 e uma unidade de correlação cruzada 204. A unidade de análise de energia 202 pode realizar a análise de energia descrita acima em relação a um ou mais dos vetores US[k] 33 e aos vetores V[k] 35 para gerar um ou mais dentre o parâmetro de correlação (R), os parâmetros de propriedades direcionais (θ, cp, r), e a propriedade de energia (e) para um ou mais dentre o quadro atual (k) ou o quadro anterior (-1). Da mesma forma, a unidade de correlação cruzada 204 pode realizar a correlação cruzada descrita acima em relação a um ou mais dos vetores XJS[k] 33 e os vetores V[k] 35 para gerar um ou mais dentre o parâmetro de correlação (R), os parâmetros de propriedades direcionais (θ, <p, r), e a propriedade de energia (e) para um ou mais dentre o quadro atual (k) ou o quadro anterior (-1). A unidade de cálculo de parâmetro 32 pode emitir os parâmetros de quadro atual 37 e os parâmetros de quadro anterior 39.
[0538] A Figura 9A é um diagrama de blocos que ilustra a unidade de LIT 34 do dispositivo de codificação de áudio 20 em maiores detalhes. A unidade de reordenação 34 inclui uma unidade de avaliação de parâmetro 206 e uma unidade de reordenação de vetor 208. A unidade de avaliação de parâmetro 206 representa uma unidade configurada para avaliar os parâmetros de quadro anterior 39 e os parâmetros de quadro atual 37 da forma descrita acima para gerar índices de reordenação 205. Os índices de reordenação 205 incluem índices que identificam como os vetores dentre os vetores US [A:] 33 e os vetores dentre os vetores V[k] 35 devem ser reordenados (por exemplo, por pares de índice com o primeiro índice do par que identifica o índice da localização de vetor atual e o segundo índice do par que identifica a localização reordenada do vetor). A unidade de reordenação de vetor 208 representa uma unidade configurada para reordenar os vetores XJS[k] 33 e os vetores V[k] 35 de acordo com os índices de reordenação 205. A unidade de reordenação 34 pode emitir os vetores XJS[k] reordenados 33’ e os vetores V[k] reordenados 35’, enquanto também passa os índices de reordenação 205 como um ou mais elementos de sintaxe para a unidade de geração de fluxo de bits 42.
[0539] A Figura 9D é um diagrama de blocos que ilustra a unidade de análise de campo sonoro 44 do dispositivo de codificação de áudio 20 em maiores detalhes. Conforme mostrado no exemplo da Figura 9D, a unidade de análise de campo sonoro 44 pode incluir uma unidade de análise de valor singular 210A, uma unidade de análise de energia 210B, uma unidade de análise espacial 2 10c, uma unidade de análise de mascaramento espacial 210D, uma unidade de análise de difusão 210E e uma unidade de análise direcional 21 OF. A unidade de análise de valor singular 210A pode representar uma unidade configurada para analisar a inclinação da curva criada pelos valores diagonais descendentes de vetores S (formando parte dos vetores XJS[k] 33), em que os grandes valores singulares representam sons de primeiro plano ou distintos e os valores singulares baixos representam componentes de segundo plano do campo sonoro, conforme descrito acima. A unidade de análise de energia 21 OB pode representar uma unidade configurada para determinar a energia dos vetores V[k] 35 em uma base por vetor.
[0540] A unidade de análise espacial 2 10c pode representar uma unidade configurada para realizar A análise de energia espacial descrita acima através da transformação dos coeficientes de HOA 11 no domínio espacial e identificando áreas de energia alta representativas de componentes direcionais do campo sonoro que deveria ser preservado. A unidade de análise de mascaramento espacial 210D pode representar uma unidade configurada para realizar a análise de mascaramento espacial de forma semelhante àquela da análise de energia espacial, exceto que a unidade de análise de mascaramento espacial 210D pode identificar áreas espaciais que são mascaradas por sons de energia superior espacialmente próximos. A unidade de análise de difusão 210E pode representar uma unidade configurada para realizar a análise de difusão descrita acima em relação aos coeficientes de HOA 11 para identificar área de energia difusa que podem representar componentes de segundo plano do campo sonoro. A unidade de análise direcional 21 OF pode representar uma unidade configurada para realizar a análise direcional notada acima que envolve a computação dos vetores \S[k], e realizando-se o quadro e a soma de cada entrada de cada um desses vetores \S[k] para identificar um quociente de direcionalidade. A unidade de análise direcional 21 OF pode fornecer esse quociente de direcionalidade para cada um dos vetores \S[k] para a unidade de identificação (ID) de segundo plano/primeiro plano (BG/FG) 212.
[0541] A unidade de análise de campo sonoro 44 também pode incluir a unidade de ID de BG/FG 212, que pode representar uma unidade configurada para determinar o número total de canais de primeiro plano (nFG) 45, a ordem do campo sonoro de segundo plano (NBG) e o número (NBGa) e índices (i) de canais de HOA de BG adicionais para enviar (o que pode ser denotado coletivamente como informações de canal de segundo plano 43 no exemplo da Figura 4) com base em qualquer combinação da análise emita por qualquer combinação de unidades de análise 210-21 OF. A unidade de ID de BG/FG 212 pode determinar o nFG 45 e as informações de canal de segundo plano 43 com a finalidade de alcançar a taxa de bit alvo 41.
[0542] A Figura 9E é um diagrama de blocos que ilustra a unidade de seleção de primeiro plano 36 do dispositivo de codificação de áudio 20 em maiores detalhes. A unidade de seleção de primeiro plano 36 inclui uma unidade de análise de vetor 214 que pode analisar ou de outra forma extrair os vetores de US[k] de primeiro plano 49 e os vetores V[k] de primeiro plano 51k identificados pelo elemento de sintaxe nFG 45 a partir dos vetores XJS[k] reordenados 33’ e os vetores V[k] reordenados 35’. A unidade de análise de vetor 214 pode analisar os vários vetores representativos dos componentes de primeiro plano do campo sonoro identificado pela unidade de análise de campo sonoro 44 e especificados pelo elemento de sintaxe de nFG 45 (que também pode ser chamado de informações de canal de primeiro plano 45). Conforme mostrado no exemplo da Figura 9E, a unidade de análise de vetor 214 pode selecionar, em alguns casos, vetores não consecutivos dentro dos vetores XJS[k] de primeiro plano 49 e dos vetores V[k] de primeiro plano 51k para representar os componentes de primeiro plano do campo sonoro. Ademais, a unidade de análise de vetor 214 pode selecionar, em alguns casos, os mesmos vetores (por posição) dos vetores XJS[k] de primeiro plano 49 e os vetores V[k] de primeiro plano 51k para representar os componentes de primeiro plano do campo sonoro.
[0543] A Figura 9A é um diagrama de blocos que ilustra uma unidade de LIT 48 do dispositivo de codificação de áudio 20 em maiores detalhes. A unidade de seleção de segundo plano 48 pode determinar coeficientes de HOA de ambiente ou segundo plano 47 com base nas informações de canal de segundo plano (por exemplo, o campo sonoro de segundo plano (NBG) e o número (NBGa) e os índices (i) de canais de HOA de BG adicionais para enviar). Por exemplo, quando NBG for igual a um(1), a unidade de seleção de segundo plano 48 pode selecionar os coeficientes de HOA 11 para cada amostra do quadro de áudio que tem uma ordem igual ou menor do que um(1). A unidade de seleção de segundo plano 48 pode, nesse exemplo, então selecionar os coeficientes de HOA 11 que tem um índice identificado por um dos índices (i) como coeficientes de HOA de BG adicionais, em que o NBGa é fornecido à unidade de geração de fluxo de bits 42 para ser especificado no fluxo de bits 21 com a finalidade de habilitar o dispositivo de decodificação de áudio, como o dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5, para analisar os coeficientes de HOA de BG 47 a partir do fluxo de bits 21. A unidade de seleção de segundo plano 48 pode, então, emitir os coeficientes de HOA de ambiente 47 para a unidade de compensação de energia 38. Os coeficientes de HOA de ambiente 47 pode ter dimensões D M x [(NBG+1)2 + NBGa]. ilustra uma unidade de compensação de energia 38 do dispositivo de codificação de áudio 20 em maiores detalhes. A unidade de compensação de energia 38 pode representar uma unidade configurada para realizar compensação de energia em relação aos coeficientes de HOA de ambiente 47 para compensar pela perda de energia devido à demoção de vários dentre os canais de HOA pela unidade de seleção de segundo plano 48. A unidade de compensação de energia 38 pode incluir uma unidade de determinação de energia 218, uma unidade de análise de energia 220 e uma unidade de amplificação de energia 222.
[0544] Conforme adicionalmente mostrado no exemplo da Figura 10C(i), a porção 258B’ pode incluir subfluxos de bits para vl a vn, em que cada um dos quais inclui um campo de informações de Tabela Huffman 263 e um correspondente dos componentes direcionais comprimidos vl a vn sem incluir o campo de modo de previsão 262. Em todos os outros aspectos, a porção 258B’ pode ser similar à porção 258B.
[0545] A unidade de determinação de energia 218 pode representar uma unidade configurada para identificar o RMS para cada fileira e/ou coluna de uma ou mais dentre a matriz US[k] reordenada 33’ e a matriz V[k] reordenada 35’. A unidade de determinação de energia 38 também pode identificado o RMS para cada fileira e/ou coluna de um ou mais dos canais de primeiro plano selecionados, que podem incluir os sinais de nFG 49 e os vetores V[k] de primeiro plano 511, e os coeficientes de HOA de ambiente de ordem reduzida 47. O RMS para cada fileira e/ou coluna dentre as uma ou mais matriz US[k] reordenada 33’ e a matriz V[k] reordenada 35’ pode ser armazenado em um vetor denotado RMSCOMPLETO, enquanto o RMS para cada fileira e/ou coluna de um ou mais dos sinais nFG 49, os vetores V[k] de primeiro plano 511, e os coeficientes de HOA de ambiente reduzidos em ordem 47 podem ser armazenados em um vetor denotado RMSREDUZIDO- [0519] Em alguns exemplos, para determinar cada RMS das respectivas fileiras e/ou colunas de uma ou mais dentre a matriz US[k] reordenada 33’, a matriz V[k] reordenada 35’, os sinais de nFG 49, os vetores V[k] de primeiro plano 511, e os coeficientes de HOA de ambiente reduzidos em ordem 47, a unidade de determinação de energia 218 pode primeiro aplicar um renderizador de coeficiente de harmônico esférico de referência (SHC) às colunas. A aplicação do renderizador de SHC de referência pela unidade de determinação de energia 218 permite a determinação de RMS no domínio de SHC para determinar a energia do campo sonoro geral descrito por cada fileira e/ou coluna do quadro representado por fileiras e/ou colunas de uma ou mais dentre a matriz XJS[k] reordenada 33’, a matriz V[k] reordenada 35’, os sinais de nFG 49, os vetores V[k] de primeiro plano 51k, e os coeficientes de HOA de ambiente reduzidos em ordem 47. A unidade de determinação de energia 38 pode passar esses vetores de RMSCOMPLETO e RMSREDUZIDO para a unidade de análise de energia 220.
[0546] A unidade de análise de energia 220 pode representar uma unidade configurada para computar um vetor de valor de amplificação Z, de acordo com a seguinte equação: Z = RMS COMPLETO / RMS REDUZIDO - A unidade de análise de energia 220 pode, então, passar esse vetor de valor de amplificação Z para a unidade de amplificação de energia 222. A unidade de amplificação de energia 222 pode representar uma unidade configurada para aplicar esse vetor de valor de amplificação Z ou várias porções do mesmo a um ou mais dos sinais de sinais de nFG 49, dos vetores V[k] de primeiro plano 511, e dos coeficientes de HOA de ambiente reduzidos em ordem 47. Em alguns casos, o vetor de valor de amplificação Z é aplicado somente aos coeficientes de HOA de ambiente reduzidos em ordem 47 de acordo com a seguinte equação HOABG_RED’ = HOABG_REDZT, em que HOABG-RED denota os coeficientes de HOA de ambiente reduzidos em ordem 47, HOABG-RED denota a energia compensada, coeficientes de HOA de ambiente reduzidos 47’ e Zr denota a transposta do vetor Z.
[0547] A Figura 9H é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de interpolação espaço-temporal 50 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. A unidade de interpolação espaço-temporal 50 pode representar uma unidade configurada para receber os vetores V[k] de primeiro plano 51k para o quadro k’th e os vetores V[k-1] de primeiro plano 51k-1 para o quadro anterior (por conseguinte a notação k-1) e realizar interpolação espaço- temporal para gerar vetores de V[k] de primeiro plano interpolados. A unidade de interpolação espaço-temporal 50 pode incluir uma unidade de interpolação V 224 e uma unidade de adaptação de primeiro plano 226.
[0548] A unidade de interpolação V 224 pode selecionar uma porção dos vetores V[k] de primeiro plano atuais 51k para interpolar com base nas porções remanescentes dos vetores V[k] de primeiro plano atuais 51k e nos vetores V[k-1] de primeiro plano anteriores 51k. A unidade de interpolação V 224 pode selecionar a porção para ser um ou mais dentre os subquadros notados acima ou somente uma única porção indefinida que pode variar em uma base de quadro por quadro. A unidade de interpolação V 224 pode, em alguns casos, selecionar uma única porção de amostra 128 dentre as 1024 amostras dos vetores V[k] de primeiro plano atuais 51k para interpolar. A unidade de interpolação V 224 pode, então, converter cada um dos vetores nos vetores V[k] de primeiro plano atuais 511 e os vetores V[k-1] de primeiro plano anteriores 51k para separar os mapas espaciais separados projetando-se os vetores em uma esfera (com o uso de uma matriz de projeção como uma matriz de projeto T). A unidade de interpolação V 224 pode, então, interpretar os vetores em V como formatos em uma esfera. Para interpolar as matrizes V para a porção de amostra 256, a unidade de interpolação V 224 pode, então, interpolar esses formatos espaciais - e então transformá-los de volta para os vetores de domínio harmônico esférico por meio do inverso da matriz de projeção. Os conjuntos de procedimentos desta revelação podem, desta forma, fornecer uma transição suave entre as matrizes V. A unidade de interpolação V 224 pode, então, gerar os vetores V[k] remanescentes 53, que representam os vetores V[k] de primeiro plano 51k após serem modificados para remover a porção interpolada dos vetores V[k] de primeiro plano 51k. A unidade de interpolação V 224 pode, então, passar os vetores de V[k] de primeiro plano interpolados 51k’ para a unidade de adaptação de nFG 226.
[0549] Quando se seleciona uma única porção para a interpolação, a unidade de interpolação V 224 pode gerar um elemento de sintaxe denotado CodedSpatiallnterpolationTime 254, que identifica a duração ou, em outras palavras, o tempo da interpolação (por exemplo, no que se refere ao número de amostras). Quando se seleciona uma única porção para realizar a interpolação de subquadro, a unidade de interpolação V 224 também pode gerar outro elemento de sintaxe denotado SpatiallnterpolationMethod 255, que pode identificar um tipo de interpolação realizada (ou, em alguns casos, seja interpolação foi realizada ou não). A unidade de interpolação espaço-temporal 50 pode emitir esses elementos de sintaxe 254 e 255 para a unidade de geração de fluxo de bits 42.
[0550] A unidade de adaptação de nFG 226 pode representar uma unidade configurada para gerar os sinais de nFG adaptados 49’. A unidade de adaptação de nFG 226 pode gerar os sinais de nFG adaptados 49’ obtendo-se primeiro os coeficientes de HOA de primeiro plano através da multiplicação dos sinais de nFG 49 pelos vetores V[k] de primeiro plano 51k. Após obter os coeficientes de HOA de primeiro plano, a unidade de adaptação de nFG 226 pode dividir os coeficientes de HOA de primeiro plano pelos vetores de V[k] de primeiro plano interpolados 53 para obter os sinais de nFG adaptados 49’ (que podem ser chamados de sinais de nFG interpolados 49’ dado que esses sinais são derivados dos vetores de V[k] de primeiro plano interpolados 51k’).
[0551] A Figura 91 é diagrama de blocos que ilustra, em maiores detalhes, a unidade de redução de coeficiente 46 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. A unidade de redução de coeficiente 46 pode representar uma unidade configurada para realizar a redução de coeficiente em relação aos vetores V[k] de primeiro plano remanescentes 53 com base nas informações de canal de segundo plano 43 para emitir vetores de primeiro plano reduzidos V[k] 55 para a unidade de quantização 52. Os vetores de primeiro plano reduzidos V[k] 55 podem ter dimensões D: [(N+1)2 - (NBG+1)2-NBGa] x nFG.
[0552] A unidade de redução de coeficiente 46 pode incluir uma unidade de minimização de coeficiente 228, que pode representar uma unidade configurada para reduzir ou de outra forma minimizar o tamanho de cada um dos vetores V[k] de primeiro plano remanescentes 53 removendo- se quaisquer coeficientes que são levados em conta nos coeficientes de HOA de segundo plano 47 (como identificado pelas informações de canal de segundo plano 43). A unidade de minimização de coeficiente 228 pode remover aqueles coeficientes identificados pelas informações de canal de segundo plano 43 para obter os vetores de primeiro plano reduzidos V[k] 55.
[0553] A Figura 9J é um diagrama de blocos que ilustra, em maiores detalhes, a unidade codificadora de áudio psicoacústico 40 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. A unidade codificadora de áudio psicoacústico 40 pode representar uma unidade configurada para realizar codificação psicoacústica em relação aos coeficientes de HOA de segundo plano compensados por energia 47’e os sinais de nFG interpolados 49’. Conforme mostrado no exemplo da Figura 9H, a unidade codificadora de áudio psicoacústico 40 pode invocar múltiplas instâncias de codificadores de áudio psicoacústico 40A-40N para codificar por áudio cada um dos canais dos coeficientes de HOA de segundo plano compensados por energia 47’ (em que um canal neste contexto se refere a coeficientes para todas as amostras no quadro correspondente a uma função de base esférica de subordem/ordem particular) e cada sinal dentre os sinais de nFG interpolados 49’. Em alguns exemplos, a unidade codificadora de áudio psicoacústico 40 instancia ou de outra forma inclui (quando implantada em hardware) codificadores de áudio 40A-40N em número suficiente para codificar separadamente cada canal dos coeficientes de HOA de segundo plano compensados por energia 47’ (ou NBGa mais o número total de índices (i)) e cada sinal dentre os sinais de nFG interpolados 49’ (ou nFG) para um total de NBGa mais o número total de índices (i) de canais de HOA de ambiente adicionais mais nFG. Os codificadores de áudio 40A-40N podem emitir os coeficientes de HOA de segundo plano codificados 59 e os sinais de nFG codificados 61.
[0554] A Figura 9K é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de quantização 52 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4 No exemplo da Figura 9K, a unidade de quantização 52 inclui uma unidade de quantização uniforme 230, uma unidade de nbits 232, uma unidade de predição 234, uma unidade de modo de predição 236 (“Unidade de Modo de Pred 236”), uma unidade de codificação de categoria ou residual 238, e uma unidade de seleção de tabela de Huffman 240. A unidade de quantização 230 uniforme representa uma unidade configurada para realizar a quantificação uniforme descrita acima em relação a um dos componentes espaciais (que podem representar qualquer um dos vetores de primeiro plano reduzidos V[k] 55). A unidade de nbits 232 representa uma unidade configurada para determinar o valor ou parâmetro de nbits.
[0555] A unidade de predição 234 representa uma unidade configurada para realizar a predição em relação ao componente espacial quantificado. A unidade de predição 234 pode realizar a predição realizando-se uma subtração por elemento dos vetores atuais dentre os vetores de primeiro plano reduzidos V[k] 55 por um vetor correspondente temporalmente subsequente dentre os vetores de primeiro plano reduzidos V[k] 55 (que podem ser denotados como vetores Y[k-1] de primeiro plano reduzidos 55). O resultado dessa predição pode ser chamado de componente espacial previsto.
[0556] A unidade de modo de predição 236 pode representar uma unidade configurada para selecionar o modo de predição. A unidade de seleção de tabela de Huffman 240 pode representar uma unidade configurada para selecionar uma tabela de Huffman adequada para a codificação do cid. A unidade de modo de predição 236 e a unidade de seleção de tabela de Huffman 240 pode operar, como um exemplo, de acordo com o seguinte pseudo-código:
[0557] Para um dado nbits, recupera todas as Tabelas de Huffman que têm nbits BOO = 0; B01 =
[0558] BOO = 0; B01 = 0; BIO = 0; B11 = 0; // inicializar para computar os bits esperados por modo de codificação
[0559] para m = 1:(N° de elementos no vetor)
[0560] // calcular número esperado de bits para um elemento de vetor
[0561] // sem previsão e com o uso da Tabela de Huffman 5
[0562] B00 = B00 + calculate_bits(v(m), HT5);
[0563] // sem previsão e com o uso da Tabela de Huffman {1,2,3}
[0564] B01 = B01 + calculate_bits(v(m), HTq); q in {1,2,3}
[0565] // calcular número esperado de bits para previsão residual e(m)
[0566] e(m ) = v(m) - vp(m); // vp(m): elemento de vetor de quadro anterior
[0567] // com previsão e com o uso da Tabela de Huffman 4
[0568] B10 = B10 + calculate_bits(e(m), HT4);
[0569] // com previsão e com o uso da Tabela de Huffman 5
[0570] B11 = B11 + calculate_bits(e(m), HT5);
[0571] fim
[0572] // encontrar um melhor modo de previsão e tabela de Huffman que rendam bits mínimos // melhor modo de previsão e tabela de Huffman são sinalizados por pflag e Htflag, respectivamente
[0573] [Be, id] = min([B00 B01 B10 B11]);
[0574] Mudar id
[0575] caso 1: pflag = 0; HTflag = 0;
[0576] caso 2: pflag = 0; HTflag = 1;
[0577] caso 3: pflag = 1; HTflag = 0;
[0578] caso 4: pflag = 1; HTflag = 1;
[0579] fim
[0580] A unidade de codificação de categoria e residual 238 pode representar uma unidade configurada para realizar a categorização e codificação residual de um componente espacial previsto ou o componente espacial quantificado (quando a predição está desabilitada) da forma descrita em maiores detalhes acima.
[0581] Conforme mostrado no exemplo da Figura 9K, a unidade de quantização 52 pode emitir vários parâmetros ou valores para a inclusão no fluxo de bits 21 ou subinformações (que podem, por si só, ser um fluxo de bits separado do fluxo de bits 21). Presumindo que as informações são especificadas nas informações de canal auxiliares, a unidade de quantização por escalar/entropia 50 pode emitir o valor de nbits como valor de nbits 233, o modo de predição como modo de predição 237 e as informações de tabela de Huffman como informações de tabela de Huffman 241 para a unidade de geração de fluxo de bits 42 em conjunto com a versão compactada do componente espacial (mostrados como vetores de primeiro plano codificados V[k] 57 no exemplo da Figura 4), que nesse exemplo pode se referir ao código de Huffman selecionado para codificar o cid, o bit de sinal, e o residual codificado por bloco. O valor de nbits pode ser especificado uma vez nas informações de canal auxiliares para todos os vetores de primeiro plano codificados V[k] 57, enquanto o modo de predição e as informações de tabela de Huffman podem ser especificadas para cada um dos vetores de primeiro plano codificados V[k] 57. A porção do fluxo de bits que especifica a versão compactada do componente espacial é mostrada em maiores detalhes no exemplo das Figuras 10B e/ou 10c.
[0582] A Figura 9L é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de geração de fluxo de bits 42 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. A unidade de geração de fluxo de bits 42 pode incluir uma unidade de geração de informações de canal principal 242 e a unidade de geração de informações de canal auxiliares 244. A unidade de geração de informações de canal principal 242 pode gerar um fluxo de bits principal 21 que inclui um ou mais, se não todos, dos índices de reordenação 205, elemento de sintaxe CodedSpatiallnterpolationTime 254, o elemento de sintaxe SpatiallnterpolationMethod 255, os coeficientes de HOA de segundo plano codificados 59, e os sinais de nFG codificados 61. As unidade de geração de informações de canal auxiliares 244 pode representar uma unidade configurada para gerar um fluxo de bits de canal lateral 2 IB que pode incluir um ou mais, se não todos, dentre o valor de nbits 233, o modo de predição 237, as informações de tabela de Huffman 241 e os vetores de primeiro plano codificados V[k] 57. Os fluxos de bits 21 e 2 IB podem ser chamados coletivamente como o fluxo de bits 21. Em alguns contextos, o fluxo de bits 21 pode somente se referir ao fluxo de bits de canal principal 21, enquanto o fluxo de bits 2 IB pode ser chamado de informações de canal auxiliares 2 IB.
[0583] As Figuras 10A a 100(ii) são diagramas que ilustram porções do fluxo de bits ou informações de canal auxiliar que podem especificar os componentes espaciais compactados em mais detalhes. No exemplo da Figura 10A, uma porção 250 inclui um campo de identificador de renderizador (“ID de renderizador”) 251 e um campo HOADecoderConfig 252. O campo de ID de renderizador 251 pode representar um campo que armazena um ID do renderizador que foi usado para a mixagem de conteúdo de HOA. O campo HOADecoderConfig 252 pode representar um campo configurado para armazenar informações para inicializar o decodificador espacial de HOA.
[0584] O campo HOADecoderConfig 252 inclui adicionalmente um campo informações direcionais (“informações de direção”) 253, um campo CodedSpatiallnterpolationTime 254, um campo SpatiallnterpolationMethod 255, um campo CodedVVecLength 256 e um campo de informações de ganho 257. As informações direcionais campo 253 pode representar um campo que armazena informações para configurar o decodificador de síntese à base de direcionalidade. O campo CodedSpatiallnterpolationTime 254 pode representar um campo que armazena um tempo da interpolação espaço-temporal dos sinais à base de vetor. O campo SpatiallnterpolationMethod 255 pode representar um campo que armazena uma indicação do tipo de interpolação aplicado durante a interpolação espaço-temporal dos sinais à base de vetor. O campo CodedVVecLength 256 pode representar um campo que armazena um comprimento do vetor de dados transmitidos usados para sintetizar os sinais à base de vetor. O campo de informações de ganho 257 representa um campo que armazena informações indicativas de uma correção de ganho aplicada aos sinais.
[0585] No exemplo da Figura 10B, a porção 258 A representa uma porção do canal de informações auxiliares, em que a porção 258 A inclui um cabeçalho de quadro 259 que inclui diversos campo de bytes 260 e um campo de nbites 261. O número de campo de bytes 260 pode representar um campo para expressar o número de bytes incluídos no quadro para especificar componentes espaciais vl a vn que incluem os zeros para campo de alinhamento de byte 264. O campo de nbites 261 representa um campo que pode especificar o valor de nbits identificado para uso ao descomprimir os componentes espaciais vl a vn.
[0586] Conforme adicionalmente mostrado no exemplo da Figura 10B, a porção 258 A pode incluir subfluxos de bits para vl a vn, cada um dos quais inclui um campo de modo de previsão 262, um campo de informações de Tabela Huffman 263 e uma correspondente dos componentes especiais comprimidos vl a vn. O campo de modo de previsão 262 pode representar um campo para armazenar uma indicação de se a previsão foi realizada em relação à um correspondente dos componentes especiais comprimidos vl a vn. O campo de informações de tabela Huffman 263 representa um campo para indicar, pelo menos em parte, que a tabela Huffman deve ser usada para decodificar diversos aspectos da uma correspondente dos componentes especiais comprimidos vl a vn.
[0587] A esse respeito, as técnicas podem habilitar dispositivo de codificação de áudio 20 para obter um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado realizando-se um vetor com base em síntese em relação a uma pluralidade de coeficientes harmônicos esféricos.
[0588] A Figura 10C é um diagrama que ilustra um exemplo alternativo de uma porção 258B das informações de canal auxiliar que pode especificar os componentes especiais comprimidos em maiores detalhes. No exemplo da Figura 10C, a porção 258B inclui um cabeçalho de quadro 259 que inclui um campo de Nbits 261. O campo de Nbits 261 representa um campo que pode especificar um valor de nbits identificado para uso na descompressão dos componentes espaciais vl a vn.
[0589] Conforme adicionalmente mostrado no exemplo da Figura 10C, a porção 258B pode incluir subfluxos de bits para vl a vn, cada um dos quais inclui um campo de modo de previsão 262, um campo de informações de Tabela Huffman 263 e uma correspondente dos componentes especiais comprimidos vl a vn. O campo de modo de previsão 262 pode representar um campo para armazenar uma indicação de se a previsão foi realizada em relação à um correspondente dos componentes especiais comprimidos vl a vn. O campo de informações de tabela Huffman 263 representa um campo para indicar, pelo menos em parte, que a tabela Huffman deve ser usada para decodificar diversos aspectos da uma correspondente dos componentes especiais comprimidos vl a vn.
[0590] O campo de Nbits 261 no exemplo ilustrado inclui subcampos A 265, B 266 e C 267. Nesse exemplo, A 265 e B 266 são, cada um, subcampos de 1 bit, enquanto C 267 é um subcampo de 2 bits. Outros exemplos podem incluir subcampos dimensionados de modo diferente 265, 266 e 267. O campo A 265 e o campo B 266 podem representar campos que armazenam primeiro e segundo bits mais significativos do campo de Nbits 261, enquanto o campo C 267 pode representar um campo que armazena os bits menos significativos do campo de Nbits 261.
[0591] A porção 258B também pode incluir um campo AddAmbHoalnfoChannel 268. O campo AddAmbHoalnfoChannel 268 pode representar um campo que armazena informações para os coeficientes HOA de ambiente adicional. Conforme mostrado no exemplo da Figura 10C, o AddAmbHoalnfoChannel 268 inclui um campo CodedAmbCoeffldx 246, um campo AmbCoeffldxTransition 247. O campo CodedAmbCoeffldx 246 pode representar um campo que armazena um índice de um coeficiente HOA ambiente adicional. O campo configurado para armazenar indicativo de dados se, nesse quadro, um coeficiente HOA ambiente adicional está tanto em aumento gradativo quanto em diminuição gradativa.
[0592] A Figura 10C(i) é um diagrama que ilustra um exemplo alternativo de uma porção 258B’ das informações de canal auxiliar que podem especificar os componentes especiais comprimidos em maiores detalhes. No exemplo da Figura 10C(i), a porção 258B’ inclui um cabeçalho de quadro 259 que inclui um campo de Nbits 261. O campo de Nbits 261 representa um campo que pode especificar um valor de nbits identificado para uso na descompressão dos componentes espaciais vl a vn.
[0593] A Figura 10D é um diagrama que ilustra uma porção 258C do fluxo de bits 21 em maiores detalhes. A porção 258C é similar à porção 258, exceto pelo fato de que o cabeçalho de quadro 259 e o alinhamento de byte para zero 264 foram removidos, enquanto o campo de Nbits 261 foi adicionado antes de cada um dos fluxos de bits para vl a vn, conforme mostrado no exemplo da Figura 10D.
[0594] A Figura 10D(i) é um diagrama que ilustra uma porção 258C do fluxo de bits 21 em maiores detalhes. A porção 258C é similar à porção 258C exceto pelo fato de que a porção 258C não inclui o campo de modo de previsão 262 para cada um dos vetores V vl a vn.
[0595] A Figura 10E é um diagrama que ilustra uma porção 258D do fluxo de bits 21 em maiores detalhes. A porção 258D é similar à porção 258B, exceto pelo fato de que o cabeçalho de quadro 259 e o alinhamento de byte para zero 264 foram removidos, enquanto o campo de Nbits 261 foi adicionado antes de cada um dos fluxos de bits para vl a vn, conforme mostrado no exemplo da Figura 10E.
[0596] A Figura 10E(i) é um diagrama que ilustra uma porção 258D’ do fluxo de bits 21 em maiores detalhes. A porção 258D' é similar à porção 258D exceto pelo fato de que a porção 258D' não inclui o campo de modo de previsão 262 para cada um dos vetores V vl a vn. A esse respeito, o dispositivo de codificação de áudio 20 pode gerar um fluxo de bits 21 que não inclui o campo de modo de previsão 262 para cada vetor V comprimido, conforme demonstrado em relação aos exemplos das Figuras 10C(i), 10D(i) e 10E(i).
[0597] A Figura 1 OF é um diagrama que ilustra, de uma maneira diferente, a porção 250 do fluxo de bits 21 mostrada no exemplo da Figura 10A. A porção 250 mostrada no exemplo da Figura 10D, inclui um campo HOAOrder (que não foi mostrado no exemplo da Figura 10F para facilidade de propósitos de ilustração), um campo MinAmbHoaOrder (que, novamente, não foi mostrado no exemplo da Figura 10 para facilidade de propósitos de ilustração), o campo de informações de direção 253, o campo CodedSpatiallnterpolationTime 254, o campo SpatiallnterpolationMethod 255, o campo CodedVVecLength 256 e o campo de informações de ganho 257. Conforme mostrado no exemplo da Figura 10F, o campo CodedSpatiallnterpolationTime 254 pode compreender um campo de três bits, o campo SpatiallnterpolationMethod 255 pode compreender um campo de um bit e o campo CodedVVecLength 256 pode compreender um campo de dois bits.
[0598] A Figura 10G é um diagrama que ilustra uma porção 248 do fluxo de bits 21 em maiores detalhes. A porção 248 representa uma carga útil tridimensional (3D) de codificador de fala/áudio unificado (USAC) que inclui um campo HOAframe 249 (que também pode ser indicado como as informações de faixa auxiliar, informações de canal auxiliar ou fluxo de bits de canal auxiliar). Conforme mostrado no exemplo da Figura 10E, a vista expandida do campo HOAFrame 249 pode ser similar à porção 258B do fluxo de bits 21 mostrada no exemplo da Figura 10C. O “ChannelSidelnfoData” inclui um campo ChannelType 269, que não foi mostrado no exemplo da Figura 10C para facilidade de propósitos de ilustração, o campo A 265 indicado como “ba” no exemplo da Figura 10E, o campo B 266 indicado como “bb” no exemplo da Figura 10E e o campo C 267 indicado como “unitC” no exemplo da Figura 10E. O campo ChannelType indica se o canal é um sinal com base em direção, um sinal com base em vetor ou um coeficiente HOA ambiente adicional. Entre ChannelSidelnfoData diferente há campos AddAmbHoalnfoChannel 268 com os fluxos de bits de vetor V diferentes indicados em cinza (por exemplo, “fluxo de bits para vl” e “fluxo de bits para V2”).
[0599] As Figuras 10H-100(ii) são diagramas que ilustram outras diversas porções exemplificativas 248H a 2480 do fluxo de bits 21 junto com porções HOAconfig anexas 250H a 250O em maiores detalhes. As Figuras 10H(i) e 10H(ii) ilustram um primeiro fluxo de bits exemplificativo 248H e porção de configuração de HOA anexa 250H que foram gerados para corresponder ao caso 0 no pseudocódigo acima. No exemplo da Figura 10H(i), a porção HOAconfig 25 OH inclui um elemento de sintaxe CodedVVecLength 256 estabelecido para indicar que todos os elementos de um vetor V são codificados, por exemplo, todos os 16 elementos de vetor V. A porção HOAconfig 25 OH também inclui um elemento de sintaxe SpatiallnterpolationMethod 255 estabelecido para indicar que a função de interpolação da interpolação espaço-temporal é um cosseno elevado. A porção HOAconfig 25 OH, além disso, inclui um CodedSpatiallnterpolationTime 254 estabelecido para indicar uma duração de amostra interpolada de 256. A porção HOAconfig 25 OH inclui adicionalmente um elemento de sintaxe MinAmbHoaOrder 150 estabelecido para indicar que a ordem MinimumHOA do conteúdo de HOA de ambiente é uma, em que o dispositivo de decodificação de áudio 24 pode derivar de um elemento de sintaxe MinNumofCoeffsForAmbHOA que seja igual a (1+1)2 ou quatro. A porção HOAconfig 25 OH inclui um elemento de sintaxe HoaOrder 152 estabelecido para indicar a ordem de HOA do conteúdo é igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar de um NumOfHoaCoeffs para ser igual a (N+ 1)2 ou 16.
[0600] Conforme adicionalmente mostrado no exemplo da Figura 10H(i), a porção 248H inclui um quadro de áudio tridimensional (USAC-3D) de codificação de fala e áudio unificado (USAC) no qual dois quadros de HOA 249A e 249B são armazenados em uma carga útil de extensão de USAC devido ao fato de que dois quadros de áudio são armazenados dentro de um quadro de USAC-3D quando replicação de banda espectral (SBR) é habilitada. O dispositivo de decodificação de áudio 24 pode derivar de diversos canais de transporte flexíveis como uma função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MinNumOfCoeffsForAmbHOA. Nos exemplos a seguir, é presumido que o elemento de sintaxe numHOATransportChannels é igual a 7 e o elemento de sintaxe MinNumOfCoeffsForAmbHOA é igual a quatro, em que o número de canais de transporte flexíveis é igual ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MinNumOfCoeffsForAmbHOA (ou três).
[0601] A Figura 10H(ii) ilustra os quadros 249A e 249B em maiores detalhes. Conforme mostrado no exemplo da Figura 10H(ii), o quadro 249A inclui campos de ChannelSidelnfoData (CSID) 154 a 154C, um campo de HOAGainCorrectionData (HOAGCD), campos de VVectorData 156 e 156B e campos de HOAPredictionlnfo. O campo CSID 154 inclui a unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10H(i). O campo CSID 154B inclui a unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10H(ii). O campo CSID 154C inclui o campo ChannelType 269 que tem um valor de 3. Cada um dos campos CSID 154 a 154C corresponde àqueles respectivos dos canais de transporte 1, 2 e 3. Efetivamente, cada campo CSID 154 a 154C indica se a carga útil correspondente 156 e 156B são sinais com base em direção (quando o ChannelType correspondente é igual a zero), sinais com base em vetor (quando o ChannelType correspondente é igual a um), um coeficiente de HOA de Ambiente adicional (quando o ChannelType correspondente é igual a dois) ou vazios (quando o ChannelType é igual a três).
[0602] No exemplo da Figura 10H(ii), o quadro 249A inclui dois sinais com base em vetor (devido ao ChannelType 269 igual a 1 nos campos CSID 154 e 154B) e um vazio (devido ao ChannelType 269 igual a 3 nos campos CSID 154C). Devido à porção anterior HOAconfig 25 OH, o dispositivo de decodificação de áudio 24 pode determinar que todos os 16 elementos de vetor V são codificados. Em conformidade, os VVectorData 156 e 156B, cada um, incluem todos os 16 elementos de vetor, cada um dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e índices de elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength=0. Além disso, conforme verificado pelo único asterisco (*), o esquema de codificação é sinalizado por NbitsQ = 5 no campo CSID para o canal de transporte correspondente.
[0603] No quadro 249B, o campo CSID 154 e 154B são os mesmos que aqueles no quadro 249, enquanto o campo CSID 154C do quadro 249B é comutado para um ChannelType de um. O campo CSID 154C do quadro 249B, portanto, inclui o Cbflag 267, o Pflag 267 (que indica codificação de Huffman) e Nbits 261 (igual a doze). Como resultado, o quadro 249B inclui um terceiro campo VVectorData 156C que inclui 16 elementos de vetor V, cada um dos quais é quantizado de modo uniforme com 12 bits e codificado por Huffman. Conforme verificado acima, o número e índices dos elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength = 0, enquanto o esquema de codificação de Huffman é sinalizado pelo NbitsQ = 12, CbFlag = 0 e Pflag = 0 no campo CSID 154C para esse canal de transporte particular (por exemplo, canal de transporte no 3) .
[0604] O exemplo das Figuras 10I(i) e 10I(ii) ilustra um segundo fluxo de bits exemplificativo 2481 e porção de configuração de HOA anexa 2501 que foram gerados para corresponder ao caso 0 acima no pseudocódigo acima. No exemplo da Figura 10I(i), a porção HOAconfig 2501 inclui um elemento de sintaxe CodedVVecLength 256 estabelecido para indicar que todos os elementos de um vetor V são codificados, por exemplo, todos os 16 elementos de vetor V. A porção HOAconfig 2501 também inclui um elemento de sintaxe SpatiallnterpolationMethod 255 estabelecido para indicar que a função de interpolação da interpolação espaço-temporal é um cosseno elevado. A porção HOAconfig 2501, além disso, inclui um CodedSpatiallnterpolationTime 254 estabelecido para indicar uma duração de amostra interpolada de 256.
[0605] A porção HOAconfig 2501 inclui adicionalmente um elemento de sintaxe MinAmbHoaOrder 150 estabelecido para indicar que a ordem MinimumHOA do conteúdo de HOA de ambiente é uma, em que o dispositivo de decodificação de áudio 24 pode derivar de um elemento de sintaxe MinNumofCoeffsForAmbHOA que seja igual a (1+1)2 ou quatro. O dispositivo de decodificação de áudio 24 também pode derivar de um elemento de sintaxe MaxNoofAddActiveAmbCoeffs conforme estabelecido para uma diferença entre o elemento de sintaxe NumOfHoaCoeff e o MmNumOfCoeffsForAmbHOA, que se assume nesse exemplo ser igual a 16-4 ou 12. O dispositivo de decodificação de áudio 24 também pode derivar de um elemento de sintaxe AmbAsignmBits conforme estabelecido para ceil (log2(MaxNoOfAddActiveAmbCoeffs)) = ceil(log2(12)) = 4. A porção HOAconfig 25 inclui um elemento de sintaxe HoaOrder 152 estabelecido para indicar a ordem de HOA do conteúdo é igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar de um NumOfHoaCoeffs para ser igual a (N+ 1)2 ou 16.
[0606] Conforme adicionalmente mostrado no exemplo da Figura 10I(i), a porção 248H inclui um quadro de áudio de USAC-3D no qual dois quadros de HOA 249C e 249D são armazenados em uma carga útil de extensão de USAC devido àqueles dois quadros de áudio serem armazenados dentro de um quadro de USAC-3D a quando replicação de banda espectral (SBR) for habilitada. O dispositivo de decodificação de áudio 24 pode derivar de diversos canais de transporte flexíveis como uma função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MinNumOfCoeffsForAmbHOA. Nos exemplos a seguir, é presumido que o elemento de sintaxe numHOATransportChannels é igual a 7 e o elemento de sintaxe MinNumOfCoeffsForAmbHOA é igual a quatro, em que o número de canais de transporte flexíveis é igual ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MinNumOfCoeffsForAmbHOA (ou três).
[0607] A Figura 10I(ii) ilustra os quadros 249C e 249D em maiores detalhes. Conforme mostrado no exemplo da Figura 10I(ii), o quadro 249C inclui campos CSID 154-154C e campos de VVectorData 156. O campo CSID 154 inclui o CodedAmbCoeffldx 246, o AmbCoeffldxTransition 247 (em que o asterisco duplo (**) indica que, para canal de transporte de flexível no 1, assume-se que o estado interno do decodificador seja no presente documento AmbCoeffldxTransitionState = 2, que resulta no campo de bits CodedAmbCoeffldx é sinalizado ou especificado de outro modo no fluxo de bits) e o ChannelType 269 (que é igual a dois, sinalizando que a carga útil correspondente é um coeficiente HOA ambiente adicional). O dispositivo de decodificação de áudio 24 pode derivar do AmbCoeffldx como igual ao CodedAmbCoeffldx+l+MinNumOfCoeffsForAmbHOA ou 5, nesse exemplo. O campo CSID 154B inclui unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10I(ii). O campo CSID 154C inclui o campo ChannelType 269 que tem um valor de 3.
[0608] No exemplo da Figura 10I(ii), o quadro 249C inclui um único sinal com base em vetor (devido ao ChannelType 269 igual a 1 nos campos CSID 154B) e um vazio (devido ao ChannelType 269 igual a 3 nos campos CSID 154C). Devido à porção anterior HOAconfig 2501, o dispositivo de decodificação de áudio 24 pode determinar que todos os 16 elementos de vetor V são codificados. Em conformidade, o VVectorData 156 inclui todos os 16 elementos de vetor, cada um dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e índices de elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength=0. Além disso, conforme verificado pela nota de rodapé 2, o esquema de codificação é sinalizado por NbitsQ = 5 no campo CSID para o canal de transporte correspondente.
[0609] No quadro 249D, o campo CSID 154 inclui um AmbCoeffldxTransition 247 que indica que nenhuma transição ocorreu e, portanto, o CodedAmbCoeffldx 246 pode ser implícito a partir do quadro anterior e não precisa ser sinalizado ou especificado de outro modo novamente. Os campos CSID 154B e 154C do quadro 249D são os mesmos que aqueles para o quadro 249C e, desse modo, semelhante ao quadro 249C, o quadro 249D inclui um único campo VVectorData 156, que inclui todos os 16 elementos de vetor, cada um dos quais quantizados de modo uniforme com 8 bits.
[0610] As Figuras 10J(i) e 10J(ii) ilustram um primeiro fluxo de bits exemplificativo 248 J e porção de configuração A de HO anexa 250 J que foi gerado para corresponder ao caso 1 no pseudocódigo acima. No exemplo da Figura s10J(i), a porção HOAconfig 250J inclui um elemento de sintaxe CodedVVecLength 256 estabelecido para indicar que todos os elementos de um vetor V são codificados, exceto pelos elementos 1 a um elemento de sintaxe MmNumOfCoeffsForAmbHOA e aqueles elementos especificados em um elemento de sintaxe ContAddAmbHoaChan (presumido como zero, nesse exemplo). A porção HOAconfig 250J também inclui um elemento de sintaxe SpatiallnterpolationMethod 255 estabelecido para indicar que a função de interpolação da interpolação espaço-temporal é um cosseno elevado. A porção HOAconfig 250 J, além disso, inclui um CodedSpatiallnterpolationTime 254 estabelecido para indicar uma duração de amostra interpolada de 256. A porção HOAconfig 250J inclui adicionalmente um elemento de sintaxe MinAmbHoaOrder 150 estabelecido para indicar que a ordem MinimumHOA do conteúdo de HOA de ambiente é um, em que o dispositivo de decodificação de áudio 24 pode derivar de um elemento de sintaxe MinNumofCoeffsForAmbHOA que seja igual a (1+1)2 ou quatro. A porção HOAconfig 250J inclui um elemento de sintaxe HoaOrder 152 estabelecido para indicar a ordem de HOA do conteúdo para ser igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar de um NumOfHoaCoeffs para ser igual a (N + 1)2 ou 16.
[0611] Conforme adicionalmente mostrado no exemplo da Figura 10J(i), a porção 248 J inclui um quadro de áudio de USAC-3D no qual dois quadros de HOA 249E e 249F são armazenados em uma carga útil de extensão de USAC devido àqueles dois quadros de áudio que são armazenados dentro de um quadro de USAC-3D quando a replicação de banda espectral (SBR) é habilitada. O dispositivo de decodificação de áudio 24 pode derivar de diversos canais de transporte flexíveis como uma função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MmNumOfCoeffsForAmbHOA. Nos exemplos a seguir, é presumido que o elemento de sintaxe numHOATransportChannels é igual a 7 e o elemento de sintaxe MinNumOfCoeffsForAmbHOA é igual a quatro, em que o número de canais de transporte flexíveis é igual ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MinNumOfCoeffsForAmbHOA (ou três).
[0612] A Figura 10J(ii) ilustra os quadros 249E e 249F em maiores detalhes. Conforme mostrado no exemplo da Figura 10J(ii), o quadro 249E inclui campos CSID 154-154C e campos de VVectorData 156 e 156B. O campo CSID 154 inclui a unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10J). O campo CSID 154B inclui a unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10J). O campo CSID 154C inclui o campo ChannelType 269 que tem um valor de 3. Cada um dos campos CSID 154 a 154C corresponde àqueles respectivos dos canais de transporte 1, 2 e 3.
[0613] No exemplo da Figura 10J(ii), o quadro 249E inclui dois sinais com base em vetor (devido ao ChannelType 269 igual a 1 nos campos CSID 154 e 154B) e um vazio (devido ao ChannelType 269 igual a 3 nos campos CSID 154C). Devido à porção anterior HOAconfig 25 OH, o dispositivo de decodificação de áudio 24 pode determinar que todos os 12 elementos de vetor V são codificados (em que 12 é derivado como (HoaOrder + 1)2 - (MinNumOfCoeffsForAmbHOA) - (ContAddAmbHoaChan) = 16-4-0 = 12). Em conformidade, os VVectorData 156 e 156B, cada um, incluem todos os 12 elementos de vetor, cada um dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e índices de elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength=0. Além disso, conforme verificado pelo único asterisco (*), o esquema de codificação é sinalizado por NbitsQ = 5 no campo CSID para o canal de transporte correspondente.
[0614] No quadro 249F, o campo CSID 154 e 154B são os mesmos que aqueles no quadro 249E, enquanto o campo CSID 154C do quadro 249F é comutado para um ChannelType de um. O campo CSID 154C do quadro 249B, portanto, inclui o Cbflag 267, o Pflag 267 (que indica codificação de Huffman) e Nbits 261 (igual a doze). Como resultado, o quadro 249F inclui um terceiro campo VVectorData 156C que inclui 12 elementos de vetor V, cada um dos quais é quantizado de modo uniforme com 12 bits e codificado por Huffman. Conforme verificado acima, o número e índices dos elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength = 0, enquanto o esquema de codificação de Huffman é sinalizado pelo NbitsQ = 12, CbFlag = 0 e Pflag = 0 no campo CSID 154C para esse canal de transporte particular (por exemplo, canal de transporte no 3) .
[0615] O exemplo das Figuras 10K(i) e 10K(ii) ilustra um segundo fluxo de bits exemplificativo 248K e porção de configuração de HOA anexa 250K que foram gerados para corresponder ao caso 1 no pseudocódigo acima. No exemplo da Figura s10J(i), as porções HOAconfig 25 OK inclui um elemento de sintaxe CodedVVecLength 256 estabelecido para indicar que todos os elementos de um vetor V são codificados, exceto pelos elementos 1 a um elemento de sintaxe MmNumOfCoeffsForAmbHOA e aqueles elementos especificados em um elemento de sintaxe ContAddAmbHoaChan (presumido como um, nesse exemplo). A porção HOAconfig 250K também inclui um elemento de sintaxe SpatiallnterpolationMethod 255 estabelecido para indicar que a função de interpolação da interpolação espaço- temporal é um cosseno elevado. A porção HOAconfig 250K, além disso, inclui um CodedSpatiallnterpolationTime 254 estabelecido para indicar uma duração de amostra interpolada de 256.
[0616] A porção HOAconfig 25 OK inclui adicionalmente um elemento de sintaxe MinAmbHoaOrder 150 estabelecido para indicar que a ordem MinimumHOA do conteúdo de HOA de ambiente é uma, em que o dispositivo de decodificação de áudio 24 pode derivar de um elemento de sintaxe MinNumofCoeffsForAmbHOA que seja igual a (1+1)2 ou quatro. O dispositivo de decodificação de áudio 24 também pode derivar de um elemento de sintaxe MaxNoOfAddActiveAmbCoeffs conforme estabelecido para uma diferença entre o elemento de sintaxe NumOfHoaCoeff e o MmNumOfCoeffsForAmbHOA, que se assume nesse exemplo ser igual a 16-4 ou 12. O dispositivo de decodificação de áudio 24 também pode derivar de um elemento de sintaxe AmbAsignmBits conforme estabelecido para ceil (log2(MaxNoOfAddActiveAmbCoeffs)) = ceil(log2(12)) = 4. A porção HOAconfig 250K inclui um elemento de sintaxe HoaOrder 152 estabelecido para indicar a ordem de HOA do conteúdo para ser igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar de um NumOfHoaCoeffs para ser igual a (N + 1)2 ou 16.
[0617] Conforme adicionalmente mostrado no exemplo da Figura 10K(i), a porção 248K inclui um quadro de áudio de USAC-3D no qual dois quadros de HOA 249G e 249H são armazenados em uma carga útil de extensão de USAC devido àqueles dois quadros de áudio que são armazenados dentro de um quadro de USAC-3D quando a replicação de banda espectral (SBR) é habilitada. O dispositivo de decodificação de áudio 24 pode derivar de diversos canais de transporte flexíveis como uma função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MmNumOfCoeffsForAmbHOA. Nos exemplos a seguir, é presumido que o elemento de sintaxe numHOATransportChannels é igual a 7 e o elemento de sintaxe MmNumOfCoeffsForAmbHOA é igual a quatro, em que o número de canais de transporte flexíveis é igual ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MinNumOfCoeffsForAmbHOA (ou três).
[0618] A Figura 10K(ii) ilustra os quadros 249G e 249H em maiores detalhes. Conforme mostrado no exemplo da Figura 10K(ii), o quadro 249G inclui campos CSID 154-154C e campos de VVectorData 156. O campo CSID 154 inclui o CodedAmbCoeffldx 246, o AmbCoeffldxTransition 247 (em que o asterisco duplo (**) indica que, para canal de transporte de flexível no 1, assume-se que o estado interno do decodificador seja no presente documento AmbCoeffldxTransitionState = 2, que resulta no campo de bits CodedAmbCoeffldx é sinalizado ou especificado de outro modo no fluxo de bits) e o ChannelType 269 (que é igual a dois, sinalizando que a carga útil correspondente é um coeficiente HOA ambiente adicional). O dispositivo de decodificação de áudio 24 pode derivar do AmbCoeffldx como igual ao CodedAmbCoeffldx+l+MinNumOfCoeffsForAmbHOA ou 5, nesse exemplo. O campo CSID 154B inclui unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10K). O campo CSID 154C inclui o campo ChannelType 269 que tem um valor de 3.
[0619] No exemplo da Figura 10K(ii), o quadro 249G inclui um único sinal com base em vetor (devido ao ChannelType 269 igual a 1 nos campos CSID 154B) e um vazio (devido ao ChannelType 269 igual a 3 nos campos CSID 154C). Devido à porção anterior HOAconfig 25 OK, o dispositivo de decodificação de áudio 24 pode determinar que os 11 elementos de vetor V são codificados (em que 11 é derivado como (HoaOrder + 1)2 -(MinNumOfCoeffsForAmbHOA) - (ContAddAmbHoaChan) = 16-4-1 = 12). Em conformidade, o VVectorData 156 inclui todos os 11 elementos de vetor, cada um dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e índices de elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength=0. Além disso, conforme verificado pela nota de rodapé 2, o esquema de codificação é sinalizado por NbitsQ = 5 no campo CSID para o canal de transporte correspondente.
[0620] No quadro 249H, o campo CSID 154 inclui um AmbCoeffldxTransition 247 que indica que nenhuma transição ocorreu e, portanto, o CodedAmbCoeffldx 246 pode ser implícito a partir do quadro anterior e não precisa ser sinalizado ou especificado de outro modo novamente. Os campos CSID 154B e 154C do quadro 249H são os mesmos que aqueles para o quadro 249G e, desse modo, semelhante ao quadro 249G, o quadro 249H inclui um único campo VVectorData 156, que inclui 11 elementos de vetor, cada um dos quais quantizados de modo uniforme com 8 bits.
[0621] As Figuras 10L(i) e 10L(ii) ilustram um primeiro fluxo de bits exemplificativo 248L e porção de configuração de HOA anexa 25 OL que foram gerados para corresponder ao caso 2 no pseudocódigo acima. No exemplo da Figura 10L(i), a porção HOAconfig 25 OL inclui um elemento de sintaxe CodedVVecLength 256 estabelecido para indicar que todos os elementos de um vetor V são codificados, exceto aqueles elementos da ordem zero até a ordem especificada pelo elemento de sintaxe MinAmbHoaOrder 150 (que é igual a (HoaOrder + 1)2 - (MinAmbHoaOrder + 1)2 = 16 - 4 = 12, nesse exemplo). A porção HOAconfig 250L também inclui um elemento de sintaxe SpatiallnterpolationMethod 255 estabelecido para indicar que a função de interpolação da interpolação espaço-temporal é um cosseno elevado. A porção HOAconfig 250L, além disso, inclui um CodedSpatiallnterpolationTime 254 estabelecido para indicar uma duração de amostra interpolada de 256. A porção HOAconfig 250L inclui adicionalmente um elemento de sintaxe MinAmbHoaOrder 150 estabelecido para indicar que a ordem MinimumHOA do conteúdo de HOA de ambiente é um, em que o dispositivo de decodificação de áudio 24 pode derivar de um elemento de sintaxe MinNumofCoeffsForAmbHOA que seja igual a (1+1)2 ou quatro. A porção HOAconfig 250L inclui um elemento de sintaxe HoaOrder 152 estabelecido para indicar a ordem de HOA do conteúdo para ser igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar de um NumOfHoaCoeffs para ser igual a (N + 1)2 ou 16.
[0622] Conforme adicionalmente mostrado no exemplo da Figura 10L(i), a porção 248L inclui um quadro de áudio de USAC-3D no qual dois quadros de HOA 2491 e 249J são armazenados em uma carga útil de extensão de USAC devido àqueles dois quadros de áudio serem armazenados dentro de um quadro de USAC-3D a quando replicação de banda espectral (SBR) for habilitada. O dispositivo de decodificação de áudio 24 pode derivar de diversos canais de transporte flexíveis como uma função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MinNumOfCoeffsForAmbHOA. Nos exemplos a seguir, é presumido que o elemento de sintaxe numHOATransportChannels é igual a 7 e o elemento de sintaxe MinNumOfCoeffsForAmbHOA é igual a quatro, em que o número de canais de transporte flexíveis é igual ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MinNumOfCoeffsForAmbHOA (ou três).
[0623] A Figura 10L(ii) ilustra os quadros 2491 e 249J em maiores detalhes. Conforme mostrado no exemplo da Figura 10L(ii), o quadro 2491 inclui campos CSID 154-154C e campos de VVectorData 156 e 156B. O campo CSID 154 inclui a unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10J). O campo CSID 154B inclui a unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10L(ii). O campo CSID 154C inclui o campo ChannelType 269 que tem um valor de 3. Cada um dos campos CSID 154 a 154C corresponde àqueles respectivos dos canais de transporte 1, 2 e 3.
[0624] No exemplo da Figura 10L(ii), o quadro 2491inclui dois sinais com base em vetor (devido ao ChannelType 269 igual a 1 nos campos CSID 154 e 154B) e um vazio (devido ao ChannelType 269 igual a 3 nos campos CSID 154C). Devido à porção anterior HOAconfig 25 OH, o dispositivo de decodificação de áudio 24 pode determinar que 12 elementos de vetor V são codificados. Em conformidade, os VVectorData 156 e 156B, cada um, incluem 12 elementos de vetor, cada dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e índices de elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength=0. Além disso, conforme verificado pelo único asterisco (*), o esquema de codificação é sinalizado por NbitsQ = 5 no campo CSID para o canal de transporte correspondente.
[0625] No quadro 249 J, o campo CSID 154 e 154B são os mesmos que aqueles no quadro 2491, enquanto o campo CSID 154C do quadro 249F é comutado para um ChannelType de um. O campo CSID 154C do quadro 249B, portanto, inclui o Cbflag 267, o Pflag 267 (que indica codificação de Huffman) e Nbits 261 (igual a doze). Como resultado, o quadro 249F inclui um terceiro campo VVectorData 156C que inclui 12 elementos de vetor V, cada um dos quais é quantizado de modo uniforme com 12 bits e codificado por Huffman. Conforme verificado acima, o número e índices dos elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength = 0, enquanto o esquema de codificação de Huffman é sinalizado pelo NbitsQ = 12, CbFlag = 0 e Pflag = 0 no campo CSID 154C para esse canal de transporte particular (por exemplo, canal de transporte no 3) .
[0626] O exemplo das Figuras 10M(i) e 10M(ii) ilustra um segundo fluxo de bits exemplificativo 248M e porção de configuração de HOA anexa 250M que foram gerados para corresponder ao caso 2 no pseudocódigo acima. No exemplo da Figura 10M(i), a porção HOAconfig 25OM inclui um elemento de sintaxe CodedVVecLength 256 estabelecido para indicar que todos os elementos de um vetor V são codificados, exceto aqueles elementos da ordem zero até a ordem especificada pelo elemento de sintaxe MinAmbHoaOrder 150 (que é igual a (HoaOrder + 1)2 - (MinAmbHoaOrder + 1)2 = 16 - 4 = 12, nesse exemplo). A porção HOAconfig 250M também inclui um elemento de sintaxe SpatiallnterpolationMethod 255 estabelecido para indicar que a função de interpolação da interpolação espaço- temporal é um cosseno elevado. A porção HOAconfig 250M, além disso, inclui um CodedSpatiallnterpolationTime 254 estabelecido para indicar uma duração de amostra interpolada de 256.
[0627] A porção HOAconfig 250M inclui adicionalmente um elemento de sintaxe MinAmbHoaOrder 150 estabelecido para indicar que a ordem MinimumHOA do conteúdo de HOA de ambiente é um, em que o dispositivo de decodificação de áudio 24 pode derivar de um elemento de sintaxe MinNumofCoeffsForAmbHOA que seja igual a (1+1)2 ou quatro. O dispositivo de decodificação de áudio 24 também pode derivar de um elemento de sintaxe MaxNoOfAddActiveAmbCoeffs conforme estabelecido para uma diferença entre o elemento de sintaxe NumOfHoaCoeff e o MinNumofCoeffsForAmbHOA, que se assume nesse exemplo ser igual a 16-4 ou 12. O dispositivo de decodificação de áudio 24 também pode derivar de um elemento de sintaxe AmbAsignmBits conforme estabelecido para ceil (log2(MaxNoOfAddActiveAmbCoeffs)) = ceil(log2(12)) = 4. A porção HOAconfig 250M inclui um elemento de sintaxe HoaOrder 152 estabelecido para indicar a ordem de HOA do conteúdo para ser igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar de um NumOfHoaCoeffs para ser igual a (N + 1)2 ou 16.
[0628] Conforme adicionalmente mostrado no exemplo da Figura 10M(i), a porção 248M inclui um quadro de áudio de USAC-3D no qual dois quadros de HOA 249K e 249L são armazenados em uma carga útil de extensão de USAC devido àqueles dois quadros de áudio serem armazenados dentro de um quadro de USAC-3D a quando replicação de banda espectral (SBR) for habilitada. O dispositivo de decodificação de áudio 24 pode derivar de diversos canais de transporte flexíveis como uma função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MinNumofCoeffsForAmbHOA. Nos exemplos a seguir, é presumido que o elemento de sintaxe numHOATransportChannels é igual a 7 e o elemento de sintaxe MinNumofCoeffsForAmbHOA é igual a quatro, em que o número de canais de transporte flexíveis é igual ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MinNumofCoeffsForAmbHOA (ou três).
[0629] A Figura 10M(ii) ilustra os quadros 249K e 249L em maiores detalhes. Conforme mostrado no exemplo da Figura 10M(ii), o quadro 249K inclui campos CSID 154-154C e um campo VVectorData 156. O campo CSID 154 inclui o CodedAmbCoeffldx 246, o AmbCoeffldxTransition 247 (em que o asterisco duplo (**) indica que, para canal de transporte de flexível no 1, assume-se que o estado interno do decodificador seja no presente documento AmbCoeffldxTransitionState = 2, que resulta no campo de bits CodedAmbCoeffldx é sinalizado ou especificado de outro modo no fluxo de bits) e o ChannelType 269 (que é igual a dois, sinalizando que a carga útil correspondente é um coeficiente HOA ambiente adicional). O dispositivo de decodificação de áudio 24 pode derivar do AmbCoeffldx como igual ao CodedAmbCoeffldx+l+MinNumOfCoeffsForAmbHOA ou 5, nesse exemplo. O campo CSID 154B inclui unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10M(ii). O campo CSID 154C inclui o campo ChannelType 269 que tem um valor de 3.
[0630] No exemplo da Figura 10M(ii), o quadro 249K inclui um único sinal com base em vetor (devido ao ChannelType 269 igual a 1 nos campos CSID 154B) e um vazio (devido ao ChannelType 269 igual a 3 nos campos CSID 154C). Devido à porção anterior HOAconfig 250M, o dispositivo de decodificação de áudio 24 pode determinar que 12 elementos de vetor V são codificados. Em conformidade, o VVectorData 156 inclui 12 elementos de vetor, cada um dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e índices de elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength=0. Além disso, conforme verificado pela nota de rodapé 2, o esquema de codificação é sinalizado por NbitsQ = 5 no campo CSID para o canal de transporte correspondente.
[0631] No quadro 249L, o campo CSID 154 inclui um AmbCoeffldxTransition 247 que indica que nenhuma transição ocorreu e, portanto, o CodedAmbCoeffldx 246 pode ser implícito a partir do quadro anterior e não precisa ser sinalizado ou especificado de outro modo novamente. Os campos CSID 154B e 154C do quadro 249l são os mesmos que aqueles para o quadro 249k e, desse modo, semelhante ao quadro 249k, o quadro 249l inclui um único campo VVectorData 156, que inclui 12 elementos de vetor, cada um dos quais quantizados de modo uniforme com 8 bits.
[0632] As Figuras 10N(i) e 10N(ii) ilustram um primeiro fluxo de bits exemplificativo 248N e porção de configuração A de HO anexa 250N que foi gerado para corresponder ao caso 3 no pseudocódigo acima. No exemplo da Figura 10N(i), a porção HOAconfig 250N inclui um elemento de sintaxe CodedVVecLength 256 estabelecido para indicar que todos os elementos de um vetor V são codificados, exceto aqueles elementos especificados em um elemento de sintaxe ContAddAmbHoaChan (que assume-se ser zero, nesse exemplo). A porção HOAconfig 250N também inclui um elemento de sintaxe SpatiallnterpolationMethod 255 estabelecido para indicar que a função de interpolação da interpolação espaço-temporal é um cosseno elevado. A porção HOAconfig 250N, além disso, inclui um CodedSpatiallnterpolationTime 254 estabelecido para indicar uma duração de amostra interpolada de 256. A porção HOAconfig 250N inclui adicionalmente um elemento de sintaxe MinAmbHoaOrder 150 estabelecido para indicar que a ordem MinimumHOA do conteúdo de A de ambiente HO é um, em que o dispositivo de decodificação de áudio 24 pode derivar de um elemento de sintaxe MinNumOfCoeffsForAmbHOA para ser igual a (1+1)2 ou quatro. A porção HOAconfig 250N inclui um elemento de sintaxe HoaOrder 152 estabelecido para indicar a ordem de HOA do conteúdo é igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar de um NumOfHoaCoeffs para ser igual a (N+ se ou 16).
[0633] Conforme adicionalmente mostrado no exemplo da Figura 10N(i), a porção 248N inclui um quadro de áudio de USAC-3D no qual dois quadros de HOA 249M e 249N são armazenados em uma carga útil de extensão de USAC devido àqueles dois quadros de áudio que são armazenados dentro de um quadro de USAC-3D quando a replicação de banda espectral (SBR) é habilitada. O dispositivo de decodificação de áudio 24 pode derivar de diversos canais de transporte flexíveis como uma função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MinNumOfCoeffsForAmbHOA. Nos exemplos a seguir, é presumido que o elemento de sintaxe numHOATransportChannels é igual a 7 e o elemento de sintaxe MinNumOfCoeffsForAmbHOA é igual a quatro, em que o número de canais de transporte flexíveis é igual ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MinNumOfCoeffsForAmbHOA (ou três).
[0634] A Figura 10N(ii) ilustra os quadros 249M e 249N em maiores detalhes. Conforme mostrado no exemplo da Figura 10N(ii), o quadro 249M inclui campos CSID 154-154C e campos de VVectorData 156 e 156B. O campo CSID 154 inclui a unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10J). O campo CSID 154B inclui a unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 10N). O campo CSID 154C inclui o campo ChannelType 269 que tem um valor de 3. Cada um dos campos CSID 154 a 154C corresponde àqueles respectivos dos canais de transporte 1, 2 e 3.
[0635] No exemplo da Figura 10N(ii), o quadro 249M inclui dois sinais com base em vetor (devido ao ChannelType 269 igual a 1 nos campos CSID 154 e 154B) e um vazio (devido ao ChannelType 269 igual a 3 nos campos CSID 154C). Devido à porção anterior HOAconfig 250M, o dispositivo de decodificação de áudio 24 pode determinar que 16 elementos de vetor V são codificados. Em conformidade, os VVectorData 156 e 156B, cada um, incluem 16 elementos de vetor, cada dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e índices de elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength=0. Além disso, conforme verificado pelo único asterisco (*), o esquema de codificação é sinalizado por NbitsQ = 5 no campo CSID para o canal de transporte correspondente.
[0636] No quadro 249N, o campo CSID 154 e o 154B são os mesmos que aqueles no quadro 249M, enquanto o campo CSID 154C do quadro 249F comutado para um ChannelType de um. O campo CSID 154C do quadro 249B, portanto, inclui o Cbflag 267, o Pflag 267 (que indica codificação de Huffman) e Nbits 261 (igual a doze). Como resultado, o quadro 249F inclui um terceiro campo VVectorData 156C que inclui 16 elementos de vetor V, cada um dos quais é quantizado de modo uniforme com 12 bits e codificado por Huffman. Conforme verificado acima, o número e índices dos elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength = 0, enquanto o esquema de codificação de Huffman é sinalizado pelo NbitsQ = 12, CbFlag = 0 e Pflag = 0 no campo CSID 154C para esse canal de transporte particular (por exemplo, canal de transporte no 3) .
[0637] O exemplo das Figuras 100(i) e 100(ii) ilustra um segundo fluxo de bits exemplificativo 2480 e a porção de configuração de HOA anexa 250O que foram gerados para corresponder ao caso 3 no pseudocódigo acima. No exemplo da Figura 100(i), a porção HOAconfig 250O inclui um elemento de sintaxe CodedVVecLength 256 estabelecido para indicar que todos os elementos de um vetor V são codificados, exceto aqueles elementos especificados em um elemento de sintaxe ContAddAmbHoaChan (que assume-se ser um, nesse exemplo). A porção HOAconfig 250O também inclui um elemento de sintaxe SpatiallnterpolationMethod 255 estabelecido para indicar que a função de interpolação da interpolação espaço-temporal é um cosseno elevado. A porção HOAconfig 250O, além disso, inclui um CodedSpatiallnterpolationTime 254 estabelecido para indicar uma duração de amostra interpolada de 256.
[0638] A porção HOAconfig 250O inclui adicionalmente um elemento de sintaxe MinAmbHoaOrder 150 estabelecido para indicar que a ordem MinimumHOA do conteúdo de HOA de ambiente é um, em que o dispositivo de decodificação de áudio 24 pode derivar de um elemento de sintaxe MinNumofCoeffsForAmbHOA que seja igual a (1+1)2 ou quatro. O dispositivo de decodificação de áudio 24 também pode derivar de um elemento de sintaxe MaxNoOfAddActiveAmbCoeffs conforme estabelecido para uma diferença entre o elemento de sintaxe NumOfHoaCoeff e o MinNumofCoeffsForAmbHOA, que se assume nesse exemplo ser igual a 16-4 ou 12. O dispositivo de decodificação de áudio 24 também pode derivar de um elemento de sintaxe AmbAsignmBits conforme estabelecido para ceil (log2(MaxNoOfAddActiveAmbCoeffs)) = ceil(log2(12)) = 4. A porção HOAconfig 250O inclui um elemento de sintaxe HoaOrder 152 estabelecido para indicar a ordem de HOA do conteúdo para ser igual a três (ou, em outras palavras, N = 3), em que o dispositivo de decodificação de áudio 24 pode derivar de um NumOfHoaCoeffs para ser igual a (N + 1)2 ou 16.
[0639] Conforme adicionalmente mostrado no exemplo da Figura 100(i), a porção 248O inclui um quadro de áudio de USAC-3D no qual dois quadros de HOA 2491 e 249P são armazenados em uma carga útil de extensão de USAC devido àqueles dois quadros de áudio serem armazenados dentro de um quadro de USAC-3D a quando replicação de banda espectral (SBR) for habilitada. O dispositivo de decodificação de áudio 24 pode derivar de diversos canais de transporte flexíveis como uma função de um elemento de sintaxe numHOATransportChannels e um elemento de sintaxe MinNumOfCoeffsForAmbHOA. Nos exemplos a seguir, é presumido que o elemento de sintaxe numHOATransportChannels é igual a 7 e o elemento de sintaxe MinNumOfCoeffsForAmbHOA é igual a quatro, em que o número de canais de transporte flexíveis é igual ao elemento de sintaxe numHOATransportChannels menos o elemento de sintaxe MinNumOfCoeffsForAmbHOA (ou três).
[0640] A Figura 100(ii) ilustra os quadros 2490 e 249P em maiores detalhes. Conforme mostrado no exemplo da Figura 100(ii), o quadro 2490 inclui os campos CSID 154-154C e um campo VVectorData 156. O campo CSID 154 inclui o CodedAmbCoeffldx 246, o AmbCoeffldxTransition 247 (em que o asterisco duplo (**) indica que, para canal de transporte de flexível no 1, assume-se que o estado interno do decodificador seja no presente documento AmbCoeffldxTransitionState = 2, que resulta no campo de bits CodedAmbCoeffldx é sinalizado ou especificado de outro modo no fluxo de bits) e o ChannelType 269 (que é igual a dois, sinalizando que a carga útil correspondente é um coeficiente HOA ambiente adicional). O dispositivo de decodificação de áudio 24 pode derivar do AmbCoeffldx como igual ao CodedAmbCoeffldx+l+MinNumOfCoeffsForAmbHOA ou 5, nesse exemplo. O campo CSID 154B inclui unidade C 267, bb 266 e ba265 junto com o ChannelType 269, cada um dos quais são estabelecidos para os valores correspondentes 01, 1, 0 e 01 mostrados no exemplo da Figura 100 (ii). O campo CSID 154C inclui o campo ChannelType 269 que tem um valor de 3.
[0641] No exemplo da Figura 100(ii), o quadro 2490 inclui um único sinal com base em vetor (devido ao ChannelType 269 igual a 1 nos campos CSID 154B) e um vazio (devido ao ChannelType 269 igual a 3 nos campos CSID 154C). Devido à porção anterior HOAconfig 250O, o dispositivo de decodificação de áudio 24 pode determinar que 16 menos aquele especificado pelos elementos de sintaxe ContAddAmbHoaChan (por exemplo, em que o elemento de vetor associado a um índice de 6 é especificado como o elemento de sintaxe ContAddAmbHoaChan) ou 15 elementos de vetor V são codificados. Em conformidade, o VVectorData 156 inclui 15 elementos de vetor, cada um dos quais é quantizado de modo uniforme com 8 bits. Conforme verificado pela nota de rodapé 1, o número e índices de elementos de VVectorData codificados são especificados pelo parâmetro CodedVVecLength=0. Além disso, conforme verificado pela nota de rodapé 2, o esquema de codificação é sinalizado por NbitsQ = 5 no campo CSID para o canal de transporte correspondente.
[0642] No quadro 249P, o campo CSID 154 inclui um AmbCoeffldxTransition 247 que indica que nenhuma transição ocorreu e, portanto, o CodedAmbCoeffldx 246 pode ser implícito a partir do quadro anterior e não precisa ser sinalizado ou especificado de outro modo novamente. Os campos CSID 154B e 154C do quadro 249P são os mesmos que aqueles para o quadro 2490 e, desse modo, silimares ao quadro 2490, o quadro 249P inclui um único campo VVectorData 156, que inclui 15 elementos de vetor, cada um dos quais é quantizado de modo uniforme com 8 bits.
[0643] As Figuras 11A a 11G são diagramas de bloco que ilustram, em maiores detalhes, diversas unidades do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5. A Figura 11A é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de extração 72 do dispositivo de decodificação de áudio 24. Conforme mostrado no exemplo da Figura 11 A, a unidade de extração 72 pode incluir uma unidade de análise de modo 270, uma unidade de configuração de modo 272 (“unidade de config de modo 272”) e uma unidade de extração configurável 274.
[0644] A unidade de análise de modo 270 pode representar uma unidade configurada para analisar o elemento de sintaxe verificado acima indicativo de um modo de codificação (por exemplo, o elemento de sintaxe ChannelType mostrado no exemplo da Figura 10E) usado para codificar os coeficientes A de HO 11 de modo a formar fluxo de bits 21. A unidade de análise de modo 270 pode passar o elemento de sintaxe determinado para a unidade de configuração de modo 272. A unidade de configuração de modo 272 pode representar uma unidade configurada para configurar a unidade de extração configurável 274 com base no elemento de sintaxe analisado. A unidade de configuração de modo 272 pode configurar a unidade de extração configurável 274 para extrair uma representação codificada com base em direção dos coeficientes HOA 11 do fluxo de bits 21 ou extrair uma representação codificada com base em vetor dos coeficientes HOA 11 do fluxo de bits 21 com base nos elementos de sintaxe analisado.
[0645] Quando uma codificação com base em direção foi realizada, a unidade de extração configurável 274 pode extrair a versão com base em direção dos coeficientes HOA 11 e os elementos de sintaxe associados a essa versão codificada (que é indicada como informações com base em direção 91 no exemplo da Figura 11 A). Essas informações com base em direção 91 podem incluir as informações direcionais 253 mostradas no exemplo da Figura 10D e SideChannellnfoData com base em direção mostrado no exemplo da Figura 10E conforme definido por um ChannelType igual a zero.
[0646] Quando o elemento de sintaxe indica que os coeficientes HOA 11 foram codificados com o uso de uma síntese com base em vetor (por exemplo, quando o elemento de sintaxe ChannelType é igual a um), a unidade de extração configurável 274 pode extrair os vetores V[k] de primeiro plano codificados 57, os coeficientes HOA de ambiente codificado 59 e os sinais de nFG codificados 59. A unidade de extração configurável 274 também pode, mediante determinação de que o elemento de sintaxe indica que os coeficientes HOA 11 foram codificados com o uso de uma síntese com base em vetor, extrair o elemento de sintaxe de CodedSpatiallnterpolationTime 254 e o elemento de sintaxe SpatiallnterpolationMethod 255 do fluxo de bits 21, analisando esses elementos de sintaxe 254 e 255 para a unidade de interpolação espaço-temporal 76.
[0647] A Figura 11B é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de quantização 74 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5. A unidade de quantização 74 pode representar uma unidade configurada para operar de uma maneira recíproca à unidade de quantização 52 mostrada no exemplo da Figura 4 de modo a decodificar e desquantizar a entropia dos vetores V[k] de primeiro plano codificados 57 e, desse modo, gerar vetores 55k V[k] de primeiro plano reduzidos. A unidade de dequantização escalar/de entropia 984 pode incluir uma unidade de decodificação de categoria/residual 276, uma unidade de previsão 278 e uma unidade de dequantização uniforme 280.
[0648] A unidade de decodificação de categoria/residual 276 pode representar uma unidade configurada para realizar a decodificação de Huffman em relação aos vetores V[k] de primeiro plano codificados 57 com o uso da tabela Huffman identificada pelas informações de tabela Huffman 241 (que é, conforme verificado acima, expressadas como um elemento de sintaxe no fluxo de bits 21). A unidade de decodificação de categoria/residual 276 pode emitir vetores V[k] de primeiro plano quantizados para a unidade de previsão 278. A unidade de previsão 278 pode representar uma unidade configurada para realizar previsão em relação aos vetores V[k] de primeiro plano quantizados com base no modo de previsão 237, emitir vetores V[k] de primeiro plano quantizados aumentados para a unidade de dequantização uniforme 280. A unidade de dequantização uniforme 280 pode representar uma unidade configurada para realizar dequantização em relação aos vetores V[k] de primeiro plano quantizados aumentados com base no valor de nbits 233, que emite os vetores V[k] 55k de primeiro plano reduzidos.
[0649] A Figura 11C é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de decodificação psicoacústica 80 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5. Conforme verificado acima, a unidade de decodificação psicoacústica 80 pode operar de uma maneira recíproca para a unidade de codificação de áudio psicoacústica 40 mostrada no exemplo da Figura 4 de modo a decodificar os coeficientes HOA de ambiente codificado 59 e os sinais de nFG codificados 61 e, desse modo, gerar coeficientes HOA de ambiente compensados por energia 47’ e os sinais de nFG interpolados 49’ (que também pode ser chamado de objetos de áudio de nFG interpolados 49’). A unidade de decodificação psicoacústica 80 pode passar os coeficientes HOA de ambiente compensados por energia 47’ para unidade de formulação de coeficiente de HOA 82 e os sinais de nFG 49’ para a reordenação 84. A unidade de decodificação psicoacústica 80 pode incluir uma pluralidade de decodificadores de áudio 80-80N similares à unidade de codificação de áudio psicoacústica 40. Os decodificadores de áudio 80-80N podem ser instanciados por ou incluídos de outro modo dentro da unidade de codificação de áudio psicoacústica 40 em quantidade suficiente para suportar, conforme verificado acima, decodificação simultânea de cada canal dos coeficientes HOA de segundo plano 47’ e cada sinal dos sinais de nFG 49’.
[0650] A Figura 11D é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de reordenação 84 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5. A unidade de reordenação 84 pode representar uma unidade configurada para operar de uma maneira recíproca similar àquela descrita acima em relação à unidade de reordenação 34. A unidade de reordenação 84 pode incluir uma unidade de reordenação de vetor 282, que pode representar uma unidade configurada para receber elementos de sintaxe 205 indicativos da ordem original dos componentes de primeiro plano dos coeficientes HOA 11. A unidade de extração 72 pode analisar esses elementos de sintaxe 205 do fluxo de bits 21 e passar o elemento de sintaxe 205 para a unidade de reordenação 84. A unidade de reordenação de vetor 282 pode, com base nesses elementos de sintaxe de reordenação 205, reorganizar os sinais de nFG interpolados 49’ e os vetores 55k V[k] de primeiro plano reduzidos para gerar sinais de nFG 49” reordenados e vetores 55k’V[k] de primeiro plano reordenados. A unidade de reordenação 84 pode emitir os sinais de nFG 49” reordenados para a unidade de formulação de primeiro plano 78 e os vetores 55k’ V[k] de primeiro plano reordenados para a unidade de interpolação espaço-temporal 76.
[0651] A Figura HE é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de interpolação espaço-temporal 76 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5. A unidade de interpolação espaço-temporal 76 pode operar de uma maneira similar àquela descrita acima em relação à unidade de interpolação espaço-temporal 50. A unidade de interpolação espaço-temporal 76 pode incluir uma unidade de interpolação V 284, que pode representar uma unidade configurada para receber os vetores 55k’ V[k] de primeiro plano reordenados e realizar a interpolação espaço-temporal em relação aos vetores 55k’ V[k] de primeiro plano reordenados e vetores 55k-i‘ V[k-1] de primeiro plano reordenados para gerar vetores 55k” V[k] de primeiro plano interpolados. A unidade de interpolação V 284 podem realizar interpolação com base em no elemento de sintaxe CodedSpatiallnterpolationTime 254 e no elemento de sintaxe SpatiallnterpolationMethod 255. Em alguns exemplos, a unidade de interpolação V 285 pode interpolar os vetores V durante a duração especificada pelo elemento de sintaxe CodedSpatiallnterpolationTime 254 com o uso do tipo de interpolação identificada pelo elemento de sintaxe SpatiallnterpolationMethod 255. A unidade de interpolação espaço-temporal 76 pode transmitir os vetores 55k” V[k] de primeiro plano interpolados para a unidade de formulação de primeiro plano 78.
[0652] A Figura 1 IF é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de formulação de primeiro plano 78 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5. A unidade de formulação de primeiro plano 78 pode incluir uma unidade de multiplicação 286, que pode representar uma unidade configurada para realizar multiplicação de matriz em relação aos vetores 55A” V[k] de primeiro plano interpolados e aos sinais de nFG 49” reordenados para gerar os coeficientes HOA de primeiro plano 65.
[0653] A Figura 11G é um diagrama de blocos que ilustra, em maiores detalhes, a unidade de formulação de coeficiente de HOA 82 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5. A unidade de formulação de coeficiente de HOA 82 pode incluir uma unidade de adição 288, que pode representar uma unidade configurada para adicionar os coeficientes HOA de primeiro plano 65 aos canais de HOA de ambiente 47’ de modo a obter os coeficientes HOA 11 ‘.
[0654] A Figura 12 é um diagrama que ilustra um ecossistema de áudio exemplificativo que pode realizar diversos aspectos das técnicas descritas nessa revelação. Conforme ilustrado na Figura 12, o ecossistema de áudio 300 pode incluir aquisição 301, edição 302, codificação 303, transmissão 304 e reprodução 305.
[0655] A aquisição 301 pode representar as técnicas de ecossistema de áudio 300, em que o conteúdo de áudio é adquirido. Exemplos de aquisição 301 incluem, porém, sem limitação, som de gravação (por exemplo, som ao vivo), geração de áudio (por exemplo, objetos de áudio, produção de foley, síntese de som, simulações) e similares. Em alguns exemplos, o som pode ser gravado em espetáculos, eventos esportivos e quando conduz vigilância. Em alguns exemplos, o áudio pode ser gerado quando realiza simulações e criação/mixagem (por exemplo, filmes, jogos). Os objetos de áudio podem ser usados em Hollywood (por exemplo, estúdios IMAX). Em alguns exemplos, a aquisição 301 pode ser realizada por um criador de conteúdo, como criador de conteúdo 12 da Figura 3.
[0656] A edição 302 pode representar as técnicas de ecossistema de áudio 300, em que o conteúdo de áudio é editado e/ou modificado. Como um exemplo, o conteúdo de áudio pode ser editado combinando-se múltiplas unidades de conteúdo de áudio em uma única unidade de conteúdo de áudio. Como outro exemplo, o conteúdo de áudio pode ser editado ajustando-se o conteúdo de áudio real (por exemplo, ajustar os níveis de um ou mais componentes de frequência do conteúdo de áudio). Em alguns exemplos, a edição 302 pode ser realizada por um sistema de edição de áudio, como sistema de edição de áudio 18 da Figura 3. Em alguns exemplos, a edição 302 pode ser realizada em um dispositivo móvel, como um ou mais dos dispositivos móveis ilustrados na Figura 29.
[0657] A codificação 303 pode representar as técnicas de ecossistema de áudio 300, em que o conteúdo de áudio é codificado em uma representação do conteúdo de áudio. Em alguns exemplos, a representação do conteúdo de áudio pode ser um fluxo de bits, como fluxo de bits 21 da Figura 3. Em alguns exemplos, a codificação 302 pode ser realizada por um dispositivo de codificação de áudio, como dispositivo de codificação de áudio 20 da Figura 3.
[0658] A transmissão 304 pode representar os elementos de ecossistema de áudio 300, em que o conteúdo de áudio é transportado de um criador de conteúdo para um consumidor de conteúdo. Em alguns exemplos, o conteúdo de áudio pode ser transportado em tempo real ou tempo próximo ao real. Por exemplo, o conteúdo de áudio pode ser transmitido de modo contínuo para o consumidor de conteúdo. Em alguns exemplos, o conteúdo de áudio pode ser transportado por codificação do conteúdo de áudio em uma mídia, como um meio de armazenamento legível por computador. Por exemplo, o conteúdo de áudio pode ser armazenado em um disco, unidade e similares (por exemplo, um disco Blu-ray, um cartão de memória, um disco rígido, etc.)
[0659] A reprodução 305 pode representar as técnicas de ecossistema de áudio 300, em que o conteúdo de áudio é processado e reproduzido novamente para o consumidor de conteúdo. Em alguns exemplos, a reprodução 305 pode incluir processar um campo sonoro em 3D com base em um ou mais aspectos de um ambiente de reprodução. Em outras palavras, a reprodução 305 pode ter como base um ambiente acústico local.
[0660] A Figura 13 é um diagrama que ilustra um exemplo do ecossistema de áudio da Figura 12 em maiores detalhes. Conforme ilustrado na Figura 13, o ecossistema de áudio 300 pode incluir conteúdo de áudio 308, estúdios cinematográficos 310, estúdios de música 311, estúdios de áudio de jogos 312, conteúdo de áudio com base em canal 313, mecanismos de codificação 314, troncos de áudio de jogos 315, mecanismos de codificação/renderização de áudio de jogos 316 e sistemas de entrega 317. Um estúdio de áudio de jogos exemplificativo 312 é ilustrado na Figura 26. Alguns mecanismos de codificação/renderização de áudio de jogos 316 exemplificativos são ilustrados na Figura 27.
[0661] Conforme ilustrado pela Figura 13, estúdios cinematográficos 310, estúdios de música 311 e estúdios de áudio de jogos 312 podem receber conteúdo de áudio 308. Em alguns exemplos, o conteúdo de áudio 308 pode representar a emissão de aquisição 301 da Figura 12. Os estúdios cinematográficos 310 podem emitir conteúdo de áudio com base em canal 313 (por exemplo, em 2,0, 5,1 e 7,1) como usando-se uma estação de trabalho de áudio digital (DAW). Os estúdios de música 310 podem emitir conteúdo de áudio com base em canal 313 (por exemplo, em 2,0 e 5,1) como usando-se uma DAW. De qualquer modo, mecanismos de codificação 314 podem receber e codificar o conteúdo de áudio com base em canal 313 com base em um ou mais codecs (por exemplo, AAC, AC3, Dolby True HD, Dolby Digital Plus e DTS Master Audio) para emissão por sistemas de entrega 317. Dessa maneira, os mecanismos de codificação 314 podem ser um exemplo de codificação 303 da Figura 12. Os estúdios de áudio de jogos 312 podem emitir uma ou mais troncos de áudio de jogos 315, como usando-se uma DAW. Os mecanismos de codificação/renderização de áudio de jogos 316 pode codificar e/ou renderizar os troncos de áudio 315 em conteúdo de áudio com base em canal para emissão por sistemas de entrega 317. Em alguns exemplos, a emissão de estúdios cinematográficos 310, estúdios de música 311 e estúdios de áudio de jogos 312 podem representar a emissão de edição 302 da Figura 12. Em alguns exemplos, a emissão de mecanismos de codificação 314 e/ou mecanismos de codificação/renderização de áudio de jogos 316 podem ser transportados para sistemas de entrega 317 por meio das técnicas de transmissão 304 da Figura 12.
[0662] A Figura 14 é um diagrama que ilustra outro exemplo do ecossistema de áudio da Figura 12 em maiores detalhes. Conforme ilustrado na Figura 14, o ecossistema de áudio 300B pode incluir objetos de áudio de gravação de difusão 319, sistemas de áudio profissionais 320, captura do dispositivo de consumidor 322, formato de áudio de HOA 323, renderização no dispositivo 324, áudio de consumidor, TV e acessórios 325 e sistemas de áudio de carro 326.
[0663] Conforme ilustrado na Figura 14, os objetos de áudio de gravação de difusão 319, os sistemas de áudio profissionais 320 e a captura do dispositivo de consumidor 322 todos podem codificar sua emissão com o uso de formato de áudio de HOA 323. Dessa maneira, o conteúdo de áudio pode ser codificado com o uso de formato de áudio de HOA 323 em uma única representação que pode ser reproduzida novamente com o uso de renderização no dispositivo 324, áudio de consumidor, TV e acessórios 325 e sistemas de áudio de carro 326. Em outras palavras, a única representação do conteúdo de áudio pode ser reproduzida novamente em um sistema de reprodução de áudio genérico (isto é, conforme oposto à exigência de uma configuração particular como 5,1, 7,1, etc.).
[0664] As Figuras 15A e 15B são diagramas que ilustram outros exemplos do ecossistema de áudio da Figura 12 em maiores detalhes. Conforme ilustrado na Figura 15A, o ecossistema de áudio 300C pode incluir elementos de aquisição 331 e elementos de reprodução 336. Os elementos de aquisição 331 podem incluir dispositivo de aquisição com fio e/ou sem fio 332 (por exemplo, microfones Eigen), captura de som surround no dispositivo 334 e dispositivos móveis 335 (por exemplo, telefones inteligentes e computadores do tipo tablet). Em alguns exemplos, dispositivo de aquisição com fio e/ou sem fio 332 pode ser acoplado ao dispositivo móvel 335 por meio de canal(is) de comunicação com fio e/ou sem fio 333.
[0665] De acordo com um ou mais técnicas dessa revelação, dispositivo móvel 335 pode ser usado para adquirir um campo sonoro. Por exemplo, o dispositivo móvel 335 pode adquirir um campo sonoro por meio de dispositivo de aquisição com fio e/ou sem fio 332 e/ou captura de som surround no dispositivo 334 (por exemplo, uma pluralidade de microfones integrados no dispositivo móvel 335). O dispositivo móvel 335 pode, então, codificar o campo sonoro adquirido em HO As 337 para reprodução por um ou mais de elementos de reprodução 336. Por exemplo, um usuário de dispositivo móvel 335 pode gravar (adquirir um campo sonoro de) um evento ao vivo (por exemplo, um encontro, uma conferência, um jogo, um espetáculo, etc.) e codificar a gravação em HOAs.
[0666] O dispositivo móvel 335 também pode utilizar um ou mais de elementos de reprodução 336 para reproduzir o campo sonoro codificado HOA. Por exemplo, O dispositivo móvel 335 pode decodificar o campo sonoro codificado de HOA e emitir um sinal para um ou mais de elementos de reprodução 336 que fazem com que o um ou mais de elementos de reprodução 336 recriem o campo sonoro. Como um exemplo, o dispositivo móvel 335 pode utilizar canais de comunicação sem fio e/ou com fio 338 para emitir o sinal para um ou mais alto-falantes (por exemplo, matrizes de alto-falante, barras de som, etc.). Como outro exemplo, o dispositivo móvel 335 pode utilizar soluções de encaixe 339 para emitir o sinal para uma ou mais estações de encaixe e/ou um ou mais alto-falantes encaixados (por exemplo, sistemas de som em carros inteligentes e/ou domicílios). Como outro exemplo, o dispositivo móvel 335 pode utilizar renderização de fone de ouvido 340 para emitir o sinal para um conjunto de fones de ouvido, por exemplo, para criar som binaural realista.
[0667] Em alguns exemplos, um dispositivo móvel particular 335 pode tanto adquirir um campo sonoro em 3D e reproduzir o mesmo campo sonoro em 3D em um tempo posterior. Em alguns exemplos, o dispositivo móvel 335 pode adquirir um campo sonoro em 3D, codificar o campo sonoro em 3D em HOA e transmitir o campo sonoro em 3D codificado para um ou mais outros dispositivos (por exemplo, outros dispositivos móveis e/ou outros dispositivos não móveis) para reprodução.
[0668] Conforme ilustrado na Figura 15B, o ecossistema de áudio 300D pode incluir conteúdo de áudio 343, estúdios de jogos 344, conteúdo de áudio codificado 345, mecanismos de renderização 346 e sistemas de entrega 347. Em alguns exemplos, os estúdios de jogos 344 podem incluir uma ou mais DAWs que podem suportar edição de sinais de HOA. Por exemplo, a uma ou mais DAWs podem incluir HOA plug-ins e/ou ferramentas que podem ser configuradas para operar com (por exemplo, trabalhar com) um ou mais sistemas de áudio de jogos. Em alguns exemplos, os estúdios de jogos 344 podem emitir novos formatos de tronco que suportam HOA. Em qualquer caso, os estúdios de jogos 344 podem emitir conteúdo de áudio codificado 345 para renderizar mecanismos 346 que podem renderizar um campo sonoro para reprodução por sistemas de entrega 347.
[0669] A Figura 16 é um diagrama que ilustra um dispositivo de codificação de áudio exemplificativo que pode realizar diversos aspectos das técnicas descritas nessa revelação. Conforme ilustrado na Figura 16, o ecossistema de áudio 300E pode incluir conteúdo de áudio em 3D original 351, codificador 352, fluxo de bits 353, decodificador 354, renderizador 355 e elementos de reprodução 356. Conforme adicionalmente ilustrado pela Figura 16, o codificador 352 pode incluir análise de campo sonoro e decomposição 357, extração de segundo plano 358, determinação de saliência de segundo plano 359, codificação de áudio 360, extração de áudio de segundo plano/distinto 361 e codificação de áudio 362. Em alguns exemplos, o codificador 352 pode ser configurado para realizar operações similares ao dispositivo de codificação de áudio 20 3das Figuras 3 e 4. Em alguns exemplos, a análise de campo sonoro e decomposição 357 pode ser configurada para realizar operações similares à unidade de análise de campo sonoro 44 da Figura 4. Em alguns exemplos, a extração de segundo plano 358 e a determinação de saliência de segundo plano 359 podem ser configuradas para realizar operações similares à unidade de seleção de BG 48 da Figura 4. Em alguns exemplos, a codificação de áudio 360 e a codificação de áudio 362 podem ser configuradas para realizar operações similares à unidade de codificador de áudio psicoacústico 40 da Figura 4. Em alguns exemplos, a extração de áudio de segundo plano/distinto 361 pode ser configurada para realizar operações similares à unidade de seleção de segundo plano 36 da Figura 4.
[0670] Em alguns exemplos, a extração de áudio de segundo plano/distinto 361 pode analisar o conteúdo de áudio que corresponde ao quadro de vídeo 390 da Figura 33. Por exemplo, a extração de áudio de segundo plano/distinto 361 pode determinar que o conteúdo de áudio que corresponde às regiões 391 A-391 C é áudio de primeiro plano.
[0671] Conforme ilustrado na Figura 16, o codificar 352 pode ser configurado para codificar conteúdo original 351, que pode ter uma taxa de bit de 25 a 75 Mbps, em fluxo de bits 353, que pode ter uma taxa de bit de 256kbps a 1,2 Mbps. A Figura 17 é um diagrama que ilustra um exemplo do dispositivo de codificação de áudio da Figura 16 em maiores detalhes.
[0672] A Figura 18 é um diagrama que ilustra um dispositivo de codificação de áudio exemplificativo que pode realizar diversos aspectos das técnicas descritas nessa revelação. Conforme ilustrado na Figura 18, o ecossistema de áudio 300E pode incluir conteúdo de áudio em 3D original 351, codificador 352, fluxo de bits 353, decodificador 354, renderizador 355 e elementos de reprodução 356. Conforme adicionalmente ilustrado pela Figura 16, o codificador 354 pode incluir decodificador de áudio 363, decodificador de áudio 364, reconstrução de primeiro plano 365 e mixagem 366. Em alguns exemplos, o decodificador 354 pode ser configurado para realizar operações similares ao dispositivo de decodificação de áudio 24 das Figuras 3 e 5. Em alguns exemplos, o decodificador de áudio 363, o decodificador de áudio 364 podem ser configurados para realizar operações similares à unidade de decodificação psicoacústica 80 da Figura 5. Em alguns exemplos, a reconstrução de primeiro plano 365 pode ser configurada para realizar operações similares à unidade de formulação de primeiro plano 78 da Figura 5.
[0673] Conforme ilustrado na Figura 16, o decodificador 354 pode ser configurado para receber e decodificar fluxo de bits 353 e emitir o campo sonoro em 3D reconstruído resultante para renderizar 355, o que pode, então, fazer com que um ou mais de elementos de reprodução 356 emitam um conteúdo de representação de original 3D 351. A Figura 19 é um diagrama que ilustra um exemplo do dispositivo de decodificação de áudio da Figura 18 em maiores detalhes.
[0674] As Figuras 20A a 20G são diagramas que ilustram dispositivos de aquisição de áudio exemplificativos que pode realizar diversos aspectos das técnicas descritas nessa revelação. A Figura 20A ilustra o microfone Eigen 370 que pode incluir uma pluralidade de microfones que são coletivamente configurados para gravar um campo sonoro em 3D. Em alguns exemplos, a pluralidade de microfones de microfones Eigen 370 podem estar localizados na superfície de uma bola substancialmente esférica com um raio de aproximadamente 4 cm. Em alguns exemplos, o dispositivo de codificação de áudio 20 pode ser integrado ao microfone Eigen de modo a emitir um fluxo de bits 17 diretamente do microfone 370.
[0675] A Figura 20B ilustra um caminhão de produção 372 que pode ser configurado para receber um sinal de um ou mais microfones, como um ou mais microfones Eigen 370. O caminhão de produção 372 também pode incluir um codificador de áudio, como codificador de áudio 20 da Figura 3.
[0676] As Figuras 20C a 20E ilustram dispositivo móvel 374 que pode incluir uma pluralidade de microfones que são coletivamente configurados para gravar um campo sonoro em 3D. Em outras palavras, a pluralidade de microfones pode ter diversidade X, Y, Z. Em alguns exemplos, o dispositivo móvel 374 pode incluir microfone 376 que pode ser girado para fornecer diversidade X, Y, Z em relação a um ou mais outros microfones de dispositivo móvel 374. O dispositivo móvel 374 também pode incluir um codificador de áudio, como codificador de áudio 20 da Figura 3.
[0677] A Figura 20F ilustra um dispositivo de captura de vídeo robustecido 378 que pode ser configurado para gravar um campo sonoro em 3D. Em alguns exemplos, o dispositivo de captura de vídeo robustecido 378 pode ser fixado a um capacete de um usuário que realiza uma atividade. Por exemplo, o dispositivo de captura de vídeo robustecido 378 pode ser fixado a um capacete de um usuário rafting em águas claras. Dessa maneira, o dispositivo de captura de vídeo robustecido 378 pode capturar um campo sonoro em 3D que representa a ação toda ao redor do usuário (por exemplo, queda de água atrás do usuário, outro rafter falando na frente do usuário, etc...).
[0678] A Figura 20G ilustra dispositivo móvel aprimorado auxiliar 380 que pode ser configurado para gravar um campo sonoro em 3D. Em alguns exemplos, o dispositivo móvel 380 pode ser similar ao dispositivo móvel 335 da Figura 15, com a adição de um ou mais acessórios. Por exemplo, um microfone Eigen pode ser fixado ao dispositivo móvel 335 da Figura 15 para formar o dispositivo móvel aprimorado auxiliar 380. Dessa maneira, o dispositivo móvel aprimorado auxiliar 380 pode capturar uma versão de qualidade superior do campo sonoro em 3D do que apenas com o uso de componentes de captura de som integrados ao dispositivo móvel aprimorado auxiliar 380.
[0679] As Figuras 21A a 21E são diagramas que ilustram dispositivos de reprodução de áudio exemplificativos que podem realizar diversos aspectos das técnicas descritas nessa revelação. As Figuras 21 A e 2 IB ilustram uma pluralidade de alto-falantes 382 e barras de som 384. De acordo com uma ou mais técnicas dessa revelação, os alto-falantes 382 e/ou barras de som 384 podem ser dispostas em qualquer configuração arbitrária enquanto ainda reproduzem novamente um campo sonoro em 3D. As Figuras 21C a 21E ilustram uma pluralidade de dispositivos de reprodução de fone de ouvido 386 a 386C. Os dispositivos de reprodução de fone de ouvido 386 a 386C podem ser acoplados a um decodificador tanto por meio de uma conexão com fio quanto por meio de uma conexão sem fio. De acordo com uma ou mais técnicas dessa revelação, uma única representação genérica de um campo sonoro pode ser utilizada para renderizar o campo sonoro em qualquer combinação de alto-falantes 382, barras de som 384 e dispositivos de reprodução de fone de ouvido 386 a 386C.
[0680] As Figuras 22A a 22H são diagramas que ilustram ambientes de reprodução de áudio exemplificativos de acordo com um ou mais técnicas descritas nessa revelação. Por exemplo, a Figura 22A ilustra um ambiente de reprodução de alto-falante 5,1, a Figura 22B ilustra um ambiente de reprodução de alto-falante 2,0 (por exemplo, estéreo), a Figura 22C ilustra um ambiente de reprodução de alto-falante 9,1 com alto-falantes acústicos anteriores de altura máxima, as Figuras 22D e 22E, cada uma, ilustram um ambiente de reprodução de alto-falante 22,2, a Figura 22F ilustra um ambiente de reprodução de alto-falante 16,0, a Figura 22G ilustra um ambiente de reprodução de alto- falante automotivo e a Figura 22H ilustra um dispositivo móvel com ambiente de reprodução de protetor auricular.
[0681] De acordo com uma ou mais técnicas dessa revelação, uma única representação genérica de um campo sonoro pode ser utilizada para renderizar o campo sonoro em qualquer um dos ambientes de reprodução ilustrados nas Figuras 22A a 22H. Adicionalmente, as técnicas dessa revelação habilitam uma renderização para renderizar um campo sonoro de uma representação genérica para reprodução nos ambientes de reprodução além daqueles ilustrados nas Figuras 22A a 22H. Por exemplo, se considerações de projeto proibirem colocação apropriada de alto-falantes de acordo com o ambiente de reprodução de alto-falante 7,1 (por exemplo, se não é possível colocar um alto-falante surround direito), as técnicas dessa revelação habilitam uma renderização para compensar com os outros 6 alto-falantes para que a reprodução possa ser alcançada em um ambiente de reprodução de alto-falante 6,1.
[0682] Conforme ilustrado na Figura 23, um usuário pode assistir a um jogo esportivo enquanto usa fones de ouvido 386. De acordo com uma ou mais técnicas dessa revelação, o campo sonoro em 3D do jogo esportivo pode ser adquirido (por exemplo, um ou mais microfones Eigen podem ser colocados em e/ou ao redor do estádio de baseball ilustrado na Figura 24), os coeficientes HOA que correspondem ao campo sonoro em 3D podem ser obtidos e transmitidos para um decodificador, em que o decodificador pode determinar a reconstrução do campo sonoro em 3D com base nos coeficientes HOA e emitir o reconstruído ao campo sonoro em 3D para um renderizador, em que o renderizador por obter uma indicação quanto ao tipo de ambiente de reprodução (por exemplo, fones de ouvido) e renderizar o reconstruído ao campo sonoro em 3D em sinais que fazem com que os fones de ouvido emitam uma representação do campo sonoro em 3D do jogo esportivo. Em alguns exemplos, o renderizador pode obter uma indicação quanto ao tipo de ambiente de reprodução de acordo com as técnicas da Figura 25. Dessa maneira, o renderizador pode “adaptar” for diversas localizações de alto-falante, tipo de números, tamanho e também equalizar de modo ideal para o ambiente local.
[0683] A Figura 28 é um diagrama que ilustra uma configuração de alto-falante que pode ser simulada através de fones de ouvido de acordo com uma ou mais técnicas descritas nesta revelação. Conforme ilustrado pela Figura 28, as técnicas dessa revelação podem habilitar um usuário que usa fones de ouvido 389 a experimentar um campo sonoro como se o campo sonoro fosse reproduzido novamente por alto-falantes 388. Dessa maneira, um usuário pode escutar um campo sonoro em 3D sem som ser emitido para uma área grande.
[0684] A Figura 30 é um diagrama que ilustra um quadro de vídeo associado a um campo sonoro em 3D que pode ser processado de acordo com uma ou mais técnicas descritas nessa revelação.
[0685] As Figuras 31A a 31M são diagramas que ilustram gráficos 400A a 400M que mostram vários resultados de simulação de desempenhar a categorização sintética ou gravada do campo sonoro de acordo com vários aspectos das técnicas descritas nesta revelação. Nos exemplos da Figura 31A a 31M, cada um dos gráficos 400A a 400M inclui um limite 402 que é indicado por uma linha tracejada e um respectivo objeto de áudio 404A a 404M (coletivamente, “os objetos de áudio 404”) indicado por uma linha tracejada.
[0686] Quando os objetos de áudio 404 através das análises descritas acima em relação à unidade de análise de conteúdo 26 são determinadas para estar abaixo do limite 402, a unidade de análise de conteúdo 26 determina que aquela correspondente dos objetos de áudio 404 representa um objeto de áudio que foi gravado. Conforme mostrado nos exemplos das Figuras 3 IB, 31D-31H e 31J-31L, a unidade de análise de conteúdo 26 determina que os objetos de áudio 404B, 404D-404H, 404J-404L estão abaixo do limite 402 (pelo menos +90% do tempo e, geralmente, 100% do tempo) e, portanto, representa objetos de áudio gravados. Conforme mostrado nos exemplos das Figuras 31A, 31C e 311, a unidade de análise de conteúdo 26 determina que os objetos de áudio 404 A, 404C e 4041 excedem o limite 402 e, portanto, representa objetos de áudio sintéticos.
[0687] No exemplo da Figura 31M, o objeto de áudio 404M representa um objeto de áudio sintético/gravado mixado, que tem algumas porções sintéticas (por exemplo, acima do limite 402) e algumas porções sintéticas (por exemplo, abaixo do limite 402). A unidade de análise de conteúdo 26, nesse exemplo, identifica as porções sintéticas e gravadas do objeto de áudio 404M com o resultado de que o dispositivo de codificação de áudio 20 gera o fluxo de bits 21 para incluir tanto dados de áudio codificados com base em direcionalidade quanto dados de áudio codificados com base em vetor.
[0688] A Figura 32 é um diagrama que ilustra um gráfico 406 de valores únicos a partir de uma matriz S decomposta a partir de coeficientes ambisonic de ordem superior de acordo com as técnicas descritas nesta revelação. Conforme mostrado na Figura 32, os valores singulares diferentes de zero que têm valores grandes são poucos. A unidade de análise de campo sonoro 44 da Figura 4 pode analisar esses valores singulares para determinar os componentes (ou, em outras palavras, predominante) de segundo plano de nFG (geralmente, representados por vetores) dos vetores 33’ XJS[k] reordenados e os vetores 35’ V[k] reordenados.
[0689] As Figuras 33 A e 33B são diagramas que ilustram os respectivos gráficos 410A e 410B que mostram um impacto potencial que a reordenação tem quando codifica os vetores que descrevem componentes de primeiro plano do campo sonoro de acordo com as técnicas descritas nesta revelação. O gráfico 410A mostra o resultado de codificar pelo menos alguns dos vetores (ou, em outras palavras, o original) vetores 33 XJS[k] não ordenados, enquanto o gráfico 410B mostra o resultado de codificar aqueles correspondentes dos vetores 33‘ XJS[k] ordenados. A plotagem de topo em cada um dos gráficos 410A e 410B mostra o erro na codificação, em que há provavelmente apenas erro perceptível no gráfico 410B em limites de quadro. Em conformidade, as técnicas de reordenação descritas nessa revelação podem facilitar ou promover de outro modo a codificação de objetos de áudio mono com o uso de um codificador de áudio de legado.
[0690] As Figuras 34 e 35 são diagramas conceituais que ilustram diferenças entre identificação somente com base em energia e com base em direcionalidade de objetos de áudio distintos, de acordo com esta revelação. No exemplo da Figura 34, os vetores que exibem energia maior são identificados como sendo objetos de áudio distintos, independentemente da direcionalidade. Conforme mostrado na Figura 34, os objetos de áudio que são posicionados de acordo com valores de energia maiores (plotados em um eixo geométrico y) são determinados para estar “no primeiro plano”, independentemente da direcionalidade (por exemplo, representado por quocientes de direcionalidade plotados em um eixo geométrico x).
[0691] A Figura 35 ilustra a identificação de objetos de áudio distintos com base tanto na direcionalidade quanto na energia, como de acordo com as técnicas implantadas pela unidade de análise de campo sonoro 44 da Figura 4. Conforme mostrado na Figura 35, quocientes de direcionalidade maiores são plotados direcionados para a esquerda do eixo geométrico x e níveis de energia maiores são plotados direcionados para o topo do eixo geométrico y. Nesse exemplo, a unidade de análise de campo sonoro 44 pode determinar que os objetos de áudio distintos (por exemplo, que estão “no primeiro plano”) são associados aos dados de vetor plotados relativamente direcionados para a esquerda de topo do gráfico. Como um exemplo, a unidade de análise de campo sonoro 44 pode determinar que aqueles vetores que são plotados no quadrante esquerdo de topo do gráfico são associados aos objetos de áudio distintos.
[0692] As Figuras 36A a 36F são diagramas que ilustram projeções de pelo menos uma porção da versão decomposta de coeficientes harmônicos esféricos para o domínio espacial de modo a desempenhar a interpolação de acordo com vários aspectos das técnicas descritas nesta revelação. A Figura 36A é um diagrama que ilustra projeção de um ou mais dos vetores 35 V[k] em uma esfera 412. No exemplo da Figura 36A, cada número identifica um coeficiente harmônico esférico diferente projetado na esfera (possivelmente associado a uma fileira e/ou coluna da matriz V 19’). As cores diferentes sugerem uma direção de um componente de áudio distinto, em que as cores mais claras (e, progressivamente, mais escuras) indicam a direção primária do componente distinto. A unidade de interpolação espaço-temporal 50 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4 pode realizar interpolação espaço-temporal entre cada um dos pontos vermelhos para gerar a esfera mostrada no exemplo da Figura 36A.
[0693] A Figura 36B é um diagrama que ilustra projeção de um ou mais dos vetores V[k] 35 em um feixe. A unidade de interpolação espaço-temporal 50 pode projetar uma fileira e/ou coluna dos vetores V[k] 35 ou múltiplas fileiras e/ou colunas dos vetores V[k] 35 para gerar o feixe 414 mostrado no exemplo da Figura 36B.
[0694] A Figura 36C é um diagrama que ilustra um corte transversal de uma projeção de um ou mais vetores de um ou mais dos vetores V[k] 35 em uma esfera, como a esfera 412 mostrada no exemplo da Figura 36.
[0695] Mostrados nas Figuras 36D a 36G são exemplos de capturas instantâneas de tempo (através de 1 quadro de cerca de 20 milissegundos) quando fontes de som diferentes (abelha, helicóptero, música eletrônica e pessoas em um estádio) podem ser ilustradas em um espaço tridimensional.
[0696] As técnicas descritas nessa revelação permitem a representação dessas fontes de som diferentes a serem identificadas e representadas com o uso de um único vetor U.S.[k] e um único vetor V[k]. A variabilidade temporal das fontes de som é representada no vetor U.S.[k] enquanto a distribuição espacial de cada fonte de som é representada pelo único vetor V[k]. Um vetor V[k] pode representar a larguras, localização e tamanho da fonte de som. Além disso, o único vetor V[k] pode ser representado como uma combinação linear de funções de base harmônica esféricas. Nas plotagens das Figuras 36D a 36G, a representação das fontes de som tem como base transformar o único vetor V em um sistema de coordenada espacial. Métodos similares de ilustrar fontes de som são usados nas Figuras 36 a 36C.
[0697] A Figura 37 ilustra uma representação de técnicas para obter uma interpolação espaço-temporal conforme descrito no presente documento. A unidade de interpolação espaço-temporal 50 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4 pode realizar a interpolação espaço-temporal descrita abaixo em maiores detalhes. A interpolação espaço-temporal pode incluir obter componentes espaciais de resolução superior tanto na dimensão espacial quanto na dimensão temporal. Os componentes espaciais podem ter como base uma decomposição ortogonal de um sinal de múltiplas dimensões compreendido em coeficientes ambisonic de ordem superior (HOA) (ou, como coeficientes HOA também podem ser chamados, “coeficientes harmônicos esféricos”).
[0698] No gráfico ilustrado, os vetores V1 e V2 representam vetores correspondentes de dois componentes espaciais diferentes de um sinal de múltiplas dimensões. Os componentes espaciais podem ser obtidos por uma decomposição em blocos do sinal de múltiplas dimensões. Em alguns exemplos, os componentes espaciais resultam da realização de uma forma em blocos de SVD em relação a cada bloco (que pode se referir a um quadro) de dados de áudio ambisonics de ordem superior (HOA) (em que esses dados de áudio ambisonics incluem blocos, amostras ou qualquer outra forma de dados de áudio de múltiplos canais). Uma variável M pode ser usada para indicar o comprimento de um quadro de áudio em amostras.
[0699] Em conformidade, V1 e V2 pode representar vetores correspondentes dos vetores 51k-1 V[k] de primeiro plano e os vetores 51k V[k-1] de primeiro plano para blocos sequenciais dos coeficientes HOA 11. V1 pode, por exemplo, representa um primeiro vetor dos vetores 51k V[k-1] de primeiro plano para um primeiro quadro (k-1), enquanto V2 pode representar um primeiro vetor de vetores 51k-1 V[k] de primeiro plano para um segundo e subsequente quadro (k). V1 e V2 podem representar um componente espacial para um único objeto de áudio incluído no sinal multidimensional.
[0700] Os vetores interpolados Vx para cada x são obtidos ponderando-se V1 e V2 de acordo com diversos segmentos de tempo ou “amostras de tempo”, x, para um componente temporal do sinal de múltiplas dimensões as quais os vetores interpolados Vx podem ser aplicados para suavizar o componente temporal (e, consequentemente, em alguns casos, o espacial). Assumindo-se uma composição de SVD, conforme descrito acima, a suavização dos sinais de nFG 49 pode ser obtida realizando-se uma divisão de vetor de cada vetor de amostra de tempo (por exemplo, uma amostra dos coeficientes HOA 11) com o Vx interpolado correspondente. Ou seja, U.S.[n] = HOA[n] * Vx[n]-1, em que isso representa um vetor de fileira multiplicado por um vetor de coluna produzindo, desse modo, um elemento escalar para U.S. Vx[n]-1 pode ser obtido como um pseudoinverso de Vx[n]. Em relação à ponderação de V1 e V2, V1 é ponderado proporcionalmente inferior ao longo da dimensão de tempo devido ao V2 que ocorre subsequente no tempo para Vi. Ou seja, embora os vetores 51k-1 V[k-1] de primeiro plano são componentes espaciais da decomposição, vetores 51k V[k] de primeiro plano temporariamente sequenciais representam valores diferentes do componente espacial ao longo do tempo. Em conformidade, o peso de V1 diminui enquanto o peso de V2 cresce conforme x aumenta ao longo de t. No presente documento, d1 e d2 representam pesos.
[0701] A Figura 38 é um diagrama de blocos que ilustra matrizes U.S. artificiais, USi e US2, para blocos de SVD sequenciais para um sinal multidimensional de acordo com técnicas descritas no presente documento. Os vetores V interpolados podem ser aplicados aos vetores de fileira das matrizes U.S. artificiais para recuperar o sinal de múltiplas dimensões original. Mais especificamente, a unidade de interpolação espaço-temporal 50 pode multiplicar o pseudo-inverso dos vetores V[k] de primeiro plano interpolados 53 para o resultado de sinais de nFG de multiplicação 49 pelos vetores 51k V[k] de primeiro plano (que podem ser indicados como coeficientes HOA de primeiro plano) para obter amostras interpoladas K 2, que podem ser usadas no lugar das amostras K/2 dos sinais de nFG como as primeiras amostras K/2, conforme mostrado no exemplo da Figura 38 da matriz U2.
[0702] A Figura 39 é um diagrama de blocos que ilustra a decomposição de quadros subsequentes de um sinal de ambisonics de ordem superior (HOA) com o uso de Decomposição de Valor Único e suavização dos componentes espaço-temporais de acordo com as técnicas descritas nesta revelação. O quadro n-1 e o quadro n (que também podem ser indicados como quadro n e quadro n+1) representam quadros subsequentes em tempo, em que cada quadro compreende 1.024 segmentos de tempo e tem ordem de HOA de 4, devido aos coeficientes (4+1)2 = 25. As matrizes U.S. que são matrizes U artificialmente suavizadas no quadro n-1 e no quadro n podem ser obtidas por aplicação de vetores V interpolados conforme ilustrado. Cada fileira cinza ou vetores de coluna representam um objeto de áudio. A REPRESENTAÇÃO DE HOA DE COMPUTAÇÃO DE SINAIS COM BASE EM VETOR ATIVO
[0703] O CVECk instantâneo é criado usando-se cada um dos sinais com base em vetor representados em XVECk e multiplicando-se os mesmos com seu vetor espacial correspondente (dequantizado), WECk. Cada WECk é representado em MWECk. Desse modo, para um sinal de ordem L HOA de ordem e sinais com base em vetor M, haverá sinais com base em vetor M, cada um dos quais terá dimensão dada pelo comprimento de quadro. Esses sinais podem, desse modo, ser representados como: CVECkmn, n=0,..P-1; m=0,..M-1. De modo correspondente, haverá vetores espaciais, V ECk de dimensão (1+1)2. Isso pode ser representado como asMVECkml, 1=0,.., (1+1)2-1 ;m=0,..,M-1. A representação de HOA para cada vetor com base em sinal, CVECkm, é uma multiplicação de vetor de matriz dada por:
Figure img0046
[0704] que produz uma matriz de (1+1)2 por P. A representação de HOA completa se deve à soma da contribuição de cada vetor com base em sinal como a seguir:
Figure img0047
INTERPOLAÇÃO ESPAÇO-TEMPORAL DE VETORES V
[0705] No entanto, a fim de manter continuidade espaço-temporal suave, a computação acima é apenas realizada para parte do comprimento de quadro, -5. As primeiras amostras de uma matriz de HOA são, em vez disso, realizadas usando-se um conjunto interpolado de MVECkml, m=0,..,M-1, =0,.., (1+1)2, derivado do MVECkm atual e MWECk-lm de valores anteriores. Isso resulta em um vetor espacial de densidade de tempo superior conforme se deriva um vetor para cada amostra de tempo p ,como a seguir:
Figure img0048
[0706] Para cada amostra de tempo p, um novo vetor de HOA de dimensão (L+1)2é computado como:
Figure img0049
[0707] Essas primeiras amostras são aumentadas com as amostras P-B da seção anterior para resultar na representação de HOA completa, CVECkm, do
Figure img0050
vetor com base em sinal.
[0708] No decodificador (por exemplo, o dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5), para certo som distinto, de primeiro plano ou predominante com base em vetor, o vetor V do quadro anterior e o vetor V do quadro atual podem ser interpolados com o uso de interpolação linear (ou não linear) para produzir um vetor V interpolado em resolução superior (em tempo) através de um segmento de tempo particular. A unidade de interpolação espaço-temporal 76 pode realizar essa interpolação, em que a unidade de interpolação espaço-temporal 76 pode, então, multiplicar o vetor U.S. no quadro atual com o vetor V interpolado de resolução superior para produzir a matriz de HOA através daquele segmento de tempo particular.
[0709] De modo alternativo, a unidade de interpolação espaço-temporal 76 pode multiplicar o vetor U.S. com o vetor V do quadro atual para criar uma primeira matriz de HOA. O decodificador pode adicionalmente multiplicar o vetor U.S. com o vetor V do quadro anterior para criar uma segunda matriz de HOA. A unidade de interpolação espaço-temporal 76 pode, então, aplicar interpolação linear (ou não linear) à primeira e à segunda matrizes de HOA através de um segmento de tempo particular. A emissão dessa interpolação pode corresponder àquela da multiplicação do vetor U.S. com um vetor V interpolado, devido a matrizes/vetores de inserção comuns.
[0710] A esse respeito, as técnicas podem habilitar o dispositivo de codificação de áudio 20 e/ou o dispositivo de decodificação de áudio 24 para serem configurados para operar de acordo com as cláusulas a seguir.
[0711] Cláusula 135054-1C. Um dispositivo, como o dispositivo de codificação de áudio 20 ou o dispositivo de decodificação de áudio 24, que compreende: um ou mais processadores configurados para obter uma pluralidade de componentes espaciais de resolução superior tanto em espaço quanto em tempo, em que os componentes espaciais têm como base uma decomposição ortogonal de um sinal de múltiplas dimensões que compreende coeficientes harmônicos esféricos.
[0712] Cláusula 135054-1D. Um dispositivo, como o dispositivo de codificação de áudio 20 ou o dispositivo de decodificação de áudio 24, que compreende: um ou mais processadores configurados para suavizar pelo menos um dos componentes espaciais e componentes de tempo da primeira pluralidade de coeficientes harmônicos esféricos e da segunda pluralidade de coeficientes harmônicos esféricos.
[0713] Cláusula 135054-1E. Um dispositivo, como o dispositivo de codificação de áudio 20 ou o dispositivo de decodificação de áudio 24, que compreende: um ou mais processadores configurados para obter uma pluralidade de componentes espaciais de resolução superior tanto em espaço quanto em tempo, em que os componentes espaciais têm como base uma decomposição ortogonal de um sinal de múltiplas dimensões que compreende coeficientes harmônicos esféricos.
[0714] Cláusula 135054-1G. Um dispositivo, como o dispositivo de codificação de áudio 20 ou o dispositivo de decodificação de áudio 24, que compreende: um ou mais processadores configurados para obter coeficientes harmônicos esféricos de resolução aumentada decompostos para um segmento de tempo aumentando-se, pelo menos em parte, uma resolução em relação a uma primeira decomposição de uma primeira pluralidade de coeficientes harmônicos esféricos e uma segunda decomposição de uma segunda pluralidade de coeficientes harmônicos esféricos.
[0715] Cláusula 135054-2G. O dispositivo da cláusula 135054-1G, em que a primeira decomposição compreende uma primeira matriz V representativa de vetores singulares direitos da primeira pluralidade de coeficientes harmônicos esféricos.
[0716] Cláusula 135054-3G. O dispositivo da cláusula 135054-1G, em que a segunda decomposição compreende uma segunda matriz V representativa de vetores singulares direitos da segunda pluralidade de coeficientes harmônicos esféricos.
[0717] Cláusula 135054-4G. O dispositivo da cláusula 135054-1G, em que a primeira decomposição compreende uma primeira matriz V representativa de vetores singulares direitos da primeira pluralidade de coeficientes harmônicos esféricos e, em que a segunda decomposição compreende uma segunda matriz V representativa de vetores singulares direitos da segunda pluralidade de coeficientes harmônicos esféricos.
[0718] Cláusula 135054-5G. O dispositivo da cláusula 135054-1G, em que o segmento de tempo compreende um subquadro de um quadro de áudio.
[0719] Cláusula 135054-6G. O dispositivo da cláusula 135054-1G, em que o segmento de tempo compreende uma amostra de tempo de um quadro de áudio.
[0720] Cláusula 135054-7G. O dispositivo da cláusula 135054-1G, em que o um ou mais processadores são configurados para obter uma decomposição interpolada da primeira decomposição e da segunda decomposição para um coeficiente harmônico esférico da primeira pluralidade de coeficientes harmônicos esféricos.
[0721] Cláusula 135054-8G. O dispositivo da cláusula 135054-1G, em que o um ou mais processadores são configurados para obter decomposições interpoladas da primeira decomposição para uma primeira porção da primeira pluralidade de coeficientes harmônicos esféricos incluída no primeiro quadro e a segunda decomposição para uma segunda porção da segunda pluralidade de coeficientes harmônicos esféricos incluída no segundo quadro, em que o um ou mais processadores são adicionalmente configurados para aplicar as decomposições interpoladas para um primeiro componente de tempo da primeira porção da primeira pluralidade de coeficientes harmônicos esféricos incluída no primeiro quadro para gerar um primeiro componente de tempo artificial da primeira pluralidade de coeficientes harmônicos esféricos e aplicar as respectivas decomposições interpoladas a um segundo componente de tempo da segunda porção da segunda pluralidade de coeficientes harmônicos esféricos incluída no segundo quadro para gerar um segundo componente de tempo artificial da segunda pluralidade de coeficientes harmônicos esféricos incluída.
[0722] Cláusula 135054-9G. O dispositivo da cláusula 135054-8G, em que o primeiro componente de tempo é gerado realizando-se uma síntese com base em vetor em relação à primeira pluralidade de coeficientes harmônicos esféricos.
[0723] Cláusula 135054-10G. O dispositivo da cláusula 135054-8G, em que o segundo componente de tempo é gerado realizando-se uma síntese com base em vetor em relação à segunda pluralidade de coeficientes harmônicos esféricos.
[0724] Cláusula 135054-11G. O dispositivo da cláusula 135054-8G, em que os um ou mais processadores são configurados adicionalmente para receber o primeiro componente de tempo artificial e o segundo componente de tempo artificial, computar decomposições interpoladas da primeira decomposição para a primeira porção da primeira pluralidade de coeficientes harmônicos esféricos e a segunda decomposição para a segunda porção da segunda pluralidade de coeficientes harmônicos esféricos e aplicar inversos das decomposições interpoladas ao primeiro componente de tempo artificial para recuperar o primeiro componente de tempo e ao segundo componente de tempo artificial para recuperar o segundo componente de tempo.
[0725] Cláusula 135054-12G. O dispositivo da cláusula 135054-1G, em que os um ou mais processadores são configurados para interpolar um primeiro componente espacial da primeira pluralidade de coeficientes harmônicos esféricos e o segundo componente espacial da segunda pluralidade de coeficientes harmônicos esféricos.
[0726] Cláusula 135054-13G. O dispositivo da cláusula 135054-12G, em que o primeiro componente espacial compreende uma primeira matriz U representativa de vetores singulares à esquerda da primeira pluralidade de coeficientes harmônicos esféricos.
[0727] Cláusula 135054-14G. O dispositivo da cláusula 135054-12G, em que o segundo componente espacial compreende uma segunda matriz U representativa de vetores singulares à esquerda da segunda pluralidade de coeficientes harmônicos esféricos.
[0728] Cláusula 135054-15G. O dispositivo da cláusula 135054-12G, em que o primeiro componente espacial é representativo de segmentos de tempo M de coeficientes harmônicos esféricos para a primeira pluralidade de coeficientes harmônicos esféricos e o segundo componente espacial é representativo de segmentos de tempo M de coeficientes harmônicos esféricos para a segunda pluralidade de coeficientes harmônicos esféricos.
[0729] Cláusula 135054-16G. O dispositivo da cláusula 135054-12G, em que o primeiro componente espacial é representativo de segmentos de tempo M de coeficientes harmônicos esféricos para a primeira pluralidade de coeficientes harmônicos esféricos e o segundo componente espacial é representativo de segmentos de tempo M de coeficientes harmônicos esféricos para a segunda pluralidade de coeficientes harmônicos esféricos e em que os um ou mais processadores que são configurados para obter os coeficientes harmônicos esféricos interpolados decompostos para o segmento de tempo compreendem interpolar os últimos elementos N do primeiro componente espacial e os primeiros elementos N do segundo componente espacial.
[0730] Cláusula 135054-17G. O dispositivo da cláusula 135054-1G, em que a segunda pluralidade de coeficientes harmônicos esféricos é subsequente à primeira pluralidade de coeficientes harmônicos esféricos no domínio de tempo.
[0731] Cláusula 135054- 18G. O dispositivo da cláusula 135054- 1G, em que os um ou mais processadores são configurados adicionalmente para decompor a primeira pluralidade de coeficientes harmônicos esféricos para gerar a primeira decomposição da primeira pluralidade de coeficientes harmônicos esféricos.
[0732] Cláusula 135054- 19G. O dispositivo da cláusula 135054- 1G, em que os um ou mais processadores são configurados adicionalmente para decompor a segunda pluralidade de coeficientes harmônicos esféricos para gerar a segunda decomposição da segunda pluralidade de coeficientes harmônicos esféricos.
[0733] Cláusula 135054-20G. O dispositivo da cláusula 135054- 1G, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação à primeira pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da primeira pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da primeira pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da primeira pluralidade de coeficientes harmônicos esféricos.
[0734] Cláusula 135054-21G. O dispositivo da cláusula 135054- 1G, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação à segunda pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da segunda pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da segunda pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da segunda pluralidade de coeficientes harmônicos esféricos.
[0735] Cláusula 135054-22G. O dispositivo da cláusula 135054-1G, em que cada uma da primeira e segunda pluralidade de coeficientes harmônicos esféricos representa uma representação de onda plana do campo sonoro.
[0736] Cláusula 135054-23G. O dispositivo da cláusula 135054-1G, em que cada uma da primeira e segunda pluralidade de coeficientes harmônicos esféricos representa um ou mais objetos de áudio mono misturados.
[0737] Cláusula 135054-24G. O dispositivo da cláusula 135054-1G, em que cada uma da primeira e segunda pluralidade de coeficientes harmônicos esféricos compreende respectivos primeiro e segundo coeficientes harmônicos esféricos que representam um campo sonoro tridimensional. Cláusula 135054-25G. O dispositivo da cláusula 135054-1G, em que cada uma da primeira e segunda pluralidade de coeficientes harmônicos esféricos é associada com pelo menos uma função de base esférica que tem uma ordem maior do que um (1).
[0738] Cláusula 135054-26G. O dispositivo da cláusula 135054-1G, em que cada uma da primeira e segunda pluralidade de coeficientes harmônicos esféricos é associada com pelo menos uma função de base esférica que tem uma ordem igual a quatro.
[0739] Cláusula 135054-27G. O dispositivo da cláusula 135054-1G, em que a interpolação é uma interpolação ponderada da primeira decomposição e segunda decomposição, em que pesos da interpolação ponderada aplicados à primeira decomposição são inversamente proporcionais a um tempo representado por vetores da primeira e segunda decomposição e em que pesos da interpolação ponderada aplicados à segunda decomposição são proporcionais a um tempo representado por vetores da primeira e da segunda decomposição.
[0740] Cláusula 135054-28G. O dispositivo da cláusula 135054-1G, em que os coeficientes harmônicos esféricos interpolados decompostos suavizam pelo menos um dentre componentes espaciais e componentes temporais da primeira pluralidade de coeficientes harmônicos esféricos e da segunda pluralidade de coeficientes harmônicos esféricos.
[0741] As Figuras 40A a 40J são cada uma um diagrama de blocos que ilustra dispositivos de codificação de áudio exemplificativos 510A a 510J que podem realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descrevem campos sonoros bi ou tridimensionais. Em cada um dos exemplos das Figuras 40A a 40J, cada um dos dispositivos de codificação de áudio 510A e 510B, em alguns exemplos, representa qualquer dispositivo capaz de codificar dados de áudio, tais como um computador de mesa, um computador portátil, uma estação de trabalho, um computador tipo tablet ou slate, um dispositivo de gravação de áudio dedicado, um telefone celular (incluindo os chamados “telefones inteligentes””), um dispositivo de reprodução de mídia pessoal, um dispositivo de jogos pessoal, ou qualquer outro tipo de dispositivo capaz de codificar dados de áudio.
[0742] Embora mostrados como um único dispositivo, isto é, os dispositivos 510A a 510J nos exemplos das Figuras 40A a 40J, os vários componentes ou unidades referenciados abaixo como incluídos dentro dos dispositivos 510A a 510J podem na realidade formar dispositivos separados que são externos dos dispositivos 510A a 510J. Em outras palavras, embora descritos nesta revelação como realizados por um único dispositivo, isto é, os dispositivos 510A a 510J nos exemplos das Figuras 40A a 40J, as técnicas podem ser implantadas ou do contrário realizadas por um sistema que compreende múltiplos dispositivos, onde cada um desses dispositivos pode incluir um ou mais dos vários componentes ou unidades descritos em mais detalhes abaixo. Em conformidade, as técnicas não devem ser limitadas aos exemplos da Figura 40A a 40J.
[0743] Em alguns exemplos, os dispositivos de codificação de áudio 510A a 510J representam dispositivos de codificação de áudio alternativos àqueles descritos acima com relação aos exemplos das Figuras 3 e 4. Por toda a discussão abaixo de dispositivos de codificação de áudio 510A a 510J várias similaridades em termos de operação são observadas com relação às várias unidades 30 a 52 do dispositivo de codificação de áudio 20 descrito acima com relação à Figura 4. Em muitos aspectos, os dispositivos de codificação de áudio 510A a 510J pode, conforme descrito abaixo, operar de uma maneira substancialmente similar ao dispositivo de codificação de áudio 20 embora com leves desvios ou modificações.
[0744] Conforme mostrado nos exemplos da Figura 40A, o dispositivo de codificação de áudio 510A compreende uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de fluxo de bits 516. A unidade de compressão de áudio 512 pode representar uma unidade que comprime coeficientes harmônicos esféricos (SHC) 511 (“SHC 511”), que podem também ser denotados como coeficientes de ambisonics de ordem superior (HO A) 511. Em alguns casos, a unidade de compressão de áudio 512 representa uma unidade que pode comprimir de modo sem perdas ou realizar compressão com perdas em relação aos SHC 511. O SHC 511 pode representar uma pluralidade de SHCs, em que pelo menos um da pluralidade de SHC corresponde a uma função de base esférica que tem uma ordem maior do que um (1) (em que SHC dessa variedade são denominados como ambisonics de ordem superior (HOA) de modo a distinguir de ambisonics de ordem inferior dos quais um exemplo é o chamado “formato B”), conforme descrito em mais detalhes acima. Embora a unidade de compressão de áudio 512 possa comprimir de modo sem perdas os SHC 511, em alguns exemplos, a unidade de compressão de áudio 512 remove os SHC 511 que não são salientes ou relevantes em descrever o campo sonoro quando reproduzidos (em que alguns podem não ser capazes de serem ouvidos pelo sistema auditor humano). Neste sentido, a natureza com perdas dessa compressão pode não impactar excessivamente a qualidade percebida do campo sonoro quando reproduzido a partir da versão comprimida dos SHC 511.
[0745] No exemplo da Figura 40A, a unidade de compressão de áudio inclui uma unidade de decomposição 518 e uma unidade de extração de componente de campo sonoro 520. A unidade de decomposição 518 pode ser similar à unidade de transformação invertível linear 30 do dispositivo de codificação de áudio 20. Isto é, a unidade de decomposição 518 pode representar uma unidade configurada para realizar uma forma de análise denominada como decomposição de valor singular. Embora descritas em relação a SVD, as técnicas podem ser realizadas em relação a qualquer transformação ou decomposição similar que forneça conjuntos de dados não corrigidos linearmente. Também, referência a “conjuntos” nesta revelação é destinada a se referir a conjuntos “diferentes de zero” a menos que afirmado especificamente o contrário e não é destinada a se referir à definição matemática clássica de conjuntos que inclui o chamado “conjunto vazio”.
[0746] De qualquer forma, a unidade de decomposição 518 realiza uma decomposição de valor singular (que, novamente, pode ser denotada por seu acrônimo “SVD”) para transformar os coeficientes harmônicos esféricos 511 em dois ou mais conjuntos de coeficientes harmônicos esféricos transformados. No exemplo da Figura 40, a unidade de decomposição 518 pode desempenhar a SVD em relação aos SHC 511 para gerar uma chamada matriz V 519, uma matriz S 519B e uma matriz U 519C. No exemplo da Figura 40, a unidade de decomposição 518 emite cada uma das matrizes separadamente ao invés de emitir os vetores de U.S.[k] em forma combinada conforme discutido acima em relação à unidade de transformação invertível linear 30.
[0747] Conforme observado acima, a matriz V* na expressão matemática de SVD referenciada acima é denotada como a transposta conjugada da matriz V para refletir que a SVD pode ser aplicada a matrizes que compreendem números complexos. Quando aplicado a matrizes que compreendem apenas números reais, o conjugado complexo da matriz V (ou, em outras palavras, a matriz V*) pode ser considerado igual à matriz V. Abaixo é presumido, para facilidade de propósitos de ilustração, que os SHC 511 compreendem números reais com o resultado de que a matriz V é emitida através de SVD ao invés da matriz V*. Embora presumidas como a matriz V, as técnicas podem ser aplicadas de uma maneira similar aos SHC 511 que têm coeficientes complexos, em que a saída da SVD é a matriz V*. Em conformidade, as técnicas não devem ser limitadas neste aspecto apenas para fornecer aplicação de SVD para gerar uma matriz V, mas podem incluir aplicação de SVD a SHC 511 que têm componentes complexos para gerar uma matriz V*.
[0748] De qualquer forma, a unidade de decomposição 518 pode realizar uma forma em blocos de SVD em relação a cada bloco (que podem se referir a um quadro) de dados de áudio de ambisonics de ordem superior (HOA) (em que esses dados de áudio de ambisonics incluem blocos ou amostras dos SHC 511 ou qualquer outra forma de dados de áudio de multicanal). Uma variável M pode ser usada para denotar o comprimento de um quadro de áudio em amostras. Por exemplo, quando um quadro de áudio inclui 1024 amostras de áudio, M é igual a 1024. A unidade de decomposição 518 pode, portanto, realizar uma SVD em blocos em relação a um bloco, sendo que os SHC 511 têm SHC de M-por-(N+1)2, em que N, novamente, denota a ordem dos dados de áudio de HOA. A unidade de decomposição 518 pode gerar, através da realização dessa SVD, a matriz V 519, a matriz S 519B e a matriz U 519C, em que cada uma das matrizes 519 a 519C (“matrizes 519”) pode representar as respectivas matrizes V, S e U descritas em mais detalhes acima. A unidade de decomposição 518 pode passar ou emitir essas matrizes 519A para uma unidade de extração de componente de campo sonoro 520. A matriz V 519A pode ser de tamanho (N+1)2-por-(N+1)2, a matriz S 519B pode ser de tamanho (N+1)2-por-(N+1)2 e a matriz U pode ser de tamanho M-por-(N+1)2, em que M se refere ao número de amostras em um quadro de áudio. Um valor típico para M é 1024, embora as técnicas desta revelação não devem ser limitadas a esse valor típico para matriz diagonal.
[0749] A unidade de extração de componente de campo sonoro 520 pode representar uma unidade configurada para determinar e então extrair componentes distintos do campo sonoro e componentes de segundo plano do campo sonoro, separando de modo eficaz os componentes distintos do campo sonoro dos componentes de segundo plano do campo sonoro. Nesse aspecto, a unidade de extração de componente de campo sonoro 520 pode realizar muitas das operações descritas acima em relação à unidade de análise de campo sonoro 44, a unidade de seleção de segundo plano 48 e a unidade de seleção de primeiro plano 36 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. Dado que componentes distintos do campo sonoro, em alguns exemplos, exigem funções de base de ordem superior (relativos a componentes de segundo plano do campo sonoro) (e, portanto, mais SHC) para representar precisamente a natureza distinta destes componentes, separar os componentes distintos dos componentes de segundo plano pode habilitar que mais bits sejam alocados aos componentes distintos e menos bits sejam (relativamente falando) sejam alocados aos componentes de segundo plano. Em conformidade, através da aplicação dessa transformação (na forma de SVD) ou qualquer outra forma de transformação, incluindo PCA), as técnicas descritas nesta revelação podem facilitar a alocação de bits a vários SHC e, dessa forma, a compressão dos SHC 511.
[0750] Ademais, as técnicas podem também habilitar, conforme descrito em mais detalhes abaixo em relação à Figura 40B, uma redução de ordem dos componentes de segundo plano do campo sonoro dado que funções de base de ordem superior não são, em alguns exemplos, necessárias para representar essas porções de segundo plano do campo sonoro dada a natureza difusa ou de segundo plano desses componentes. As técnicas podem, portanto, habilitar compressão de aspectos difusos ou de segundo plano do campo sonoro enquanto preservam os componentes ou aspectos distintos salientes do campo sonoro através da aplicação de SVD aos SHC 511.
[0751] Conforme mostrado adicionalmente no exemplo da Figura 40, a unidade de extração de componente de campo sonoro 520 inclui uma unidade de transposta 522, uma unidade de análise de componente saliente 524 e uma unidade de matemática 526. A unidade de transposta 522 representa uma unidade configurada para transpor a matriz V 519A para gerar uma transposta da matriz V 519, que é denotada como a “matriz VT 523.” A unidade de transposta 522 pode emitir essa matriz VT 523 para a unidade de matemática 526. A matriz VT 523 pode ser de tamanho (N+1)2- por-(N+1)2.
[0752] A unidade de análise de componente saliente 524 representa uma unidade configurada para realizar uma análise de saliência em relação à matriz S 519B. A unidade de análise de componente saliente 524 pode, nesse aspecto, realizar operações similares àquelas descritas acima em relação à unidade de análise de campo sonoro 44 do dispositivo de codificação de áudio 20 mostrada no exemplo da Figura 4. A unidade de análise de componente saliente 524 pode analisar os valores diagonais da matriz S 519B, selecionar um número de variável D desses componentes que tem o valor maior. Em outras palavras, a unidade de análise de componente saliente 524 pode determinar o valor D, que separa os dois subespaços (por exemplo, o subespaço de primeiro plano ou predominante e o subespaço de segundo plano ou ambiente), analisando-se o declive da curva criado pelos valores diagonais descendentes de S, em que os valores singulares grandes representam sons de primeiro plano ou distintos e os valores singulares baixos representam componentes de segundo plano do campo sonoro. Em alguns exemplos, a unidade de análise de componente saliente 524 pode usar um primeiro e um segundo derivado da curva de valor singular. A unidade de análise de componente saliente 524 pode também limitar o número D para estar entre um e cinco. Conforme outro exemplo, a unidade de análise de componente saliente 524 pode limitar o número D para estar entre um e (N+1)2. Alternativamente, a unidade de análise de componente saliente 524 pode pré-definir o número D, tal como um valor de quatro. De qualquer forma, uma vez que o número D é estimado, a unidade de análise de componente saliente 24 extrai o subespaço de primeiro plano e de segundo plano das matrizes U, V e S.
[0753] Em alguns exemplos, a unidade de análise de componente saliente 524 pode realizar essa análise em todas as amostras M, que podem ser reafirmadas como em uma base de quadro a quadro. Nesse aspecto, D pode variar de quadro para quadro. Em outros exemplos, a unidade de análise de componente saliente 24 pode realizar essa análise mais do que uma vez por quadro, analisando duas ou mais porções do quadro. Em conformidade, as técnicas não devem ser limitadas nesse aspecto aos exemplos descritos nessa revelação.
[0754] Na realidade, a unidade de análise de componente saliente 524 pode analisar os valores singulares da diagonal matriz, que é detonada como a matriz S 519B no exemplo da Figura 40, identificando esses valores que têm um valor relativo maior do que os outros valores da matriz S 519B diagonal. A unidade de análise de componente saliente 524 pode identificar valores D, extraindo esses valores para gerar a matriz SDIST 525A e a matriz SBG 525B. A matriz SDIST 525A pode representar uma matriz diagonal que compreende colunas D que têm (N+1)2 da matriz S 519B original. Em alguns casos, a matriz SBG 525B pode representar uma matriz que tem (N+1)2-colunas D, cada uma das quais inclui (N+1)2 coeficientes harmônicos esféricos transformados da matriz S 519B original. Embora descrita como uma matriz SDIST que representa uma matriz que compreende colunas D que têm (N+1)2 valores da matriz S 519B original, a unidade de análise de componente saliente 524 pode truncar essa matriz para gerar uma matriz SDIST que tem colunas D que têm valores D da matriz S 519B original, dado que a matriz S 519B é uma matriz diagonal e os (N+1)2 valores das colunas D após o valor em cada coluna ser muitas vezes um valor de zero. Embora descrita em relação a uma matriz SDIST 525A completa e uma matriz SBG 525B completa, as técnicas podem ser implantadas em relação a versões truncadas dessa matriz SDIST 525 A e uma versão truncada dessa matriz SBG 525B. Em conformidade, as técnicas dessa revelação não devem ser limitadas nesse aspecto.
[0755] Em outras palavras, a matriz SDIST 525A pode ser de um tamanho D-por-(N+1)2, enquanto a matriz SBG 525B pode ser de um tamanho (N+1)2-D-por-(N+1)2. A matriz SDIST 525A pode incluir aqueles componentes principais ou, em outras palavras, valores singulares que são determinados como salientes em termos de serem componentes de áudio distintos (DIST) do campo sonoro, enquanto a matriz SBG 525B pode incluir aqueles valores singulares que são determinados como segundo plano (BG) ou, em outras palavras, ambiente ou componentes de áudio não distintos do campo sonoro. Embora mostradas como matrizes separadas 525A e 525B no exemplo da Figura 40, as matrizes 525A e 525B podem ser especificadas como uma única matriz com o uso da variável D para denotar o número de colunas (da esquerda para a direita) dessa única matriz que representa a matriz SDIST 525. Em alguns exemplos, a variável D pode ser definida como quatro.
[0756] A unidade de análise de componente saliente 524 pode também analisar a matriz U 519C para gerar a matriz UDIST 525C e a matriz UBG 525D. Muitas vezes, a unidade de análise de componente saliente 524 pode analisar a matriz S 519B para identificar a variável D, gerando a matriz UDIST 525C e a matriz UBG 525B com base na variável D. Isto é, após identificar as colunas D da matriz S 519B que são salientes, a unidade de análise de componente saliente 524 pode dividir a matriz U 519C com base nessa variável D determinada. Nesse caso, a unidade de análise de componente saliente 524 pode gerar a matriz UDIST 525C para incluir as colunas D (da esquerda para a direita) dos (N+1)2 coeficientes harmônicos esféricos transformados da matriz U 519C original e da matriz UBG 525D para incluir as (N+1)2-colunas D restantes dos (N+1)2 coeficientes harmônicos esféricos transformados da matriz U 519C original. A matriz UDIST 525C pode ser de um tamanho de M- por-D, enquanto a matriz UBG 525D pode ser de um tamanho de M-por-(N+1)2-D. Enquanto mostradas como matrizes separadas 525C e 525D no exemplo da Figura 40, as matrizes 525C e 525D podem ser especificadas como uma única matriz com o uso da variável D para denotar o número de colunas (da esquerda para a direita) dessa única matriz que representa a matriz UDIST 525B.
[0757] A unidade de análise de componente saliente 524 pode também analisar a matriz VT 523 para gerar a matriz VTDIST 525E e a matriz VTBG 525F. Muitas vezes, a unidade de análise de componente saliente 524 pode analisar a matriz S 519B para identificar a variável D, gerando a matriz VTDIST 525E e a matriz VBG 525F com base na variável D. Isto é, após identificar as colunas D da matriz S 519B que são salientes, a unidade de análise de componente saliente 254 pode dividir a matriz V 519A com base nessa variável D determinada. Nesse caso, a unidade de análise de componente saliente 524 pode gerar a matriz VTDIST 525E para incluir as (N+1)2 fileiras (de cima para baixo) dos valores D da matriz VT 523 original e da matriz VTBG 525F para incluir as (N+1)2 fileiras restantes dos (N+1)2-valores D da matriz VT 523 original. A matriz VTDIST 525E pode ser de um tamanho de (N+1)2-por-D, enquanto a matriz VTBG 525D pode ser de um tamanho de (N+1)2-por- (N+1)2-D. Embora mostradas como matrizes separadas 525E e 525F no exemplo da Figura 40, as matrizes 525E e 525F podem ser especificadas como uma única matriz com o uso da variável D para denotar o número de colunas (da esquerda para a direita) dessa única matriz que representa a matriz VDIST 525e. A unidade de análise de componente saliente 524 pode emitir a matriz SDIST 525, a matriz SBG 525B, a matriz UDIST 525C, a matriz UBG 525D e a matriz VTBG 525F para a unidade de matemática 526, enquanto também emite a matriz VTDIST 525E para a unidade de geração de corrente de bits 516.
[0758] A unidade de matemática 526 pode representar uma unidade configurada para desempenhar multiplicações de matriz ou qualquer outra operação matemática capaz de ser realizada em relação a uma ou mais matrizes (ou vetores). Mais especificamente, conforme mostrado no exemplo da Figura 40, a unidade de matemática 526 pode representar uma unidade configurada para realizar uma multiplicação de matriz para multiplicar a matriz UDIST 525C pela matriz SDIST 525A para gerar vetores UDIST * SDIST 527 de tamanho M-por-D. A unidade de matemática da matriz 526 pode também representar uma unidade configurada para realizar uma multiplicação de matriz para multiplicar a matriz UBG 525D pela matriz SBG 525B e então pela matriz VTBG 525F para gerar a matriz UBG * SBG * VTBG 525F para gerar coeficientes harmônicos esféricos de segundo plano 531 de tamanho M-por-(N+1)2 (que podem representar aqueles de coeficientes harmônicos esféricos 511 representativos de componentes de segundo plano do campo sonoro). A unidade de matemática 526 pode emitir os vetores UDIST * SDIST 527 e os coeficientes harmônicos esféricos de segundo plano 531 para a unidade de codificação de áudio 514.
[0759] O dispositivo de codificação de áudio 510, portanto, difere do dispositivo de codificação de áudio 20 em que o dispositivo de codificação de áudio 510 inclui essa unidade de matemática 526 configurada para gerar os vetores UDIST * SDIST 527 e os coeficientes harmônicos esféricos de segundo plano 531 através de multiplicação de matriz no final do processo de codificação. A unidade de transformação invertível linear 30 do dispositivo de codificação de áudio 20 realiza a multiplicação das matrizes U e S para emitir os vetores U.S.[k] 33 no início relativo do processo de codificação, que pode facilitar operações futuras, tal como renderização, não mostrada no exemplo da Figura 40. Ademais, o dispositivo de codificação de áudio 20, ao invés de recuperar os SHC de segundo plano 531 no final do processo de codificação, seleciona os coeficientes de HOA de segundo plano 47 diretamente dos coeficientes de HOA 11, evitando potencialmente, dessa forma, multiplicações de matriz para recuperar os SHC de segundo plano 531.
[0760] A unidade de codificação de áudio 514 pode representar uma unidade que realiza uma forma de codificação para comprimir adicionalmente os vetores UDIST * SDIST 527 e os coeficientes harmônicos esféricos de segundo plano 531. A unidade de codificação de áudio 514 pode operar de uma maneira substancialmente similar à unidade de codificador de áudio psicoacústico 40 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. Em alguns casos, essa unidade de codificação de áudio 514 pode representar um ou mais casos de uma unidade que codifica codificação de áudio avançada (AAC). A unidade de codificação de áudio 514 pode codificar cada coluna ou fileira dos vetores UDIST * SDIST 527. Muitas vezes, a unidade de codificação de áudio 514 pode invocar um exemplo de uma unidade que codifica AAC para cada uma das combinações de ordem/subordem restantes nos coeficientes harmônicos esféricos de segundo plano 531. Mais informações em relação a como os coeficientes harmônicos esféricos de segundo plano 531 podem ser codificados com o uso de uma unidade que codifica AAC pode ser encontrada em um artigo de convenção por Eric Hellerud, et al., intitulado “Encoding Higher Order Ambisonics with AAC,” apresentado na 124a Convenção, 17 a 20 de maio de 2008 e disponível em: http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025&conte xt=engpapers. A unidade de codificação de áudio 14 pode emitir uma versão codificada dos vetores UDIST* SDIST 527 (denotados “vetores UDIST * SDIST codificados 515”) e uma versão codificada dos coeficientes harmônicos esféricos de segundo plano 531 (denotados “coeficientes harmônicos esféricos de segundo plano codificados 515B”) para a unidade de geração de corrente de bits 516. Em alguns casos, a unidade de codificação de áudio 514 pode codificar o áudio de coeficientes harmônicos esféricos de segundo plano 531 com o uso de uma taxa-alvo de bits inferior à usada para codificar os vetores UDIST * SDIST 527, comprimindo potencialmente, dessa forma, os coeficientes harmônicos esféricos de segundo plano 531 mais em comparação aos vetores UDIST * SDIST 527.
[0761] A unidade de geração de corrente de bits 516 representa uma unidade que formata dados para estarem em conformidade com um formato conhecido (que pode se referir a um formato conhecido por um dispositivo de decodificação), gerando, dessa forma, o fluxo de bits 517. A unidade de geração de corrente de bits 42 pode operar de uma maneira substancialmente similar à descrita acima em relação à unidade de geração de corrente de bits 42 do dispositivo de codificação de áudio 24 mostrada no exemplo da Figura 4. A unidade de geração de corrente de bits 516 pode incluir um multiplexador que multiplexa os vetores UDIST * SDIST codificados 515, os coeficientes harmônicos esféricos de segundo plano codificados 515B e a matriz VTDIST 525E.
[0762] A Figura 40B é um diagrama de blocos que ilustra um dispositivo de codificação de áudio 510B exemplificativo que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descreve campos sonoros bi ou tridimensional. O dispositivo de codificação de áudio 510B pode ser similar ao dispositivo de codificação de áudio 510 em que o dispositivo de codificação de áudio 510B inclui uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de corrente de bits 516. Ademais, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510B pode ser similar à do dispositivo de codificação de áudio 510 em que a unidade de compressão de áudio 512 includes a unidade de decomposição 518. A unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510B pode ser diferente da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510 em que a unidade de extração de componente de campo sonoro 520 inclui uma unidade adicional, denotada como unidade de redução de ordem 528A (“unidade de redução de ordem 528”). Por essa razão, a unidade de extração de componente de campo sonoro 520 do dispositivo de codificação de áudio 510B é denotada como a “unidade de extração de componente de campo sonoro 520B.”
[0763] A unidade de redução de ordem 528A representa uma unidade configurada para realizar redução de ordem adicional dos coeficientes harmônicos esféricos de segundo plano 531. Em alguns casos, a unidade de redução de ordem 528A pode girar o campo sonoro representado pelos coeficientes harmônicos esféricos de segundo plano 531 para reduzir o número de coeficientes harmônicos esféricos de segundo plano 531 necessários para representar o campo sonoro. Em alguns casos, dado que os coeficientes harmônicos esféricos de segundo plano 531 representam componentes de segundo plano do campo sonoro, a unidade de redução de ordem 528A pode remover, eliminar ou do contrário deletar (muitas vezes zerando) aqueles dentre os coeficientes harmônicos esféricos de segundo plano 531 que correspondem a funções de base esférica de ordem superior. Nesse aspecto, a unidade de redução de ordem 528A pode realizar operações similares à unidade de seleção de segundo plano 48 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. A unidade de redução de ordem 528A pode emitir uma versão reduzida dos coeficientes harmônicos esféricos de segundo plano 531 (denotados como “coeficientes harmônicos esféricos de segundo plano reduzidos 529”) para a unidade de codificação de áudio 514, que pode realizar codificação de áudio de uma maneira descrita acima para codificar os coeficientes harmônicos esféricos de segundo plano reduzidos 529 e gerar, dessa forma, os coeficientes harmônicos esféricos de segundo plano reduzidos codificados 515B.
[0764] As várias cláusulas abaixo podem apresentar vários aspectos das técnicas descritas nesta revelação.
[0765] Cláusula 132567-1. Um dispositivo, tal como o dispositivo de codificação de áudio 510 ou o dispositivo de codificação de áudio 510B, que compreende: um ou mais processadores configurados para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e representar a pluralidade de coeficientes harmônicos esféricos como uma função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V.
[0766] Cláusula 132567-2. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são configurados adicionalmente para gerar um fluxo de bits para incluir a representação da pluralidade de coeficientes harmônicos esféricos como um ou mais vetores da matriz U, da matriz S e da matriz V que incluem combinações das mesmas ou derivados das mesmas.
[0767] Cláusula 132567-3. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são descritos adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, determinam um ou mais vetores UDIST inclusos dentro da matriz U que descrevem componentes distintos do campo sonoro.
[0768] Cláusula 132567-4. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UDIST inclusos dentro da matriz U que descrevem componentes distintos do campo sonoro, determinar um ou mais vetores SDIST inclusos dentro da matriz S que também descrevem os componentes distintos do campo sonoro e multiplicar os um ou mais vetores UDIST e os um ou mais vetores SDIST para gerar os vetores UDIST * SDIST.
[0769] Cláusula 132567-5. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UDIST inclusos dentro da matriz U que descrevem componentes distintos do campo sonoro, determinar um ou mais vetores SDIST inclusos dentro da matriz S que também descrevem os componentes distintos do campo sonoro e multiplicar os um ou mais vetores UDIST e os um ou mais vetores SDIST para gerar um ou mais vetores UDIST * SDIST e em que os um ou mais processadores são configurados adicionalmente para codificar por áudio os um ou mais vetores UDIST * SDIST para gerar uma versão codificada de áudio dos um ou mais vetores UDIST * SDIST.
[0770] Cláusula 132567-6. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são descritos adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UBG inclusos dentro da matriz U.
[0771] Cláusula 132567-7. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, analisar a matriz S para identificar componentes de segundo plano e distintos do campo sonoro.
[0772] Cláusula 132567-8. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, analisar a matriz S para identificar componentes de segundo plano e distintos do campo sonoro e determinar, com base na análise da matriz S, um ou mais vetores UDIST da matriz U que descrevem componentes distintos do campo sonoro e um ou mais vetores UBG da matriz U que descrevem componentes de segundo plano do campo sonoro.
[0773] Cláusula 132567-9. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, analisar a matriz S para identificar componentes de segundo plano e distintos do campo sonoro ema base de quadro de áudio por quadro de áudio e determinar, com base na análise de quadro de áudio por quadro de áudio da matriz S, um ou mais vetores UDIST da matriz U que descrevem componentes distintos do campo sonoro e um ou mais vetores UBG da matriz U que descrevem componentes de segundo plano do campo sonoro.
[0774] Cláusula 132567-10. O dispositivo da cláusula 132567-1, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, analisar a matriz S para identificar componentes de segundo plano e distintos do campo sonoro, determinar, com base na análise da matriz S, um ou mais vetores UDIST da matriz U que descrevem componentes distintos do campo sonoro e um ou mais vetores UBG da matriz U que descrevem componentes de segundo plano do campo sonoro, determinando, com base na análise da matriz S, um ou mais vetores SDIST e um ou mais vetores SBG da matriz S que correspondem aos um ou mais vetores UDIST e aos um ou mais vetores UBG e determinar, com base na análise da matriz S, um ou mais vetores VTDIST e um ou mais vetores VTBG de uma transposta da matriz V que correspondem aos um ou mais vetores UDIST e aos um ou mais vetores UBG.
[0775] Cláusula 132567-11. O dispositivo da Cláusula 132567-11. O dispositivo da cláusula 132567-10, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos adicionalmente, multiplicar os um ou mais vetores UBG pelos um ou mais vetores SBG e então por um ou mais vetores VTBG para gerar um ou mais vetores UBG * SBG * VTBG e em que os um ou mais processadores são configurados adicionalmente para codificar por áudio os vetores UBG * SBG * VTBG para gerar uma versão codificada de áudio dos vetores UBG * SBG * VTBG.
[0776] Cláusula 132567-12. O dispositivo da cláusula 132567-10, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, multiplicar os um ou mais vetores UBG pelos um ou mais vetores SBG e então por um ou mais vetores VTBG para gerar um ou mais vetores UBG * SBG * VTBG e realizar um processo de redução de ordem para eliminar aqueles dentre os coeficientes dos um ou mais vetores UBG * SBG * VTBG associados com uma ou mais ordens de funções de base harmônica esférica e gerar, dessa forma, uma versão de ordem reduzida do um ou mais vetores UBG * SBG * VTBG.
[0777] Cláusula 132567-13. O dispositivo da cláusula 132567-10, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, multiplicar os um ou mais vetores UBG pelos um ou mais vetores SBG e então por um ou mais vetores VTBG para gerar um ou mais vetores UBG * SBG * VTBG e realizar um processo de redução de ordem para eliminar aqueles dentre os coeficientes dos um ou mais vetores UBG * SBG * VTBG associados com uma ou mais ordens de funções de base harmônica esférica e gerar, dessa forma, uma versão de ordem reduzida dos um ou mais vetores UBG * SBG * VTBG e em que os um ou mais processadores são configurados adicionalmente para codificar por áudio a versão de ordem reduzida dos um ou mais vetores UBG * SBG * VTBG para gerar uma versão codificada de áudio dos um ou mais vetores UBG * SBG * VTBG de ordem reduzida.
[0778] Cláusula 132567-14. O dispositivo da cláusula 132567-10, em que os um ou mais processadores são configurados adicionalmente para, quando representam a pluralidade de coeficientes harmônicos esféricos, multiplicar os um ou mais vetores UBG pelos um ou mais vetores SBG e então por um ou mais vetores VTBG para gerar um ou mais vetores UBG * SBG * VTBG e realizar um processo de redução de ordem para eliminar aqueles dentre os coeficientes dos um ou mais vetores UBG * SBG * VTBG associados com uma ou mais ordens maiores do que um (1) de funções de base harmônica esférica e gerar, dessa forma, uma versão de ordem reduzida dos um ou mais vetores UBG * SBG * VTBG e codificar por áudio a versão de ordem reduzida dos um ou mais vetores UBG * SBG * VTBG para gerar uma versão codificada de áudio dos um ou mais vetores UBG * SBG * VTBG de ordem reduzida.
[0779] Cláusula 132567-15. O dispositivo da cláusula 132567-10, em que os um ou mais processadores são configurados adicionalmente para gerar um fluxo de bits para incluir os um ou mais vetores DIST.
[0780] Cláusula 132567-16. O dispositivo da cláusula 132567-10, em que os um ou mais processadores são configurados adicionalmente para gerar um fluxo de bits para incluir o um ou mais vetores VTDIST sem codificar por áudio os um ou mais vetores VTDIST.
[0781] Cláusula 132567-1F. Um dispositivo, tal como o dispositivo de codificação de áudio 510 ou 510B, que compreende um ou mais processadores para realizar uma decomposição de valor singular em relação aos dados de áudio de multicanal representativos de pelo menos uma porção do campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda dos dados de áudio de multicanal, uma matriz S representativa de valores singulares dos dados de áudio de multicanal e uma matriz V representativa de vetores singulares à direita dos dados de áudio de multicanal e representar os dados de áudio de multicanal como uma função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V.
[0782] Cláusula 132567-2F. O dispositivo da cláusula 132567-1F, em que os dados de áudio de multicanal compreende uma pluralidade de coeficientes harmônicos esféricos.
[0783] Cláusula 132567-3F. O dispositivo da cláusula 132567-2F, em que os um ou mais processadores são configurados adicionalmente para realizar conforme recitado por qualquer combinação das cláusulas 132567-2 a 132567-16.
[0784] De cada uma das várias cláusulas descritas acima, deve ser compreendido que quaisquer dos dispositivos de codificação de áudio 510A a 510J podem realizar um método ou do contrário compreender meios de realizar cada etapa do método para qual o dispositivo de codificação de áudio 510A a 510J é configurado para realizar. Em alguns casos, esses meios podem compreender um ou mais processadores. Em alguns casos, os um ou mais processadores podem representar um processador de propósito especial configurado por meio de instruções armazenadas em um meio de armazenamento legível por computador não transitório. Em outras palavras, vários aspectos das técnicas em cada um dos conjuntos de exemplos de codificação podem fornecer um meio de armazenamento legível por computador não transitório que tem instruções armazenadas no mesmo que, quando executadas, fazem os um ou mais processadores realizarem o método para qual o dispositivo de codificação de áudio 510A a 510J foi configurado para realizar.
[0785] Por exemplo, uma cláusula 132567-17 pode ser derivada da cláusula antecedente 132567-1 para ser um método que compreende realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e que representa a pluralidade de coeficientes harmônicos esféricos como uma função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V.
[0786] Conforme outro exemplo, uma cláusula 132567-18 pode ser derivada da cláusula antecedente 1325671 para ser um dispositivo, tal como o dispositivo de codificação de áudio 510B, que compreende meios para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e meios para representar a pluralidade de coeficientes harmônicos esféricos como uma função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V.
[0787] Conforme ainda outro exemplo, uma cláusula 132567-18 pode ser derivada da cláusula antecedente 132567-1 para ser um meio de armazenamento legível por computador não transitório que tem instruções armazenadas no mesmo que, quando executadas, fazem um ou mais processadores realizarem uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e representar a pluralidade de coeficientes harmônicos esféricos como uma função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V.
[0788] Várias cláusulas podem de modo semelhante ser derivadas de cláusulas 132567-2 a 132567-16 para os vários dispositivos, métodos e o meio de armazenamento legível por computador não transitório derivados conforme exemplificado acima. O mesmo pode ser realizado para as várias cláusulas listadas por toda esta revelação.
[0789] A Figura 40C é um diagrama de blocos que ilustra dispositivos de codificação de áudio 510C exemplificativo que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir sonoros bi ou tridimensional. O dispositivo de codificação de áudio 510C pode ser similar ao dispositivo de codificação de áudio 510B em que o dispositivo de codificação de áudio 510C inclui uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de corrente de bits 516. Ademais, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510C pode ser similar à do dispositivo de codificação de áudio 510B em que a unidade de compressão de áudio 512 includes a unidade de decomposição 518.
[0790] A unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510C pode, entretanto, ser diferente da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510B em que a unidade de extração de componente de campo sonoro 520 inclui uma unidade adicional, denotada como unidade de reordenação de vetor 532. Por essa razão, a unidade de extração de componente de campo sonoro 520 do dispositivo de codificação de áudio 510C é denotada como a “unidade de extração de componente de campo sonoro 520C.”
[0791] A unidade de reordenação de vetor 532 pode representar uma unidade configurada para reordenar os vetores UDIST * SDIST 527 para gerar um ou mais vetores UDIST * SDIST reordenados 533. Nesse aspecto, a unidade de reordenação de vetor 532 pode operar de uma maneira similar à descrita acima em relação à unidade de reordenação 34 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. A unidade de extração de componente de campo sonoro 520C pode invocar a unidade de reordenação de vetor 532 para reordenar os vetores UDIST * SDIST 527 devido ao fato de que a ordem dos vetores UDIST * SDIST 527 (em que cada vetor dos vetores UDIST * SDIST 527 pode representar um ou mais objetos de áudio mono distintos presentes no campo sonoro) pode variar a partir de porções dos dados de áudio pela razão observada acima. Isto é, dado que a unidade de compressão de áudio 512, em alguns exemplos, opera nessas porções dos dados de áudio geralmente denominadas quadros de áudio (que podem ter amostras M dos coeficientes harmônicos esféricos 511, em que M é, em alguns exemplos, definido como 1024), a posição de vetores que correspondem a esses objetos de áudio mono distintos conforme representado na matriz U 519C da qual os vetores UDIST * SDIST 527 são derivados pode variar de quadro de áudio a quadro de áudio.
[0792] Passar esses vetores UDIST * SDIST 527 diretamente para a unidade de codificação de áudio 514 sem reordenar esses vetores UDIST * SDIST 527 de quadro de áudio a quadro de áudio pode reduzir a extensão da compressão alcançável para alguns esquemas de compressão, tais como esquemas de compressão de herança que tem melhor realização quando objetos de áudio mono se correlacionam (em canais, que é definido nesse exemplo pela ordem dos vetores UDIST * SDIST 527 relativos um ao outro) através de quadros de áudio. Ademais, quando não reordenada, a codificação dos vetores UDIST * SDIST 527 pode reduzir a qualidade dos dados de áudio quando recuperados. Por exemplo, codificadores de AAC, que podem ser representados no exemplo da Figura 40C pela unidade de codificação de áudio 514, podem comprimir mais eficientemente os um ou mais vetores UDIST * SDIST reordenados 533 de quadro a quadro em comparação com a compressão alcançada quando os vetores UDIST * SDIST 527 são codificados diretamente de quadro a quadro. Embora descritas acima em relação a codificadores de AAC, as técnicas podem ser realizadas em relação a qualquer codificador que forneça melhor compressão quando objetos de áudio mono forem especificados através de quadros em uma ordem ou posição específica (em canais).
[0793] Conforme descrito em mais detalhes abaixo, as técnicas podem habilitar o dispositivo de codificação de áudio 510C a reordenar um ou mais vetores (isto é, os vetores UDIST * SDIST 527 para gerar um ou mais vetores UDIST * SDIST reordenados 533 e facilitar, dessa forma, a compressão de vetores UDIST * SDIST 527 por um codificador de áudio herdado, tal como uma unidade de codificação de áudio 514. O dispositivo de codificação de áudio 510C pode realizar adicionalmente as técnicas descritas nesta revelação para codificar por áudio os um ou mais vetores UDIST * SDIST reordenados 533 com o uso da unidade de codificação de áudio 514 para gerar uma versão codificada 515A dos um ou mais vetores UDIST * SDIST reordenados 533.
[0794] Por exemplo, a unidade de extração de componente de campo sonoro 520C pode invocar a unidade de reordenação de vetor 532 para reordenar um ou mais primeiros vetores UDIST * SDIST 527 de um primeiro quadro de áudio subsequente em tempo ao segundo quadro ao qual um ou mais segundos vetores UDIST * SDIST 527 correspondem. Embora descrito no contexto de um primeiro quadro de áudio sendo subsequente em tempo ao segundo quadro de áudio, o primeiro quadro de áudio pode preceder em tempo o segundo quadro de áudio. Em conformidade, as técnicas não devem ser limitadas ao exemplo descrito nesta revelação.
[0795] A unidade de reordenação de vetor 532 pode primeiro realizar uma análise de energia em relação a cada um dos primeiros vetores UDIST * SDIST 527 e dos segundos vetores UDIST * SDIST 527, computando uma energia de quadrado da média da raiz para pelo menos uma porção do (mas muitas vezes o total) primeiro quadro de áudio e uma porção do (mas muitas vezes o total) segundo quadro de áudio e, dessa forma, gerar (presumindo-se que D seja quatro) oito energias, uma para cada um dos primeiros vetores UDIST * SDIST 527 do primeiro quadro de áudio e uma para cada um dos segundos vetores UDIST * SDIST 527 do segundo quadro de áudio. A unidade de reordenação de vetor 532 pode então comparar cada energia dos primeiros vetores UDIST * SDIST 527 em turnos com cada um dos segundos vetores UDIST * SDIST 527 conforme descrito acima em relação às Tabelas 1 a 4.
[0796] Em outras palavras, quando usa-se uma SVD com base em quadro (ou métodos relacionados tais como KLT e PCA) a decomposição em sinais de HoA, pode não ser garantido que a ordem dos vetores de quadro a quadro seja consistente. Por exemplo, se há dois objetos no campo sonoro subjacente, a decomposição (que quando realizada apropriadamente pode ser denominada como “decomposição ideal”) pode resultar na separação dos dois objetos de tal modo que um vetor represente um objeto na matriz U. Entretanto, mesmo quando a decomposição pode ser denotada como uma “decomposição ideal,” os vetores podem alternar em posições na matriz U (e em conformidade na matriz S e na V) de quadro a quadro. Adicionalmente, pode muito bem haver diferenças de fase, em que a unidade de reordenação de vetor 532 pode inverter a fase com o uso de inversão de fase (multiplicando-se com ponto cada elemento do vetor invertido por menos um ou um negativo). A fim de alimentar esses vetores, quadro por quadro no mesmo “mecanismo de Codificação de AAC/Áudio” pode exigir que a ordem seja identificada (ou, em outras palavras, que os sinais sejam correspondentes), a fase a ser retificada e interpolação cuidadosa em limites de quadro a ser aplicada. Sem isso, o codec de áudio subjacente pode produzir artefatos extremamente irregulares incluindo aqueles conhecidos como “mancha temporal” ou “pré eco”.
[0797] De acordo com vários aspectos das técnicas descritas nesta revelação, o dispositivo de codificação de áudio 510C pode aplicar múltiplas metodologias para identificar/corresponder vetores, com o uso de energia e correlação cruzada em limites de quadro dos vetores. O dispositivo de codificação de áudio 510C pode também garantir que uma mudança de fase de 180 graus - que muitas vezes aparece em limites de quadro - seja corrigida. A unidade de reordenação de vetor 532 pode aplicar uma forma de janela de interpolação de intensificação/esmaecimento entre os vetores para garantir uma transição suave entre os quadros.
[0798] Dessa forma, o dispositivo de codificação de áudio 530C pode reordenar um ou mais vetores para gerar um ou mais primeiros vetores reordenados e facilita, dessa forma, a codificação por um codificador de áudio herdado, em que os um ou mais vetores descritos representam componentes distintos de um campo sonoro e codificam por áudio os um ou mais vetores reordenados com o uso do codificador de áudio herdado para gerar uma versão codificada dos um ou mais vetores reordenados.
[0799] Vários aspectos das técnicas descritas nesta revelação podem habilitar o dispositivo de codificação de áudio 510C a operar de acordo com as seguintes cláusulas.
[0800] Cláusula 133143-1 A. Um dispositivo, tal como o dispositivo de codificação de áudio 510C, que compreende: um ou mais processadores configurados para realizar uma comparação de energia entre um ou mais primeiros vetores e um ou mais segundos vetores para determinar um ou mais primeiros vetores reordenados e facilitar a extração do um ou ambos os um ou mais primeiros vetores e os um ou mais segundos vetores, em que os um ou mais primeiros vetores descrevem componentes distintos de um campo sonoro em uma primeira porção de dados de áudio e os um ou mais segundos vetores descrevem componentes distintos do campo sonoro em uma segunda porção dos dados de áudio.
[0801] Cláusula 133143-2A. O dispositivo da cláusula 133143-1 A, em que os um ou mais primeiros vetores não representam componentes de segundo plano do campo sonoro na primeira porção dos dados de áudio e em que os um ou mais segundos vetores não representam componentes de segundo plano do campo sonoro na segunda porção dos dados de áudio.
[0802] Cláusula 133143-3A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para, após realizar a comparação de energia, realizar uma correlação cruzada entre os um ou mais primeiros vetores e os um ou mais segundos vetores para identificar os um ou mais primeiros vetores que se correlacionaram com os um ou mais segundos vetores.
[0803] Cláusula 133143-4A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para descartar um ou mais dos segundos vetores com base na comparação de energia para gerar um ou mais segundos vetores reduzidos que têm menos vetores do que os um ou mais segundos vetores, realizar uma correlação cruzada entre pelo menos um dos um ou mais primeiros vetores e os um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlacionam com pelo menos um dos um ou mais primeiros vetores e reordenar pelo menos um dos um ou mais primeiros vetores com base na correlação cruzada para gerar os um ou mais primeiros vetores reordenados.
[0804] Cláusula 133143-5A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para descartar um ou mais dos segundos vetores com base na comparação de energia para gerar um ou mais segundos vetores reduzidos que têm menos vetores do que os um ou mais segundos vetores, realizar uma correlação cruzada entre pelo menos um dos um ou mais primeiros vetores e os um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlacionam com pelo menos um dos um ou mais primeiros vetores, reordenar pelo menos um dos um ou mais primeiros vetores com base na correlação cruzada e para gerar os um ou mais primeiros vetores reordenados, codificar os um ou mais primeiros vetores reordenados para gerar a versão codificada de áudio dos um ou mais primeiros vetores reordenados.
[0805] Cláusula 133143-6A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para descartar um ou mais dos segundos vetores com base na comparação de energia para gerar um ou mais segundos vetores reduzidos que têm menos vetores do que os um ou mais segundos vetores, realizar uma correlação cruzada entre pelo menos um dos um ou mais primeiros vetores e os um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlacionam com pelo menos um dos um ou mais primeiros vetores, reordenar pelo menos um dos um ou mais primeiros vetores com base na correlação cruzada e para gerar a versão codificada de áudio dos um ou mais primeiros vetores reordenados, gerar um fluxo de bits para incluir a versão codificada dos um ou mais primeiros vetores reordenados.
[0806] Cláusula 133143-7A. O dispositivo das reivindicações 3A a 6A, em que a primeira porção dos dados de áudio compreende um primeiro quadro de áudio que tem amostras M, em que a segunda porção dos dados de áudio compreende um segundo quadro de áudio que tem o mesmo número, M, de amostras, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, realizar a correlação cruzada em relação aos últimos valores de M a Z do pelo menos um dos um ou mais primeiros vetores e os primeiros valores de M a Z de cada um dos um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlaciona com o pelo menos um dos um ou mais primeiros vetores e em que Z é menor do que M.
[0807] Cláusula 133143-8A. O dispositivo das reivindicações 3A a 6A, em que a primeira porção dos dados de áudio compreende um primeiro quadro de áudio que tem amostras M, em que a segunda porção dos dados de áudio compreende um segundo quadro de áudio que tem o mesmo número, M, de amostras, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, realizar a correlação cruzada em relação aos últimos valores de M a Y do pelo menos um dos um ou mais primeiros vetores e os primeiros valores de M a Z de cada um dos um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlaciona com o pelo menos um dos um ou mais primeiros vetores e em tanto Z quanto Y são menores do que M.
[0808] Cláusula 133143-9A. O dispositivo das reivindicações 3A a 6A, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, inverter pelo menos um dos um ou mais primeiros vetores e dos um ou mais segundos vetores.
[0809] Cláusula 133143-10A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos do campo sonoro para gerar os um ou mais primeiros vetores e os um ou mais segundos vetores.
[0810] Cláusula 133143-11A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos do campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e gerar os um ou mais primeiros vetores e os um ou mais segundos vetores como uma função de uma ou mais dentre a matriz U, a matriz S e a matriz V.
[0811] Cláusula 133143-12A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos do campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, realizar uma análise de saliência em relação à matriz S para identificar um ou mais vetores UDIST da matriz U e um ou mais vetores SDIST da matriz S e determinar os um ou mais primeiros vetores e os um ou mais segundos vetores multiplicando-se, pelo menos em parte, os um ou mais vetores UDIST pelos um ou mais vetores SDIST.
[0812] Cláusula 133143- 13 A. O dispositivo da cláusula 133143-1 A, em que a primeira porção dos dados de áudio ocorre em tempo antes da segunda porção dos dados de áudio.
[0813] Cláusula 133143-14A. O dispositivo da cláusula 133143-1 A, em que a primeira porção dos dados de áudio ocorre em tempo após a segunda porção dos dados de áudio.
[0814] Cláusula 133143- 15 A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para, quando a comparação de energia é realizada, computar uma energia de quadrado da média da raiz para cada um dos um ou mais primeiros vetores e dos um ou mais segundos vetores e comparar a energia de quadrado da média da raiz computada para pelo menos um dos um ou mais primeiros vetores para a energia de quadrado da média da raiz computada para cada um dos um ou mais segundos vetores.
[0815] Cláusula 133143-16A. O dispositivo da cláusula 133143-1 A, em que os um ou mais processadores são configurados adicionalmente para reordenar pelo menos um dos um ou mais primeiros vetores com base na comparação de energia para gerar os um ou mais primeiros vetores reordenados e em que os um ou mais processadores são configurados adicionalmente para, quando os primeiros vetores são reordenados, aplicar uma janela de interpolação de intensificação/esmaecimento entre os um ou mais primeiros vetores para garantir uma transição suave quando os um ou mais primeiros vetores reordenados são gerados.
[0816] Cláusula 133143-17A. O dispositivo da cláusula 133143-1A, em que os um ou mais processadores são configurados adicionalmente para reordenar os um ou mais primeiros vetores com base pelo menos na comparação de energia para gerar os um ou mais primeiros vetores reordenados, gerar um fluxo de bits para incluir os um ou mais primeiros vetores reordenados ou uma versão codificada dos um ou mais primeiros vetores reordenados e especificar informações de reordenação no fluxo de bits que descrevem como os um ou mais primeiros vetores foram reordenados.
[0817] Cláusula 133143- 18 A. O dispositivo da cláusula 133143-1 A, em que a comparação de energia facilita a extração do um ou ambos os um ou mais primeiros vetores e os um ou mais segundos vetores a fim de promover codificação de áudio do um ou ambos os um ou mais primeiros vetores e os um ou mais segundos vetores.
[0818] Cláusula 133143-1B. O dispositivo, tal como o dispositivo de codificação de áudio 510C, que compreende: um ou mais processadores configurados para realizar uma correlação cruzada em relação a um ou mais primeiros vetores e um ou mais segundos vetores para determinar um ou mais primeiros vetores reordenados e facilitar a extração de um ou ambos os um ou mais primeiros vetores e os um ou mais segundos vetores, em que os um ou mais primeiros vetores descrevem componentes distintos de um campo sonoro em uma primeira porção de dados de áudio e os um ou mais segundos vetores descrevem componentes distintos do campo sonoro em uma segunda porção dos dados de áudio.
[0819] Cláusula 133143-2B. O dispositivo da Cláusula 133143-2B. O dispositivo da cláusula 133143-1B, em que os um ou mais primeiros vetores não representam componentes de segundo plano do campo sonoro na primeira porção dos dados de áudio e em que os um ou mais segundos vetores não representam componentes de segundo plano do campo sonoro na segunda porção dos dados de áudio.
[0820] Cláusula 133143-3B. O dispositivo da cláusula 133143-1B, em que os um ou mais processadores são configurados adicionalmente para, anterior à realização da correlação cruzada, realizar uma comparação de energia entre os um ou mais primeiros vetores e os um ou mais segundos vetores para gerar um ou mais segundos vetores reduzidos que têm menos vetores do que os um ou mais segundos vetores e em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, realizar a correlação cruzada entre os um ou mais primeiros vetores e um ou mais segundos vetores reduzidos para facilitar a codificação de áudio de um ou ambos dos um ou mais primeiros vetores e os um ou mais segundos vetores.
[0821] Cláusula 133143-4B. Cláusula 133143- 3A. O dispositivo da cláusula 133143-3B, em que os um ou mais processadores são configurados adicionalmente para, quando a comparação de energia é realizada, computar uma energia de quadrado da média da raiz para cada um dos um ou mais primeiros vetores e dos um ou mais segundos vetores e comparar a energia de quadrado da média da raiz computada para pelo menos um dos um ou mais primeiros vetores para a energia de quadrado da média da raiz computada para cada um dos um ou mais segundos vetores.
[0822] Cláusula 133143-5B. O dispositivo da cláusula 133143-3B, em que os um ou mais processadores são configurados adicionalmente para descartar um ou mais dos segundos vetores com base na comparação de energia para gerar um ou mais segundos vetores reduzidos que têm menos vetores do que os um ou mais segundos vetores, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, realizar a correlação cruzada entre pelo menos um dos um ou mais primeiros vetores e os um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlacionam com pelo menos um dos um ou mais primeiros vetores e em que os um ou mais processadores são configurados adicionalmente para reordenar pelo menos um dos um ou mais primeiros vetores com base na correlação cruzada para gerar os um ou mais primeiros vetores reordenados.
[0823] Cláusula 133143-6B. O dispositivo da cláusula 133143-3B, em que os um ou mais processadores são configurados adicionalmente para descartar um ou mais dos segundos vetores com base na comparação de energia para gerar um ou mais segundos vetores reduzidos que têm menos vetores do que os um ou mais segundos vetores, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, realizar a correlação cruzada entre pelo menos um dos um ou mais primeiros vetores e os um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlacionam com pelo menos um dos um ou mais primeiros vetores e em que os um ou mais processadores são configurados adicionalmente para reordenar pelo menos um dos um ou mais primeiros vetores com base na correlação cruzada para gerar os um ou mais primeiros vetores reordenados e codificar os um ou mais primeiros vetores reordenados para gerar a versão codificada de áudio dos um ou mais primeiros vetores reordenados.
[0824] Cláusula 133143-7B. O dispositivo da cláusula 133143-3B, em que os um ou mais processadores são configurados adicionalmente para descartar um ou mais dos segundos vetores com base na comparação de energia para gerar um ou mais segundos vetores reduzidos que têm menos vetores do que os um ou mais segundos vetores, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, realizar a correlação cruzada entre pelo menos um dos um ou mais primeiros vetores e os um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlacionam com pelo menos um dos um ou mais primeiros vetores e em que os um ou mais processadores são configurados adicionalmente para reordenar pelo menos um dos um ou mais primeiros vetores com base na correlação cruzada para gerar os um ou mais primeiros vetores reordenados, codificar os um ou mais primeiros vetores reordenados para gerar a versão codificada de áudio dos um ou mais primeiros vetores reordenados, gerar um fluxo de bits para incluir a versão codificada dos um ou mais vetores reordenados.
[0825] Cláusula 133143-8B. O dispositivo das reivindicações 3B a 7B, em que a primeira porção dos dados de áudio compreende um primeiro quadro de áudio que tem amostras M, em que a segunda porção dos dados de áudio compreende um segundo quadro de áudio que tem o mesmo número, M, de amostras, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, realizar a correlação cruzada em relação aos últimos valores de M a Z do pelo menos um dos um ou mais primeiros vetores e os primeiros valores de M a Z de cada um dos um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlaciona com o pelo menos um dos um ou mais primeiros vetores e em que Z é menor do que M.
[0826] Cláusula 133143-9B. O dispositivo das reivindicações 3B a 7B, em que a primeira porção dos dados de áudio compreende um primeiro quadro de áudio que tem amostras M, em que a segunda porção dos dados de áudio compreende um segundo quadro de áudio que tem o mesmo número, M, de amostras, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, realizar a correlação cruzada em relação aos últimos valores de M a Y do pelo menos um dos um ou mais primeiros vetores e os primeiros valores de M a Z de cada um dos um ou mais segundos vetores reduzidos para identificar um dos um ou mais segundos vetores reduzidos que se correlaciona com o pelo menos um dos um ou mais primeiros vetores e em tanto Z quanto Y são menores do que M.
[0827] Cláusula 133143-10B. O dispositivo da reivindicação 1B, em que os um ou mais processadores são configurados adicionalmente para, quando a correlação cruzada é realizada, inverter pelo menos um dos um ou mais primeiros vetores e dos um ou mais segundos vetores.
[0828] Cláusula 133143-11B. O dispositivo da cláusula 133143-1B, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos do campo sonoro para gerar os um ou mais primeiros vetores e os um ou mais segundos vetores.
[0829] Cláusula 133143-12B. O dispositivo da cláusula 133143-1B, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos do campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e gerar os um ou mais primeiros vetores e os um ou mais segundos vetores como uma função de uma ou mais dentre a matriz U, a matriz S e a matriz V.
[0830] Cláusula 133143-13B. O dispositivo da cláusula 133143-1B, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos do campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, realizar uma análise de saliência em relação à matriz S para identificar um ou mais vetores UDIST da matriz U e um ou mais vetores SDIST da matriz S e determinar os um ou mais primeiros vetores e os um ou mais segundos vetores multiplicando-se, pelo menos em parte, os um ou mais vetores UDIST pelos um ou mais vetores SDIST.
[0831] Cláusula 133143-14B. O dispositivo da cláusula 133143-1B, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos do campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e quando os um ou mais primeiros vetores e os um ou mais segundos vetores são determinados, realizar uma análise de saliência em relação à matriz S para identificar um ou mais vetores VDIST da matriz V como pelo menos um dos um ou mais primeiros vetores e dos um ou mais segundos vetores.
[0832] Cláusula 133143-15B. O dispositivo da cláusula 133143-1B, em que a primeira porção dos dados de áudio ocorre em tempo antes da segunda porção dos dados de áudio.
[0833] Cláusula 133143-16B. O dispositivo da cláusula 133143-1B, em que a primeira porção dos dados de áudio ocorre em tempo após a segunda porção dos dados de áudio.
[0834] Cláusula 133143-17B. O dispositivo da cláusula 133143-1B, em que os um ou mais processadores são configurados adicionalmente para reordenar pelo menos um dos um ou mais primeiros vetores com base na correlação cruzada para gerar os um ou mais primeiros vetores reordenados e quando os primeiros vetores são reordenados, aplicar uma janela de interpolação de intensificação/esmaecimento entre os um ou mais primeiros vetores para garantir uma transição suave quando os um ou mais primeiros vetores reordenados são gerados.
[0835] Cláusula 133143-18B. O dispositivo da cláusula 133143-1B, em que os um ou mais processadores são configurados adicionalmente para reordenar os um ou mais primeiros vetores com base pelo menos na correlação cruzada para gerar os um ou mais primeiros vetores reordenados, gerar um fluxo de bits para incluir os um ou mais primeiros vetores reordenados ou uma versão codificada dos um ou mais primeiros vetores reordenados e especificar no fluxo de bits como os um ou mais primeiros vetores foram reordenados.
[0836] Cláusula 133143-19B. O dispositivo da cláusula 133143-1B, em que a correlação cruzada facilita a extração do um ou ambos os um ou mais primeiros vetores e os um ou mais segundos vetores a fim de promover codificação de áudio do um ou ambos os um ou mais primeiros vetores e os um ou mais segundos vetores.
[0837] A Figura 40D é um diagrama de blocos que ilustra um dispositivo de codificação de áudio 510D exemplificativo que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descreve campos sonoros bi ou tridimensional. O dispositivo de codificação de áudio 510D pode ser similar ao dispositivo de codificação de áudio 510C em que o dispositivo de codificação de áudio 510D inclui uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de corrente de bits 516. Ademais, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510D pode ser similar à do dispositivo de codificação de áudio 510C em que a unidade de compressão de áudio 512 includes a unidade de decomposição 518.
[0838] A unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510D pode, entretanto, ser diferente da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510C em que a unidade de extração de componente de campo sonoro 520 inclui uma unidade adicional, denotada como unidade de quantização 534 (”unidade quant 534”). Por essa razão, a unidade de extração de componente de campo sonoro 520 do dispositivo de codificação de áudio 510D é denotada como a “unidade de extração de componente de campo sonoro 520D.”
[0839] A unidade de quantização 534 representa uma unidade configurada para quantizar os um ou mais vetores VTDIST 525E e/ou os um ou mais vetores VTBG 525F para gerar um ou mais vetores VTQ_DIST 525G correspondentes e/ou um ou mais vetores VTQ_BG 525H. A unidade de quantização 534 pode quantizar (que é um termo de processamento de sinal para arredondamento matemático através de eliminação de bits usados para representar um valor) os um ou mais vetores VTDIST 525E de modo a reduzir o número de bits que são usados para representar os um ou mais vetores VTDIST 525E no fluxo de bits 517. Em alguns exemplos, a unidade de quantização 534 pode quantizar os valores de 32 bits dos um ou mais vetores VTDIST 525E, substituindo esses valores de 32 bits com valores de 16 bits arredondados para gerar um ou mais vetores VTQ_DIST 525G. Nesse aspecto, a unidade de quantização 534 pode operar de uma maneira similar à descrita acima em relação à unidade de quantização 52 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4.
[0840] A quantização dessa natureza pode introduzir um erro na representação do campo sonoro que varia de acordo com a grosseria da quantização. Em outras palavras, o uso de mais bits para representar os um ou mais vetores VTDIST 525E pode resultar em menos erro de quantização. O erro de quantização devido à quantização dos vetores VTDIST 525E (que pode ser denotado “EDIST”) pode ser determinado subtraindo-se o um ou mais vetores VTDIST 525E dos um ou mais vetores VTQ_DIST 525G.
[0841] De acordo com as técnicas descritas nesta revelação, o dispositivo de codificação de áudio 510D pode compensar por um ou mais dos erros de quantização EDIST projetando-se o erro EDIST em ou do contrário modificando-se um ou mais dos vetores UDIST * SDIST 527 ou os coeficientes harmônicos esféricos de segundo plano 531 gerados multiplicando-se os um ou mais vetores UBG 525D pelos um ou mais vetores SBG 525B e então pelos um ou mais vetores VTBG 525F. Em alguns exemplos, o dispositivo de codificação de áudio 510D pode compensar apenas pelo erro EDIST nos vetores UDIST * SDIST 527. Em outros exemplos, o dispositivo de codificação de áudio 510D pode apensar compensar pelo erro EBG nos coeficientes harmônicos esféricos de segundo plano. Em ainda outros exemplos, o dispositivo de codificação de áudio 510D pode compensar pelo erro EDIST tanto nos vetores UDIST * SDIST 527 quanto nos coeficientes harmônicos esféricos de segundo plano.
[0842] Em operação, a unidade de análise de componente saliente 524 pode ser configurada para emitir os um ou mais vetores SDIST 525, os um ou mais vetores SBG 525B, os um ou mais vetores UDIST 525C, os um ou mais vetores UBG 525D, os um ou mais vetores VTDIST 525E e os um ou mais vetores VTBG 525F para a unidade de matemática 526. A unidade de análise de componente saliente 524 pode também emitir os um ou mais vetores VTDIST 525E para a unidade de quantização 534. A unidade de quantização 534 pode quantizar os um ou mais vetores VTDIST 525E para gerar um ou mais vetores VTQ_DIST 525G. A unidade de quantização 534 pode fornecer os um ou mais vetores VTQ_DIST 525G para a unidade de matemática 526, enquanto também fornece os um ou mais vetores VTQ_DIST 525G para a unidade de reordenação de vetor 532 (conforme descrito acima). A unidade de reordenação de vetor 532 pode operar em relação aos um ou mais vetores VTQ_DIST 525G de uma maneira similar à descrita acima em relação aos vetores VTDIST 525E.
[0843] Mediante o recebimento desses vetores 525 a 525G (“vetores 525”), a unidade de matemática 526 pode primeiro determinar coeficientes harmônicos esféricos distintos que descrevem componentes distintos do campo sonoro e coeficientes harmônicos esféricos de segundo plano que descreveram componentes de segundo plano do campo sonoro. A unidade de matemática de matriz 526 pode ser configurada para determinar os coeficientes harmônicos esféricos distintos multiplicando-se os um ou mais vetores UDIST 525C pelos um ou mais vetores SDIST 525A e então pelos um ou mais vetores VTDIST 525E. A unidade de matemática 526 pode ser configurada para determinar os coeficientes harmônicos esféricos de segundo plano multiplicando-se os um ou mais vetores UBG 525D pelos um ou mais vetores SBG 525A e então pelos um ou mais vetores VTBG 525E.
[0844] A unidade de matemática 526 pode então determinar um ou mais vetores UDIST * SDIST compensados 527’ (que podem ser similares aos vetores UDIST * SDIST 527 exceto que esses vetores incluem valores para compensar pelo erro EDIST) realizando-se uma operação de pseudoinversão em relação aos um ou mais vetores VTQ_DIST 525G e então multiplicando-se os harmônicos esféricos distintos pela pseudoinversão dos um ou mais vetores VTQ_DIST 525G. A unidade de reordenação de vetor 532 pode operar da maneira descrita acima para gerar vetores reordenados 527’, que são então codificados por áudio pela unidade de codificação de áudio 515A para gerar vetores reordenados codificados por áudio 515’, novamente conforme descrito acima.
[0845] A unidade de matemática 526 pode projetar a seguir o erro EDIST para os coeficientes harmônicos esféricos de segundo plano. A unidade de matemática 526 pode, para realizar essa projeção, determinar ou do contrário recuperar os coeficientes harmônicos esféricos originais 511 adicionando-se os coeficientes harmônicos esféricos distintos aos coeficientes harmônicos esféricos de segundo plano. A unidade de matemática 526 pode então subtrair os coeficientes harmônicos esféricos distintos quantizados (que podem ser gerados multiplicando-se os vetores UDIST 525C pelos vetores SDIST 525A e então pelos vetores VTQ_DIST 525G) e os coeficientes harmônicos esféricos de segundo plano dos coeficientes harmônicos esféricos 511 para determinar o erro restante devido à quantização dos vetores VTDIST 519. A unidade de matemática 526 pode então adicionar esse erro aos coeficientes harmônicos esféricos de segundo plano quantizados para gerar coeficientes harmônicos esféricos de segundo plano quantizados compensados 53.
[0846] De qualquer forma, a unidade de redução de ordem 528A pode obter uma realização conforme descrito acima para reduzir os coeficientes harmônicos esféricos de segundo plano quantizados compensados 53 para coeficientes harmônicos esféricos de segundo plano reduzidos 529’, que podem ser codificados por áudio pela unidade de codificação de áudio 514 da maneira descrita acima para gerar coeficientes harmônicos esféricos de segundo plano reduzidos codificados por áudio 515B’.
[0847] Dessa forma, as técnicas podem habilitar o dispositivo de codificação de áudio 510D a quantizar um ou mais primeiros vetores, tais como os vetores VTDIST 525E, representativos de um ou mais componentes de um campo sonoro e compensar por erro introduzido devido à quantização dos um ou mais primeiros vetores e, um ou mais segundos vetores, tais como os vetores UDIST * SDIST 527 e/ou os vetores de coeficientes harmônicos esféricos de segundo plano 531, que também são representativos dos mesmos um ou mais componentes do campo sonoro.
[0848] Ademais, as técnicas podem fornecer essa compensação de erro de quantização de acordo com as cláusulas seguintes.
[0849] Cláusula 133146-1B. Um dispositivo, tal como o dispositivo de codificação de áudio 510D, que compreende: um ou mais processadores configurados para quantizar um ou mais primeiros vetores representativos de um ou mais componentes distintos de um campo sonoro e compensar por erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que também são representativos dos mesmos um ou mais componentes distintos do campo sonoro.
[0850] Cláusula 133146-2B. O dispositivo da cláusula 133146-1B, em que os um ou mais processadores são configurados para quantizar um ou mais vetores de uma transposta de uma matriz V gerada pelo menos em parte realizando-se uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.
[0851] Cláusula 133146-3B. O dispositivo da cláusula 133146-1B, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e em que os um ou mais processadores são configurados para quantizar um ou mais vetores de uma transposta da matriz V.
[0852] Cláusula 133146-4B. O dispositivo da cláusula 133146-1B, em que os um ou mais processadores são configurados para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, em que os um ou mais processadores são configurados para quantizar um ou mais vetores de uma transposta da matriz V e em que os um ou mais processadores são configurados para compensar pelo erro introduzido devido à quantização em um ou mais vetores U * S computados multiplicando-se um ou mais vetores U da matriz U por um ou mais vetores S da matriz S.
[0853] Cláusula 133146-5B. O dispositivo da cláusula 133146-1B, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UDIST da matriz U, sendo que cada um corresponde a um dos componentes distintos do campo sonoro, determinar um ou mais vetores SDIST da matriz S, sendo que cada um corresponde ao mesmo dos componentes distintos do campo sonoro e determinar um ou mais vetores VTDIST de uma transposta da matriz V, sendo que cada um corresponde ao mesmo dos componentes distintos do campo sonoro, em que os um ou mais processadores são configurados para quantizar os um ou mais vetores VTDIST para gerar um ou mais vetores VTQ_DIST e em que os um ou mais processadores são configurados para compensar pelo erro introduzido devido à quantização em um ou mais vetores UDIST * SDIST computados multiplicando-se os um ou mais vetores UDIST vetores da matriz U por um ou mais vetores SDIST da matriz S de modo a gerar um ou mais vetores UDIST * SDIST com erro compensado.
[0854] Cláusula 133146-6B. O dispositivo da cláusula 133146-5B, em que os um ou mais processadores são configurados para determinar coeficientes harmônicos esféricos distintos com base nos um ou mais vetores UDIST, os um ou mais vetores SDIST e os um ou mais vetores VTDIST e realizar uma pseudoinversão em relação aos vetores VTQ_DIST para dividir os coeficientes harmônicos esféricos distintos pelos um ou mais vetores VTQ_DIST e gerar, dessa forma, um ou mais vetores UC_DIST * SC_DIST com erro compensado que compensam pelo menos em parte pelo erro introduzido através da quantização dos vetores VTDIST.
[0855] Cláusula 133146-7B. O dispositivo da cláusula 133146-5B, em que os um ou mais processadores são configurados adicionalmente para codificar por áudio os um ou mais vetores UDIST * SDIST com erro compensado.
[0856] Cláusula 133146-8B. O dispositivo da cláusula 133146-1B, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar a matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UBG da matriz U que descrevem um ou mais componentes de segundo plano do campo sonoro e um ou mais vetores UDIST da matriz U que descrevem um ou mais componentes distintos do campo sonoro, determinar um ou mais vetores SBG da matriz S que descrevem os um ou mais componentes de segundo plano do campo sonoro e um ou mais vetores SDIST da matriz S que descrevem os um ou mais componentes distintos do campo sonoro e determinar um ou mais vetores VTDIST e um ou mais vetores VTBG de uma transposta da matriz V, em que os vetores VTDIST descrevem os um ou mais componentes distintos do campo sonoro e os VTBG descrevem os um ou mais componentes de segundo plano do campo sonoro, em que os um ou mais processadores são configurados para quantizar os um ou mais vetores VTDIST para gerar um ou mais vetores VTQ_DIST e em que os um ou mais processadores são configurados adicionalmente para compensar por pelo menos uma porção do erro introduzido devido à quantização em coeficientes harmônicos esféricos de segundo plano formados multiplicando-se os um ou mais vetores UBG pelos um ou mais vetores SBG e então pelos um ou mais vetores VTBG de modo a gerar coeficientes harmônicos esféricos de segundo plano compensados.
[0857] Cláusula 133146-9B. O dispositivo da cláusula 133146-8B, em que os um ou mais processadores são configurados para determinar o erro com base nos vetores VTDIST e um ou mais vetores UDIST * SDIST formados multiplicando-se os vetores UDIST pelos vetores SDIST e adicionar o erro determinado aos coeficientes harmônicos esféricos de segundo plano para gerar os coeficientes harmônicos esféricos de segundo plano compensados por erro.
[0858] Cláusula 133146-10B. O dispositivo da cláusula 133146-8B, em que os um ou mais processadores são adicionalmente configurados para codificar por áudio os coeficientes harmônicos esféricos de segundo plano compensados por erro.
[0859] Cláusula 133146-1 IB. O dispositivo da cláusula 133146-1B,
[0860] em que os um ou mais processadores são configurados para compensar o erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que são também representativos dos mesmos um ou mais componentes do campo sonoro para gerar um ou mais segundos vetores compensados por erro, e em que os um ou mais processadores são adicionalmente configurados para gerar um fluxo de bits para incluir os um ou mais segundos vetores compensados por erro e os um ou mais primeiros vetores quantizados.
[0861] Cláusula 133146-12B. O dispositivo da cláusula 133146-1B, em que os um ou mais processadores são configurados para compensar o erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que são também representativos dos mesmos um ou mais componentes do campo sonoro para gerar um ou mais segundos vetores compensados por erro, e em que os um ou mais processadores são adicionalmente configurados para codificar por áudio os um ou mais segundos vetores compensados por erro e gerar um fluxo de bits para incluir os um ou mais segundos vetores compensados por erro codificado por áudio e os um ou mais primeiros vetores quantizados.
[0862] Cláusula 133146-1C. Um dispositivo, tal como o dispositivo de codificação de áudio 510D, que compreende: um ou mais processadores configurados para quantizar um ou mais primeiros vetores representativos de um ou mais componentes distintos de um campo sonoro e compensar o erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que são representativos de um ou mais componentes de segundo plano do campo sonoro.
[0863] Cláusula 133146-2C. O dispositivo da cláusula 133146-1C, em que os um ou mais processadores são configurados para quantizar um ou mais vetores de uma transposta de uma matriz V gerada realizando-se, pelo menos em parte, uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.
[0864] Cláusula 133146-3C. O dispositivo da cláusula 133146-1C, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, e em que os um ou mais processadores são configurados para quantizar um ou mais vetores de uma transposta da matriz V.
[0865] Cláusula 133146-4C. O dispositivo da cláusula 133146-1C, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UDIST da matriz U, cada um dos quais corresponde a um dos componentes distintos do campo sonoro, determinar um ou mais vetores SDIST da matriz S, cada um dos quais corresponde ao mesmo dentre os componentes distintos do campo sonoro e determinar um ou mais vetores VTDIST de uma transposta da matriz V, cada um dos quais corresponde ao mesmo dentre os componentes distintos do campo sonoro, em que os um ou mais processadores são configurados para quantizar os um ou mais vetores VTDIST para gerar um ou mais vetores VTQ_DIST e compensar pelo menos uma porção do erro introduzido devido à quantização em um ou mais vetores UDIST * SDIST computados multiplicando-se os um ou mais vetores UDIST da matriz U por um ou mais vetores SDIST da matriz S de modo a gerar um ou mais vetores UDIST * SDIST compensados por erro.
[0866] Cláusula 133146-5C. O dispositivo da cláusula 133146-4C, em que os um ou mais processadores são configurados para determinar coeficientes harmônicos esféricos distintos com base nos um ou mais vetores UDIST, os um ou mais vetores SDIST e os um ou mais vetores VTDIST e realizar uma pseudoinversão em relação aos vetores VTQ_DIST para dividir os coeficientes harmônicos esféricos distintos pelos um ou mais vetores VTQ_DIST e gerar, assim, um ou mais vetores UC_DIST * SC_DIST que compensam pelo menos em parte o erro introduzido através da quantização dos vetores VTDIST.
[0867] Cláusula 133146-6C. O dispositivo da cláusula 133146-4C, em que os um ou mais processadores são adicionalmente configurados para codificar por áudio os um ou mais vetores UDIST * SDIST compensados por erro.
[0868] Cláusula 133146-7C. O dispositivo da cláusula 133146-1C, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação a uma pluralidade de coeficientes harmônicos esféricos representativos de um campo sonoro para gerar uma matriz U representativa dos vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa dos vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores UBG da matriz U que descrevem um ou mais componentes de segundo plano do campo sonoro e um ou mais vetores UDIST da matriz U que descrevem um ou mais componentes distintos dos campos sonoro, determinar um ou mais vetores SBG da matriz S que descrevem os um ou mais componentes de segundo plano do campo sonoro e um ou mais vetores SDIST da matriz S que descrevem os um ou mais componentes distintos do campo sonoro e determinar um ou mais vetores VTDIST e um ou mais vetores VTBG de uma transposta da matriz V, em que os vetores VTDIST descrevem os um ou mais componentes distintos do campo sonoro e os VTBG descrevem os um ou mais componentes de segundo plano do campo sonoro, em que os um ou mais processadores são configurados para quantizar os um ou mais vetores VTDIST para gerar um ou mais vetores VTQ_DIST, e em que os um ou mais processadores são configurados para compensar o erro introduzido devido à quantização nos coeficientes harmônicos esféricos de segundo plano formados multiplicando-se os um ou mais vetores UBG pelos um ou mais vetores SBG e, então, pelos um ou mais vetores VTBG de modo a gerar coeficientes harmônicos esféricos de segundo plano compensados por erro.
[0869] Cláusula 133146-8C. O dispositivo da cláusula 133146-7C, em que os um ou mais processadores são configurados para determinar o erro com base nos vetores VTDIST e um ou mais vetores UDIST * SDIST formados multiplicando-se os vetores UDIST pelos vetores SDIST e adicionar o erro determinado aos coeficientes harmônicos esféricos de segundo plano para gerar os coeficientes harmônicos esféricos de segundo plano compensados por erro.
[0870] Cláusula 133146-9C. O dispositivo da cláusula 133146-7C, em que os um ou mais processadores são adicionalmente configurados para codificar por áudio os coeficientes harmônicos esféricos de segundo plano compensados por erro.
[0871] Cláusula 133146-lOC. O dispositivo da cláusula 133146-1C, em que os um ou mais processadores são adicionalmente configurados para compensar o erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que são também representativos dos mesmos um ou mais componentes do campo sonoro para gerar um ou mais segundos vetores compensados por erro e gerar um fluxo de bits para incluir os um ou mais segundos vetores compensados por erro e os um ou mais primeiros vetores quantizados.
[0872] Cláusula 133146-11C. O dispositivo da cláusula 133146-1B, em que os um ou mais processadores são adicionalmente configurados para compensar o erro introduzido devido à quantização dos um ou mais primeiros vetores em um ou mais segundos vetores que são também representativos dos mesmos um ou mais componentes do campo sonoro para gerar um ou mais segundos vetores compensados por erro e codificar por áudio os um ou mais segundos vetores compensados por erro e gerar um fluxo de bits para incluir os um ou mais segundos vetores compensados por erro codificado por áudio e os um ou mais primeiros vetores quantizados.
[0873] Em outras palavras, ao usar a decomposição SVD com base em quadro (ou métodos relacionados tais como KLT & PCA) em sinais de HoA para o propósito de redução largura de banda, as técnicas descritas nessa revelação podem permitir que o dispositivo de codificação de áudio 10D quantize os primeiros poucos vetores da matriz U (multiplicados pelos valores singulares correspondentes da matriz S) assim como os vetores correspondentes do vetor V. Isso compreenderá os componentes ‘de primeiro plano’ ou ‘distintos’ do campo sonoro. As técnicas podem, então, permitir que o dispositivo de codificação de áudio 510D codifique os vetores U*S com o uso de um mecanismo de codificação de áudio de ‘caixa preta’, tal como um codificador AAC. O vetor V pode ser ou escalar ou quantizado por vetor.
[0874] Adicionalmente, alguns dos vetores restantes na matriz U podem ser multiplicados com os valores singulares correspondentes da matriz S e da matriz V e também codificados com o uso de um mecanismo de codificação de áudio de ‘caixa preta’. Os mesmos compreenderão os componentes ‘de segundo plano’ do campo sonoro. Uma quantização escalar de 16 bits simples dos vetores V pode resultar em sobrecarga de aproximadamente 80 kbps para 4a ordem (25 coeficientes) e 160 kbps para 6a ordem (49 coeficientes). Uma quantização mais grosseira pode resultar em erros de quantização maiores. As técnicas descritas nesta revelação podem compensar o erro de quantização dos vetores V - através da ‘projeção’ do erro de quantização do vetor V nos componentes de segundo plano e de primeiro plano.
[0875] As técnicas nesta descrição podem incluir calcular uma versão quantizada do vetor V real. Esse vetor V quantizado pode ser chamado de V (em que V - V+e). O sinal de HoA subjacente - para os componentes de primeiro plano - que as técnicas estão tentando recriar é dado por H_f=USV, em que U, S e V contém apenas os elementos primeiro plano. Para o propósito desta discussão, U.S. será substituído por um único conjunto de vetores U. Assim, H_f = UV. Dado que se tem um V errôneo, as técnicas estão tentando recriar H_f tão próximo quanto possível. Assim, as técnicas podem permitir que o dispositivo de codificação de áudio 10D encontre U de modo que H_f=U’V. O dispositivo de codificação de áudio 10D pode usar uma metodologia de pseudoinversão que permite U = H_f [V’]A(- 1). Com o uso do assim chamado mecanismo de codificação de áudio de ‘caixa preta’ para codificar U, as técnicas podem minimizar o erro em H, causado pelo que pode ser referido como o vetor V errôneo.
[0876] De um modo similar, as técnicas podem também permitir que o dispositivo de codificação de áudio projete o erro devido à quantização de V nos elementos de segundo plano. O dispositivo de codificação de áudio 510D pode ser configurado para recriar o sinal de HoA total que é uma combinação dos sinais de HoA de primeiro plano e de segundo plano, isto é, H=H_f + H_b. Isso pode, novamente, ser modelado como H = H_f +e + H_b, devido ao erro de quantização em V. Desse modo, em vez de colocar o H_b através do ‘codificador de áudio de caixa preta’, coloca-se (e+H_b) através do codificador de áudio, na compensação de efeito do erro em V. Na prática, isso compensa o erro apenas até a ordem determinada pelo dispositivo de codificação de áudio 510D para enviar para os elementos de segundo plano.
[0877] A Figura 40E é um diagrama de blocos que ilustra um dispositivo de codificação de áudio exemplificativo 510E que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descrevem dois ou três campos de som dimensionais. O dispositivo de codificação de áudio 510E pode ser similar ao dispositivo de codificação de áudio 510D em que o dispositivo de codificação de áudio 510E inclui uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de fluxo de bits 516. Além disso, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510E pode ser similar a esta do dispositivo de codificação de áudio 510D em que a unidade de compressão de áudio 512 inclui uma unidade de decomposição 518.
[0878] A unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510E pode, entretanto, se diferir da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510D em que a unidade de matemática 526 da unidade de extração de componente de campo sonoro 520 realiza aspectos adicionais das técnicas descritas nesta revelação para reduzir adicionalmente a matriz V 519A antes de incluir a versão reduzida da transposta da matriz V 519A no fluxo de bits 517. Por essa razão, a unidade de extração de componente de campo sonoro 520 do dispositivo de codificação de áudio 510E é denotada como a “unidade de extração de componente de campo sonoro 520E.”
[0879] No exemplo da Figura 40E, a unidade de redução de ordem 528, em vez de encaminhar os coeficientes harmônicos esféricos de segundo plano reduzidos 529’ para a unidade de codificação de áudio 514, retorna os coeficientes harmônicos esféricos de segundo plano reduzidos 529’ para a unidade de matemática 526. Conforme notado acima, esses coeficientes harmônicos esféricos de segundo plano reduzidos 529’ podem ter sido reduzidos removendo-se aqueles dos coeficientes que correspondem às funções de base esférica que têm uma ou mais ordens e/ou subordens identificadas. A ordem reduzida dos coeficientes harmônicos esféricos de segundo plano reduzidos 529’ pode ser denotada pela variável NBG.
[0880] Dado que a unidade de extração de componente de campo sonoro 520E pode não realizar a redução de ordem em relação aos um ou mais vetores UDIST * SDIST reordenados 533’, a ordem dessa decomposição dos coeficientes harmônicos esféricos que descrevem os componentes distintos do campo sonoro (que pode ser denotada pela variável NDIST) pode ser maior do que a ordem de segundo plano, NBG. Em outras palavras, NBG pode ser comumente menor do que NDIST. Uma razão possível que NBG pode ser menor do que NDIST é que presume0se que os componentes de segundo plano não têm muita direcionalidade de modo que funções de base esférica de ordem superior não sejam exigidas, permitindo, assim, a redução de ordem e resultando em NBG sendo menor do que NDIST.
[0881] Dado que os um ou mais vetores VTQ_DIST reordenados 539 foram anteriormente enviados abertamente, sem codificar por áudio esses vetores 539 no fluxo de bits 517, conforme mostrado nos exemplos das Figuras 40A a 40D, os um ou mais vetores VTQ_DIST reordenados 539 podem consumir uma largura de banda considerável. Como um exemplo, cada um dos um ou mais vetores VTQ_DIST reordenados 539, quando quantizados a valores escalares de 16 bits, pode consumir aproximadamente 20 Kbps para dados de áudio Ambisonics de quarta ordem (em que cada vetor tem 25 coeficientes) e 40 Kbps para dados de áudio Ambisonics de sexta ordem (em que cada vetor tem 49 coeficientes).
[0882] Em conformidade com vários aspectos das técnicas descritas nesta revelação, a unidade de extração de componente de campo sonoro 520E pode reduzir a quantidade de bits que precisa ser especificada para os coeficientes harmônicos esféricos ou decomposições dos mesmos, tais como os um ou mais vetores VTQ_DIST reordenados 539. Em alguns exemplos, a unidade de matemática 526 pode determinar, com base nos coeficientes harmônicos esféricos de ordem reduzida 529’, aqueles dentre os vetores VTQ_DIST reordenados 539 que devem ser removidos e recombinados com os coeficientes harmônicos esféricos de ordem reduzida 529’ e aqueles dentre os vetores VTQ_DIST reordenados 539 que devem formar os vetores VTSMALL 521. Isto é, a unidade de matemática 526 pode determinar uma ordem dos coeficientes harmônicos esféricos de ordem reduzida 529’, em que essa ordem pode ser denotada como NBG. Os vetores VTQ_DIST reordenados 539 podem ser de uma ordem denotada pela variável NDIST, em que NDIST é maior do que a ordem NBG.
[0883] A unidade de matemática 526 pode, então, analisar as primeiras ordens NBG dos vetores VTQ_DIST reordenados 539, removendo aqueles vetores que especificam coeficientes harmônicos esféricos decompostos que corresponde às funções de base esférica que têm uma ordem menor ou igual a NBG. Esses vetores VTQ_DIST reordenados removidos 539 podem, então, ser usados para formar coeficientes harmônicos esféricos intermediários multiplicando-se aqueles dentre os vetores UDIST * SDIST reordenados 533’ representativos das versões decompostas dos coeficientes harmônicos esféricos 511 que correspondem às funções de base esférica que têm uma ordem menor ou igual a NBG pelos vetores VTQ_DIST reordenados removidos 539 para formar os coeficientes harmônicos esféricos distintos intermediários. A unidade de matemática 526 pode, então, gerar coeficientes harmônicos esféricos de segundo plano modificados 537 através da adição dos coeficientes harmônicos esféricos distintos intermediários aos coeficientes harmônicos esféricos de ordem reduzida 529’. A unidade de matemática 526 pode, então, passar esses coeficientes harmônicos esféricos de segundo plano modificados 537 para a unidade de codificação de áudio 514, que codifica por áudio esses coeficientes 537 para formar os coeficientes harmônicos esféricos de segundo plano codificados por áudio modificados 515B’.
[0884] A unidade de matemática 526 pode, então, passar os um ou mais vetores VTSMALL 521, que podem representar aqueles vetores 539 representativos de uma forma decomposta dos coeficientes harmônicos esféricos 511 que correspondem às funções de base esférica que têm uma ordem maior do que NBG e menor ou igual a NDIST. Nesse aspecto, a unidade de matemática 526 pode realizar as operações similares à unidade de redução de coeficiente 46 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4. A unidade de matemática 526 pode passar os um ou mais vetores VTSMALL 521 para a unidade de geração de fluxo de bits 516, que pode gerar o fluxo de bits 517 para incluir os vetores VTSMALL 521 frequentemente em sua forma codificada em não áudio original. Dado que os vetores VTSMALL 521 incluem menos vetores do que os vetores VTQ_DIST reordenados 539, as técnicas podem facilitar a alocação de menos bits aos vetores VTQ_DIST reordenados 539 apenas especificando-se os vetores VTSMALL 521 no fluxo de bits 517.
[0885] Embora mostrados como não sendo quantizados, em algumas ocorrências, o dispositivo de codificação de áudio 510E pode quantizar os vetores VTBG 525F. Em algumas ocorrências, tal como quando a unidade de codificação de áudio 514 não é usada para comprimir os coeficientes harmônicos esféricos de segundo plano, o dispositivo de codificação de áudio 510E pode quantizar os vetores VTBG 525F.
[0886] Desse modo, as técnicas podem permitir que o dispositivo de codificação de áudio 510E determine pelo menos um dentre os um ou mais vetores decompostos dos coeficientes harmônicos esféricos a serem recombinados com os coeficientes harmônicos esféricos de segundo plano para reduzir uma quantidade de bits exigida para ser alocada aos um ou mais vetores em um fluxo de bits, em que os coeficientes harmônicos esféricos descrevem um campo sonoro, e em que os coeficientes harmônicos esféricos de segundo plano descreveram um ou mais componentes de segundo plano do mesmo campo sonoro.
[0887] Isto é, as técnicas podem permitir que o dispositivo de codificação de áudio 510E seja configurado em uma maneira indicada pelas cláusulas a seguir.
[0888] Cláusula 133149-1 A. Um dispositivo, tal como o dispositivo de codificação de áudio 510E que compreendem: um ou mais processadores configurados para determinar pelo menos um dentre os um ou mais vetores decompostos dos coeficientes harmônicos esféricos a serem recombinados com os coeficientes harmônicos esféricos de segundo plano para reduzir uma quantidade de bits exigida para ser alocada aos um ou mais vetores em um fluxo de bits, em que os coeficientes harmônicos esféricos descrevem um campo sonoro, e em que os coeficientes harmônicos esféricos de segundo plano descreveram um ou mais componentes de segundo plano do mesmo campo sonoro.
[0889] Cláusula 133149-2A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para gerar um conjunto reduzido dos um ou mais vetores removendo-se o pelo menos um determinado dentre os um ou mais vetores dos um ou mais vetores.
[0890] Cláusula 133149-3A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para gerar um conjunto reduzido dos um ou mais vetores removendo-se o pelo menos um determinado dentre os um ou mais vetores dos um ou mais vetores, recombinar o pelo menos um removido dentre os um ou mais vetores com os coeficientes harmônicos esféricos de segundo plano para gerar os coeficientes harmônicos esféricos de segundo plano modificados e gerar o fluxo de bits para incluir o conjunto reduzido dos um ou mais vetores e os coeficientes harmônicos esféricos de segundo plano modificados.
[0891] Cláusula 133149-4A. O dispositivo da cláusula 133149-3A, em que o conjunto reduzido dos um ou mais vetores é incluído no fluxo de bits sem o primeiro ser codificado por áudio.
[0892] Cláusula 133149-5A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para gerar um conjunto reduzido dos um ou mais vetores removendo-se o pelo menos um determinado dentre os um ou mais vetores dos um ou mais vetores, recombinar o pelo menos um removido dentre os um ou mais vetores com os coeficientes harmônicos esféricos de segundo plano para gerar os coeficientes harmônicos esféricos de segundo plano modificados, codificar por áudio os coeficientes harmônicos esféricos de segundo plano modificados e gerar o fluxo de bits para incluir o conjunto reduzido dos um ou mais vetores e os coeficientes harmônicos esféricos de segundo plano modificados codificados por áudio.
[0893] Cláusula 133149-6A. O dispositivo da cláusula 133149-1 A, em que os um ou mais vetores compreendem os vetores representativos de pelo menos alguns aspectos dos um ou mais componentes distintos do campo sonoro.
[0894] Cláusula 133149-7A. O dispositivo da cláusula 133149-1A, em que os um ou mais vetores compreendem um ou mais vetores de uma transposta de uma matriz V gerada realizando-se, pelo menos em parte, uma decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro.
[0895] Cláusula 133149-8A. O dispositivo da cláusula 133149-1A, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, e em que os um ou mais vetores compreendem um ou mais vetores de uma transposta da matriz V.
[0896] Cláusula 133149-9A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para realizar uma redução de ordem em relação aos coeficientes harmônicos esféricos de segundo plano de modo a remover aqueles dentre os coeficientes harmônicos esféricos de segundo plano que correspondem às funções de base esférica que têm uma ordem e/ou subordem identificadas, em que os coeficientes harmônicos esféricos de segundo plano correspondem a uma ordem NBG.
[0897] Cláusula 133149-10A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para realizar uma redução de ordem em relação aos coeficientes harmônicos esféricos de segundo plano de modo a remover aqueles dentre os coeficientes harmônicos esféricos de segundo plano que correspondem às funções de base esférica que têm uma ordem e/ou subordem identificadas, em que os coeficientes harmônicos esféricos de segundo plano correspondem a uma ordem NBG que é menor do que a ordem dos coeficientes harmônicos esféricos distintos, NDIST, e em que os coeficientes harmônicos esféricos distintos representam os componentes distintos do campo sonoro.
[0898] Cláusula 133149-11A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para realizar uma redução de ordem em relação aos coeficientes harmônicos esféricos de segundo plano de modo a remover aqueles dentre os coeficientes harmônicos esféricos de segundo plano que correspondem às funções de base esférica que têm uma ordem e/ou subordem identificadas, em que os coeficientes harmônicos esféricos de segundo plano correspondem a uma ordem NBG que é menor do que a ordem dos coeficientes harmônicos esféricos distintos, NDIST, e em que os coeficientes harmônicos esféricos distintos representam os componentes distintos do campo sonoro e não são submetidos à redução de ordem.
[0899] Cláusula 133149-12A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U representativa dos vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa dos vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e determinar um ou mais vetores VTDIST e um ou mais VTBG de uma transposta da matriz V, os um ou mais vetores VTDIST descrevem um ou mais componentes distintos do campo sonoro e os um ou mais vetores VTBG descrevem um ou mais componentes de segundo plano do campo sonoro, e em que os um ou mais vetores incluem os um ou mais vetores VTDIST.
[0900] Cláusula 133149- 13 A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U representativa dos vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa dos vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores VTDIST e um ou mais VTBG de uma transposta da matriz V, os um ou mais vetores VTDIST descrevem um ou mais componentes distintos do campo sonoro e os um ou mais vetores VBG descrevem um ou mais componentes de segundo plano do campo sonoro e quantizar os um ou mais vetores VTDIST para gerar um ou mais VTQ_DIST, e em que os um ou mais vetores incluem os um ou mais vetores VTQ_DIST.
[0901] Cláusula 133149-14A. O dispositivo da cláusula 133149- 12A ou da cláusula 133149- 13 A, em que os um ou mais processadores são adicionalmente configurados para determinar um ou mais vetores UDIST e um ou mais vetores UBG da matriz U, os um ou mais vetores UDIST descrevem os um ou mais componentes distintos do campo sonoro e os um ou mais vetores UBG descrevem os um ou mais componentes de segundo plano do campo sonoro e determinar os um ou mais vetores SDIST e os um ou mais vetores SBG da matriz S, os um ou mais vetores SDIST descrevem os um ou mais componentes distintos do campo sonoro e os um ou mais vetores SBG descrevem os um ou mais componentes de segundo plano do campo sonoro.
[0902] Cláusula 133149-15A. O dispositivo da cláusula 133149- 14A, em que os um ou mais processadores são adicionalmente configurados para determinar os coeficientes harmônicos esféricos de segundo plano como uma função dos um ou mais vetores UBG, os um ou mais vetores SBG e os um ou mais vetores VTBG, realizar a redução de ordem em relação aos coeficientes harmônicos esféricos de segundo plano para gerar os coeficientes harmônicos esféricos de segundo plano reduzidos que têm uma ordem igual a NBG, multiplicar os um ou mais UDIST pelos um ou mais vetores SDIST para gerar um ou mais vetores UDIST * SDIST, remover o pelo menos um determinado dentre os um ou mais vetores dos um ou mais vetores para gerar um conjunto reduzido dos um ou mais vetores, multiplicar os um ou mais vetores UDIST * SDIST pelo menos um removido dentre os um ou mais vetores VTDIST ou os um ou mais vetores VTQ_DIST para gerar os coeficientes harmônicos esféricos distintos intermediários e adicionar os coeficientes harmônicos esféricos distintos intermediários ao coeficiente harmônico esférico de segundo plano para recombinar o pelo menos um removido dentre os um ou mais vetores VTDIST ou os um ou mais vetores VTQ_DIST com os coeficientes harmônicos esféricos de segundo plano.
[0903] Cláusula 133149-16A. O dispositivo da cláusula 133149- 14A, em que os um ou mais processadores são adicionalmente configurados para determinar os coeficientes harmônicos esféricos de segundo plano como uma função dos um ou mais vetores UBG, os um ou mais vetores SBG e os um ou mais vetores VTBG, realizar a redução de ordem em relação aos coeficientes harmônicos esféricos de segundo plano para gerar os coeficientes harmônicos esféricos de segundo plano reduzidos que têm uma ordem igual a NBG, multiplicar os um ou mais UDIST pelos um ou mais vetores SDIST para gerar um ou mais vetores UDIST * SDIST, reordenar os um ou mais vetores UDIST * SDIST para gerar um ou mais vetores UDIST * SDIST reordenados, remover o pelo menos um determinado dentre os um ou mais vetores dos um ou mais vetores para gerar um conjunto reduzido dos um ou mais vetores, multiplicar os um ou mais vetores UDIST * SDIST reordenados pelo menos um removido dentre os um ou mais vetores VTDIST ou os um ou mais vetores VTQ_DIST para gerar os coeficientes harmônicos esféricos distintos intermediários e adicionar os coeficientes harmônicos esféricos distintos intermediários ao coeficiente harmônico esférico de segundo plano para recombinar o pelo menos um removido dentre os um ou mais vetores VTDIST ou os um ou mais vetores VTQ_DIST com os coeficientes harmônicos esféricos de segundo plano.
[0904] Cláusula 133149-17A. O dispositivo da cláusula 133149-15A ou da cláusula 133149-16A, em que os um ou mais processadores são adicionalmente configurados para codificar por áudio os coeficientes harmônicos esféricos de segundo plano após adicionar os coeficientes harmônicos esféricos distintos intermediários aos coeficientes harmônicos esféricos de segundo plano e gerar o fluxo de bits para incluir os coeficientes harmônicos esféricos de segundo plano codificados por áudio.
[0905] Cláusula 133149- 18 A. O dispositivo da cláusula 133149-1 A, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U representativa dos vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa dos valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa dos vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos, determinar um ou mais vetores VTDIST e um ou mais VTBG de uma transposta da matriz V, os um ou mais vetores VDIST descrevem um ou mais componentes distintos do campo sonoro e os um ou mais vetores VBG descrevem um ou mais componentes de segundo plano do campo sonoro, quantizar os um ou mais vetores VTDIST para gerar um ou mais vetores VTQ_DIST e reordenar os um ou mais vetores VTQDIST para gerar um ou mais vetores VTQ_DIST reordenados, e em que os um ou mais vetores incluem os um ou mais vetores VTQ_DIST reordenados.
[0906] A Figura 40F é um diagrama de blocos que ilustra o dispositivo de codificação de áudio exemplificativo 510F que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descrevem dois ou três campos de som dimensionais. O dispositivo de codificação de áudio 510F pode ser similar ao dispositivo de codificação de áudio 510C em que o dispositivo de codificação de áudio 510F inclui uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de fluxo de bits 516. Além disso, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510F pode ser similar a esta do dispositivo de codificação de áudio 510C em que a unidade de compressão de áudio 512 inclui uma unidade de decomposição 518 e uma unidade de reordenação de vetor 532, que pode operar similarmente a unidades similares do dispositivo de codificação de áudio 510C. Em alguns exemplos, o dispositivo de codificação de áudio 510F pode incluir uma unidade de quantização 534, conforme descrito em relação às Figuras 40D e 40E, para quantizar um ou mais vetores de qualquer um dos vetores UDIST 525C, os vetores UBG 525D, os vetores VTDIST 525E e os vetores VTBG 525 J.
[0907] A unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510F pode, entretanto, se diferenciar da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510C em que a unidade de análise de componente saliente 524 da unidade de extração de componente de campo sonoro 520 pode realizar uma análise de conteúdo para selecionar o número de componentes de primeiro plano, denotado como D no contexto das Figuras 40A a 40J. Em outras palavras, a unidade de análise de componente saliente 524 pode operar em relação às matrizes U, S e V 519 da maneira descrita acima para identificar se as versões decompostas dos coeficientes harmônicos esféricos foram geradas a partir dos objetos de áudio sintéticos ou a partir de uma gravação natural com um microfone. A unidade de análise de componente saliente 524 pode, então, determinar D com base em sua determinação sintética.
[0908] Além disso, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510F pode se diferir da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510C em que a unidade de extração de componente de campo sonoro 520 pode incluir uma unidade adicional, uma unidade de preservação de energia e redução de ordem 528F (ilustrada como “unidade de presv. de energia e red. de ordem 528F”). Por essas razões, a unidade de extração de componente de campo sonoro 520 do dispositivo de codificação de áudio 510F é denotada como a “unidade de extração de componente de campo sonoro 510F.”
[0909] A unidade de preservação de energia e redução de ordem 528F representa uma unidade configurada para realizar a redução de ordem dos componentes de segundo plano da matriz VBG 525H representativa dos vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos 511 enquanto preserva a energia geral (e pressão de som concomitante) do campo sonoro descrito em parte pela matriz VBG completa 525H. Nesse aspecto, a unidade de preservação de energia e redução de ordem 528F pode realizar operações similares àquelas descritas acima em relação à unidade de seleção de segundo plano 48 e à unidade de compensação de energia 38 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4.
[0910] A matriz VBG completa 525H tem dimensionalidade (N+1)2 x (N+1)2 - D, em que D representa um número de componentes principais ou, em outras palavras, valores singulares que são determinados para serem salientes em termos de serem componentes de áudio distintos do campo sonoro. Isto é, a matriz VBG completa 525H inclui aqueles valores singulares que são determinados como sendo segundo plano (BG) ou, em outras palavras, componentes ambientes ou de áudio não distinto do campo sonoro.
[0911] Conforme descrito acima em relação, por exemplo, à unidade de redução de ordem 524 das Figuras 40B a 40E, a unidade de preservação de energia e redução de ordem 528F pode remover, eliminar ou apagar de outra maneira (frequentemente zerando-se) aqueles dentre os valores singulares de segundo plano da matriz VBG 525H que correspondem às funções de base esférica de ordem superior. A unidade de preservação de energia e redução de ordem 528F pode emitir uma versão reduzida da matriz VBG 525H (denotada como matriz “VBG’ 5251” e referida doravante como “matriz VBG’ reduzida 5251”) para a unidade de transposta 522. A matriz VBG’ reduzida 5251 pode ter a dimensionalidade (f| + 1)2 x (N+1)2 - D, com f| < N. A unidade de transposta 522 aplica uma operação de transposta à matriz VBG’ reduzida 5251 para gerar e emitir uma matriz VTBG’ reduzida transposta 525J à unidade de matemática 526, que pode operar para reconstruir os componentes de som de segundo plano do campo sonoro computando-se UBG*SBG*VTBG com o uso da matriz UBG 525D, da matriz SBG 525B e da matriz VTBG’ reduzida transposta 525J.
[0912] Em conformidade com as técnicas descritas no presente documento, a unidade de preservação de energia e redução de ordem 528F é adicionalmente configurada para compensar possíveis reduções na energia geral dos componentes de som de segundo plano do campo sonoro causadas através da redução da ordem da matriz VBG completa 525H para gerar a matriz VBG’ reduzida 5251. Em alguns exemplos, a unidade de preservação de energia e redução de ordem 528F compensa através da determinação de um ganho de compensação na forma de valores de amplificação para aplicar a cada uma das colunas (N+1)2 - D da matriz VBG’ reduzida 5251 a fim de aumentar a energia em raiz quadrada média (RMS) da matriz VBG’ reduzida 5251 a igual ou pelo menos mais próxima à RMS da matriz VBG completa 525H, antes de emitir a matriz VBG’ reduzida 5251 à unidade de transposta 522.
[0913] Em algumas ocorrências, a unidade de preservação de energia e redução de ordem 528F pode determinar a energia RMS de cada coluna da matriz VBG completa 525H e a energia RMS de cada coluna da matriz VBG’ reduzida 5251, então, determinar o valor de amplificação para a coluna como a razão entre a primeira e a última, conforme indicado na equação a seguir:
Figure img0051
[0914] em que a é o valor de amplificação para uma coluna, BG representa uma coluna única da matriz VBG 525H, e vBG’ representa a coluna única correspondente da matriz VBG’ 5251. Isso pode ser representado na notação de matriz como:
Figure img0052
[0915] em que
Figure img0053
é um vetor RMS que tem elementos que denotam a RMS de cada coluna da matriz VBG 525H, VBG’RMS é um vetor RMS que tem elementos que denotam a RMS de cada coluna da matriz VBG’ reduzida 5251, e A é um vetor de valor de amplificação que tem elementos para cada coluna da matriz VBG 525H. A unidade de preservação de energia e redução de ordem 528F aplica uma multiplicação escalar a cada coluna da matriz VBG reduzida 5251 com o uso do valor de amplificação correspondente, α, ou na forma de vetor:
Figure img0054
[0916] em que
Figure img0055
representa uma matriz VBG’ reduzida 5251 incluindo a compensação de energia. A unidade de preservação de energia e redução de ordem 528F pode emitir a matriz VBG’ reduzida 5251 incluindo a compensação de energia à unidade de transposta 522 para equalizar (ou quase equalizar) a RMS da matriz VBG’ reduzida 5251 a esta da matriz VBG completa 525H. A dimensionalidade de saída da matriz VBG’ reduzida 5251 incluindo a compensação de energia pode ser (f| +1)2 x (N+1)2 - D.
[0917] Em alguns exemplos, para determinar cada RMS das respectivas colunas da matriz VBG’ reduzida 5251 e da matriz VBG completa 525H, a unidade de preservação de energia e redução de ordem 528F pode primeiro aplicar um renderizador de coeficientes harmônicos esféricos (SHC) de referência às colunas. A aplicação do renderizador de SHC de referência pela unidade de preservação de energia e redução de ordem 528F permite a determinação da RMS no domínio de SHC para determinar a energia do campo sonoro geral descrito por cada coluna do quadro representado pela matriz VBG’ reduzida 5251 e pela matriz VBG completa 525H. Assim, em tais exemplos, a unidade de preservação de energia e redução de ordem 528F pode aplicar o renderizador de SHC de referência a cada coluna da matriz VBG completa 525H e a cada coluna reduzida da matriz VBG’ reduzida 5251, determinar os respectivos valores de RMS para a coluna e a coluna reduzida e determinar o valor de amplificação para a coluna como a razão entre o valor de RMS para a coluna e o valor de RMS para coluna reduzida. Em alguns exemplos, a redução de ordem para a matriz VBG’ reduzida 5251 procede no sentido da coluna coincidente à preservação de energia. Isso pode ser expresso em pseudocódigo conforme segue:
[0918] R = ReferenceRenderer;
[0919] para m = nuniDist+1: numChannels
[0920] fullV = V(:,m); //toma uma coluna de V => fullV
[0921] reducedV =[fullV(l:numBG); zeros(numChannels-numBG,l)];
[0922] alpha=sqrt(sum( (fullV**R).A2/sum((reduc edV**R) .A2));
[0923] se isnan(alpha) || isinf(alpha), alpha = 1; fim;
[0924] V_out(:,m) = reducedV * alpha;
[0925] fim
[0926] No pseudocódigo acima, numChannels pode - D, numBG pode representar ((r, +1)2, V pode representar a matriz VBG 525H e V_out pode representar a matriz VBG’ reduzida 5251 e R pode representar o renderizador de SHC de referência da unidade de preservação de energia e redução de ordem 528F. A dimensionalidade de V pode ser (N+1)2 x (N+1)2 - D e a dimensionalidade de V_out pode ser (rj +1)2 x (N+1)2 - D.
[0927] Como um resultado, o dispositivo de codificação de áudio 510F pode, ao representar a pluralidade de coeficientes harmônicos esféricos 511, reconstruir os componentes de som de segundo plano com o uso de uma matriz VBG’ de ordem reduzida 5251 que inclui a compensação da energia que pode ser perdida como um resultado do processo de redução de ordem.
[0928] A Figura 40G é um diagrama de blocos que ilustra o dispositivo de codificação de áudio exemplificativo 510G que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descrevem dois ou três campos de som dimensionais. No exemplo da Figura 40G, o dispositivo de codificação de áudio 510G inclui uma unidade de extração de componente de campo sonoro 520F. Por sua vez, a unidade de extração de componente de campo sonoro 520F inclui uma unidade de análise de componente saliente 524G.
[0929] A unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510G pode, entretanto, se diferir da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 10F em que a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510G inclui uma unidade de análise de componente saliente 524G. A unidade de análise de componente saliente 524G pode representar uma unidade configurada para determinar a saliência ou distinção dos dados de áudio que representam um campo sonoro, com o uso das informações com base na direcionalidade associadas aos dados de áudio.
[0930] Embora as determinações com base em energia possam melhorar a renderização de um campo sonoro decomposto por SVD para identificar os componentes de áudio distintos do campo sonoro, as determinações com base em energia podem também fazer com que um dispositivo identifique erroneamente os componentes de áudio de segundo plano como componentes de áudio distintos, em casos em que os componentes de áudio de segundo plano exibem um nível de energia alto. Isto é, uma separação com base apenas em energia de componentes de áudio distintos e de segundo plano pode não ser robusta, na medida em que componentes de áudio de segundo plano energéticos (por exemplo, mais altos) podem ser incorretamente identificados como sendo componentes de áudio distintos. Para distinguir de modo mais robusto entre os componentes de áudio distintos e de segundo plano do campo sonoro, vários aspectos das técnicas descritas nesta revelação podem permitir que a unidade de análise de componente saliente 524G realize uma análise com base em direcionalidade dos SHC 511 para separar os componentes de áudio distintos e de segundo plano das versões decompostas dos SHC 511.
[0931] A unidade de análise de componente saliente 524G pode, no exemplo da Figura 40H, representar uma unidade configurada ou operável de outra maneira para separar os elementos distintos (ou de primeiro plano) dos elementos de segundo plano incluídos em uma ou mais dentre a matriz V 519, a matriz S 519B e a matriz U 519C, similar às unidades de análise de componente saliente 524 dos dispositivos de codificação de áudio anteriormente descritos 510-510F. De acordo com algumas técnicas com base em SVD, a maioria dos componentes energéticos (por exemplo, os primeiros poucos vetores de uma ou mais dentre as matrizes V, S e U 519-519C ou uma matriz derivada das mesmas) pode ser tratada como componentes distintos. Entretanto, a maioria dos componentes energéticos (que são representados pelos vetores) de uma ou mais dentre as matrizes 519-519C pode não, em todos os cenários, representar os componentes/sinais que são os mais direcionais.
[0932] Diferente das unidades de análise de componente saliente anteriormente descritas 524, a unidade de análise de componente saliente 524G pode implantar um ou mais aspectos das técnicas descritas no presente documento para identificar os elementos de primeiro plano com base na direcionalidade dos vetores de uma ou mais das matrizes 519-519C ou uma matriz derivada das mesmas. Em alguns exemplos, a unidade de análise de componente saliente 524G pode identificar ou selecionar como componentes de áudio distintos (em que os componentes podem também ser referidos como “objetos”), um ou mais vetores com base tanto na energia quanto na direcionalidade dos vetores. Por exemplo, a unidade de análise de componente saliente 524G pode identificar aqueles vetores de uma ou mais dentre as matrizes 519-519C (ou uma matriz derivada das mesmas) que exibem tanto energia alta quanto direcionalidade alta (por exemplo, representada como um quociente de direcionalidade) como os componentes de áudio distintos. Como um resultado, se a unidade de análise de componente saliente 524G determinar que um vetor particular é relativamente menos direcional em comparação a outros vetores de uma ou mais dentre as matrizes 519-519C (ou uma matriz derivada das mesmas), então, independentemente do nível de energia associado ao vetor particular, a unidade de análise de componente saliente 524G pode determinar que o vetor particular representa os componentes de áudio de segundo plano (ou ambiente) do campo sonoro representado pelos SHC 511. Nesse aspecto, a unidade de análise de componente saliente 524G pode realizar as operações similares àquelas descritas acima em relação à unidade de análise de campo sonoro 44 do dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4.
[0933] Em algumas implantações, a unidade de análise de componente saliente 524G pode identificar objetos de áudio distintos (que, conforme notado acima, podem também ser referidos como “componentes”) com base na direcionalidade, realizando-se as operações a seguir. A unidade de análise de componente saliente 524G pode multiplicar (por exemplo, com o uso de um ou mais processos de multiplicação de matriz) a V matriz 519A pela matriz S 519B. Multiplicando-se a matriz V 519A e a matriz S 519B, a unidade de análise de componente saliente 524G pode obter uma matriz VS. Adicionalmente, a unidade de análise de componente saliente 524G pode elevar ao quadrado (isto é, exponenciar por uma potência de dois) pelo menos algumas das entradas de cada um dos vetores (que podem estar em uma fileira) da matriz VS. Em algumas ocorrências, a unidade de análise de componente saliente 524G podem somar aquelas entradas elevadas ao quadrado de cada vetor que são associadas a uma ordem maior do que 1. Como um exemplo, se cada vetor da matriz incluir 25 entradas, a unidade de análise de componente saliente 524G pode, em relação a cada vetor, elevar ao quadrado as entradas de cada vetor começando na quinta entrada e terminando na vigésima quinta entrada, somando as entradas elevadas ao quadrado para determinar um quociente de direcionalidade (ou um indicador de direcionalidade). Cada operação de soma pode resultar em um quociente de direcionalidade para um vetor correspondente. Nesse exemplo, a unidade de análise de componente saliente 524G pode determinar que aquelas entradas de cada fileira que são associadas a uma ordem menor ou igual a 1, ou seja, a primeira à quarta entrada, são mais geralmente direcionadas à quantidade de energia e menos à direcionalidade daquelas entradas. Isto é, os ambisonics de ordem inferior associados a uma ordem de zero ou um correspondem às funções de base esférica que, conforme ilustrado na Figura 1 e na Figura 2, não fornecem muito em termos da direção da onda de pressão, mas, em vez disso, fornecem algum volume (que é representativo da energia).
[0934] As operações descritas no exemplo acima podem também ser expressas de acordo com o pseudocódigo a seguir. O pseudocódigo abaixo inclui anotações, na forma de instruções de comentário que são incluídas dentro de ocorrências consecutivas das cadeias de caracteres “/*” e “*/” (sem aspas).
Figure img0056
[0935] /* A próxima linha é direcionada para analisar cada fileira independentemente e somar os valores na primeira (como um exemplo) fileira da quinta entrada à vigésima quinta entrada para determinar o quociente de direcionalidade ou métrica de direcionalidade para um vetor correspondente. Elevar ao quadrado as entradas antes da soma. As entradas de cada fileira que são associadas a uma ordem maior do que 1 são associadas a ambisonics de ordem superior e são, assim, mais propensas a serem direcionais. */
Figure img0057
[0936] /* A próxima linha é direcionada ao sortimento da soma dos quadrados para a matriz VS gerada e seleção de um conjunto dos maiores valores (por exemplo, três ou quatro dos maiores valores) */
Figure img0058
[0937] Em outras palavras, de acordo com o pseudocódigo acima, a unidade de análise de componente saliente 524G pode selecionar entradas de cada vetor da matriz VS decomposta a partir daquelas dos SHC 511 que correspondem a uma função de base esférica que tem uma ordem maior do que um. A unidade de análise de componente saliente 524G pode, então, elevar ao quadrado essas entradas para cada vetor da matriz VS, somando as entradas quadradas para identificar, computar ou determinar de outra maneira uma métrica ou quociente de direcionalidade para cada vetor da matriz VS. A seguir, a unidade de análise de componente saliente 524G pode sortir os vetores da matriz VS com base nas respectivas métricas de direcionalidade de cada um dos vetores. A unidade de análise de componente saliente 524G pode sortir esses vetores em uma ordem decrescente das métricas de direcionalidade, de modo que aqueles vetores com a maior direcionalidade correspondente sejam os primeiros e aqueles vetores com a menor direcionalidade correspondente sejam os últimos. A unidade de análise de componente saliente 524G pode, então, selecionar o subconjunto não zero dos vetores que têm a maior métrica de direcionalidade relativa.
[0938] De acordo com alguns aspectos das técnicas descritas no presente documento, o dispositivo de codificação de áudio 510G ou um ou mais componentes do mesmo podem identificar ou usar de outra maneira um número predeterminado dos vetores da matriz VS como os componentes de áudio distintos. Por exemplo, após selecionar as entradas 5 a 25 de cada fileira da matriz VS e elevar ao quadrado e somar as entradas selecionadas para determinar a métrica de direcionalidade relativa para cada vetor respectivo, a unidade de análise de componente saliente 524G pode implantar a seleção adicional dentre os vetores para identificar os vetores que representam os componentes de áudio distintos. Em alguns exemplos, a unidade de análise de componente saliente 524G pode selecionar um número predeterminado dos vetores da matriz VS, comparando- se os quocientes de direcionalidade dos vetores. Como um exemplo, a unidade de análise de componente saliente 524G pode selecionar os quatro vetores representados na matriz VS que têm os quatro maiores quocientes de direcionalidade (e que são os primeiros quatro vetores da matriz VS sortida). Por sua vez, a unidade de análise de componente saliente 524G pode determinar que os quatro vetores selecionados representam os quatro objetos de áudio mais distintos associados à representação de SHC correspondente do campo sonoro.
[0939] Em alguns exemplos, a unidade de análise de componente saliente 524G pode reordenar os vetores derivados da matriz VS, para refletir a distinção dos quatro vetores selecionados, conforme descrito acima. Em um exemplo, a unidade de análise de componente saliente 524G pode reordenar os vetores de modo que as quatro entradas selecionadas sejam relocadas ao topo da matriz VS. Por exemplo, a unidade de análise de componente saliente 524G pode modificar a matriz VS de modo que todas as quatro entradas selecionadas sejam posicionadas em uma primeira fileira (ou mais ao topo) da matriz VS reordenada resultante. Embora descrita no presente documento em relação à unidade de análise de componente saliente 524G, em várias implantações, outros componentes do dispositivo de codificação de áudio 510G, tal como a unidade de reordenação de vetor 532, podem realizar a reordenação.
[0940] A unidade de análise de componente saliente 524G pode comunicar a matriz resultante (isto é, a matriz VS, reordenada ou não, conforme o caso) para a unidade de geração de fluxo de bits 516. Por sua vez, a unidade de geração de fluxo de bits 516 pode usar a matriz VS 525K para gerar o fluxo de bits 517. Por exemplo, se a unidade de análise de componente saliente 524G tiver reordenado a matriz VS 525K, a unidade de geração de fluxo de bits 516 pode usar a fileira superior da versão reordenada da matriz VS 525K como os objetos de áudio distintos, tal como quantizando ou descartando os vetores restantes da versão reordenada da matriz VS 525K. Quantizando-se os vetores restantes da versão reordenada da matriz VS 525K, a unidade de geração de fluxo de bits 16 pode tratar os vetores restantes como dados de áudio ambiente ou de segundo plano.
[0941] Nos exemplos em que a unidade de análise de componente saliente 524G não ordenou a matriz VS 525K, a unidade de geração de fluxo de bits 516 pode distinguir os dados distintos dos dados de áudio de segundo plano, com base nas entradas particulares (por exemplo, as 5a a 25a entradas) de cada fileira da matriz VS 525K, conforme selecionado pela unidade de análise de componente saliente 524G. Por exemplo, a unidade de geração de fluxo de bits 516 pode gerar o fluxo de bits 517 quantizando ou descartando as primeiras quatro entradas de cada fileira da matriz VS 525K.
[0942] Dessa maneira, o dispositivo de codificação de áudio 510G e/ou os componentes do mesmo, tal como a unidade de análise de componente saliente 524G, podem implantar as técnicas desta revelação para determinar ou utilizar de outra maneira as razões das energias de coeficientes maiores ou menores dos dados de áudio, a fim de distinguir entre os objetos de áudio distintos e os dados de áudio de segundo plano representativos do campo sonoro. Por exemplo, conforme descrito, a unidade de análise de componente saliente 524G pode utilizar as razões de energia com base nos valores das várias entradas da matriz VS 525K gerada pela unidade de análise de componente saliente 524H. Combinando-se os dados fornecidos pela matriz V 519A e pela matriz S 519B, a unidade de análise de componente saliente 524G pode gerar a matriz VS 525K para fornecer as informações tanto sobre a direcionalidade quanto sobre a energia geral dos vários componentes dos dados de áudio, na forma de vetores e dados relacionados (por exemplo, quocientes de direcionalidade). Mais especificamente, a matriz V 519A pode fornecer informações relacionadas às determinações de direcionalidade, enquanto que a matriz S 519B pode fornecer as informações relacionadas às determinações de energia geral para os componentes dos dados de áudio.
[0943] Em outros exemplos, a unidade de análise de componente saliente 524G pode gerar a matriz VS 525K com o uso dos vetores VTDIST reordenados 539. Nesses exemplos, a unidade de análise de componente saliente 524G pode determinar a distinção com base na matriz V 519, antes de qualquer modificação com base na matriz S 519B. Em outras palavras, de acordo com esses exemplos, a unidade de análise de componente saliente 524G pode determinar a direcionalidade com o uso apenas da matriz V 519, sem realizar a etapa de gerar a matriz VS 525K. Mais especificamente, a matriz V 519A pode fornecer informações sobre a maneira pela qual os componentes (por exemplo, vetores da matriz V 519) dos dados de áudio são misturados e, potencialmente, informações sobre os vários efeitos sinérgicos dos dados transmitidos pelos vetores. Por exemplo, a matriz V 519A pode fornecer as informações sobre a “direção de chegada” dos vários componentes de áudio representados pelos vetores, tal como a direção de chegada de cada componente de áudio, conforme retransmitido ao dispositivo de codificação de áudio 510G por um EigenMike®. Conforme usado no presente documento, o termo “componente de dados de áudio” pode ser usado intercambiavelmente com a “entrada” de qualquer uma das matrizes 519 ou quaisquer matrizes derivadas das mesmas.
[0944] De acordo com algumas implantações das técnicas desta revelação, a unidade de análise de componente saliente 524G pode suplementar ou aumentar as representações de SHC com informações extras para fazer várias determinações descritas no presente documento. Como um exemplo, a unidade de análise de componente saliente 524G pode aumentar os SHC com informações extras a fim de determinar a saliência de vários componentes de áudio representados nas matrizes 519-519C. Como outro exemplo, a unidade de análise de componente saliente 524G e/ou a unidade de reordenação de vetor 532 pode aumentar o HOA com dados extras para distinguir entre os objetos de áudio distintos e os dados de áudio de segundo plano.
[0945] Em alguns exemplos, a unidade de análise de componente saliente 524G pode detectar que as porções (por exemplo, objetos de áudio distintos) dos dados de áudio exibem energia keynesiana. Um exemplo de tais objetos distintos pode ser associado a uma voz humana que modula. No caso de dados de áudio com base em voz que modula, a unidade de análise de componente saliente 524G pode determinar que a energia dos dados de modulação, como a razão para as energias dos componentes restantes, permanece aproximadamente constante (por exemplo, constante dentro de uma faixa limiar) ou aproximadamente estacionária ao longo do tempo. Tradicionalmente, se as características de energia dos componentes de áudio distintos com energia keynesiana (por exemplo, aqueles com a voz de modulação) mudarem de um quadro de áudio para outro, um dispositivo pode não ter a capacidade de identificar a série de componentes de áudio como um único sinal. Entretanto, a unidade de análise de componente saliente 524G pode implantar técnicas desta revelação para determinar uma direcionalidade ou uma abertura do objeto de distância representado como um vetor nas várias matrizes.
[0946] Mais especificamente, a unidade de análise de componente saliente 524G pode determinar que características tais como direcionalidade e/ou abertura são improváveis de mudar substancialmente através dos quadros de áudio. Conforme usado no presente documento, a abertura representa uma razão entre os coeficientes de ordem superior e os coeficientes de ordem inferior, dentro dos dados de áudio. Cada fileira da matriz V 519A pode incluir vetores que correspondem aos SHC particulares. A unidade de análise de componente saliente 524G pode determinar que os SHC de ordem inferior (por exemplo, associados a uma ordem menor ou igual a) tendem a representar dados ambientes, enquanto entradas de ordem maior tendem a representar dados distintos. Adicionalmente, a unidade de análise de componente saliente 524G pode determinar que, em muitas ocorrências, os SHC de ordem superior (por exemplo, associados a uma ordem maior do que 1) exibem energia maior e que a razão de energia dos SHC de ordem superior para ordem inferior permanece substancialmente similar (ou aproximadamente constante) de quadro de áudio para quadro de áudio.
[0947] Um ou mais componentes da unidade de análise de componente saliente 524G podem determinar as características dos dados de áudio como a direcionalidade e a abertura, com o uso da matriz V 519. Dessa maneira, os componentes do dispositivo de codificação de áudio 510G, tal como a unidade de análise de componente saliente 524G, podem implantar as técnicas descritas no presente documento para determinar a saliência e/ou distinguir objetos de áudio distintos do áudio de segundo plano, com o uso das informações com base na direcionalidade. Usando a direcionalidade para determinar a saliência e/ou distinção, a unidade de análise de componente saliente 524G pode chegar a determinações mais robustas do que em casos de um dispositivo configurado para determinar a saliência e/ou distinção com o uso de dados com base em energia apenas. Embora descrita acima em relação a determinações com base em direcionalidade da saliência e/ou distinção, a unidade de análise de componente saliente 524G pode implantar as técnicas desta revelação para usar a direcionalidade adicionalmente a outras características, tal como energia, para determinar a saliência e/ou distinção de componentes particulares dos dados de áudio, conforme representado por vetores de uma ou mais dentre as matrizes 519-519C (ou qualquer matriz derivada das mesmas).
[0948] Em alguns exemplos o método inclui identificar um ou mais objetos de áudio distintos de um ou mais coeficientes harmônicos esféricos (SHC) associados aos objetos de áudio com base em uma direcionalidade determinada para um ou mais dentre os objetos de áudio. Em um exemplo, o método inclui adicionalmente determinar a direcionalidade dos um ou mais objetos de áudio com base nos coeficientes harmônicos esféricos associados aos objetos de áudio. Em alguns exemplos, o método inclui adicionalmente realizar uma decomposição de valor singular em relação aos coeficientes harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos; e representar a pluralidade de coeficientes harmônicos esféricos como uma função de pelo menos uma porção de uma ou mais dentre a matriz U , a matriz S e a matriz V, em que a determinação da respectiva direcionalidade dos um ou mais objetos de áudio baseia-se pelo menos em parte na matriz V.
[0949] Em um exemplo, o método inclui adicionalmente reordenar um ou mais vetores da matriz V de modo que os vetores que têm um quociente de direcionalidade maior sejam posicionados acima dos vetores que têm um quociente de direcionalidade menor na matriz V reordenada. Em um exemplo, o método inclui adicionalmente determinar que os vetores que têm o quociente de direcionalidade maior incluem informações direcionais maiores do que os vetores que têm o quociente de direcionalidade menor. Em um exemplo, o método inclui adicionalmente multiplicar a matriz V pela matriz S para gerar uma matriz VS, sendo que a matriz VS inclui um ou mais vetores. Em um exemplo, o método inclui adicionalmente selecionar entradas de cada fileira da matriz VS que são associadas a uma ordem maior do que 1, elevar ao quadro cada uma das entradas selecionadas para formar entradas elevadas ao quadrado correspondentes e, para cada fileira da matriz VS, somar todas as entradas elevadas ao quadro para determinar um quociente de direcionalidade para um vetor correspondente.
[0950] Em alguns exemplos, cada fileira da matriz VS inclui 25 entradas. Em um exemplo, a seleção das entradas de cada fileira da matriz VS associada à ordem maior do que 1 inclui selecionar todas as entradas começando em uma 5a entrada de cada fileira da matriz VS e terminando em uma 25a entrada de cada fileira da matriz VS. Em um exemplo, o método inclui adicionalmente selecionar um subconjunto dos vetores da matriz VS para representar os objetos de áudio distintos. Em alguns exemplos, a seleção do subconjunto inclui selecionar quatro vetores da matriz VS, e os quatro vetores selecionados têm os quatro maiores quocientes de direcionalidade de todos os vetores da matriz VS. Em um exemplo, a determinação de que o subconjunto selecionado dos vetores representa os objetos de áudio distintos baseia-se tanto na direcionalidade quanto em uma energia de cada vetor.
[0951] Em alguns exemplos o método inclui identificar um ou mais objetos de áudio distintos de um ou mais coeficientes harmônicos esféricos associados aos objetos de áudio com base em uma direcionalidade e uma energia determinadas para um ou mais dentre os objetos de áudio. Em um exemplo, o método inclui adicionalmente determinar uma ou ambas dentre a direcionalidade e a energia dos um ou mais objetos de áudio com base nos coeficientes harmônicos esféricos associados aos objetos de áudio. Em alguns exemplos, o método inclui adicionalmente realizar uma decomposição de valor singular em relação aos coeficientes harmônicos esféricos representativos do campo sonoro para gerar uma matriz U representativa de vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e representar a pluralidade de coeficientes harmônicos esféricos como uma função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V, em que a determinação da respectiva direcionalidade dos um ou mais objetos de áudio baseia-se pelo menos em parte na matriz V e em que a determinação da respectiva energia dos um ou mais objetos de áudio baseia- se, pelo menos em parte, na matriz S.
[0952] Em um exemplo, o método inclui adicionalmente multiplicar a matriz V pela matriz S para gerar uma matriz VS, sendo que a matriz VS inclui um ou mais vetores. Em alguns exemplos, o método inclui adicionalmente selecionar entradas de matriz VS que são associadas a uma ordem maior do que 1, elevar ao quadro cada uma das entradas selecionadas para formar entradas elevadas ao quadrado correspondentes e, para cada fileira da matriz VS, somar todas as entradas elevadas ao quadro para gerar um quociente de direcionalidade para um vetor correspondente da matriz VS. Em alguns exemplos, cada fileira da matriz VS inclui 25 entradas. Em um exemplo, a seleção das entradas de cada fileira da matriz VS associada à ordem maior do que 1 compreende selecionar todas as entradas começando em uma 5a entrada de cada fileira da matriz VS e terminando em uma 25a entrada de cada fileira da matriz VS. Em alguns exemplos, o método inclui adicionalmente selecionar um subconjunto dos vetores para representar os objetos de áudio distintos. Em um exemplo, a seleção do subconjunto compreende selecionar quatro vetores da matriz VS, e os quatro vetores selecionados têm os quatro maiores quocientes de direcionalidade de todos os vetores da matriz VS. Em alguns exemplos, a determinação de que o subconjunto selecionado dos vetores representa os objetos de áudio distintos baseia-se tanto na direcionalidade quanto em uma energia de cada vetor.
[0953] Em alguns exemplos, um método inclui determinar, com o uso das informações com base na direcionalidade, um ou mais primeiros vetores que descrevem os componentes distintos do campo sonoro e um ou mais segundos vetores que descrevem os componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos realizando-se uma transformação em relação à pluralidade de coeficientes harmônicos esféricos. Em um exemplo, a transformação compreende uma decomposição de valor singular que gera uma matriz U representativa dos vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa dos valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa dos vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos. Em um exemplo, a transformação compreende uma análise de componente principal para identificar os componentes distintos do campo sonoro e os componentes de segundo plano do campo sonoro.
[0954] Em alguns exemplos, um dispositivo é configurado ou operável de outra maneira para realizar qualquer uma das técnicas descritas no presente documento ou qualquer combinação das técnicas. Em alguns exemplos, um meio de armazenamento legível por computador é codificado com instruções que, quando executadas, fazem com que um ou mais processadores realizem qualquer uma das técnicas descritas no presente documento ou qualquer combinação das técnicas. Em alguns exemplos, um dispositivo inclui meios para realizar qualquer uma das técnicas descritas no presente documento ou qualquer combinação das técnicas.
[0955] Isto é, os aspectos anteriores das técnicas podem permitir que o dispositivo de codificação de áudio 510G seja configurado para operar em conformidade com as cláusulas a seguir.
[0956] Cláusula 134954-1B. Um dispositivo, tal como o dispositivo de codificação de áudio 510G que compreende: um ou mais processadores configurados para identificar um ou mais objetos de áudio distintos de um ou mais coeficientes harmônicos esféricos associados aos objetos de áudio, com base em uma direcionalidade e uma energia determinadas para um ou mais dentre os objetos de áudio.
[0957] Cláusula 134954-2B. O dispositivo da cláusula 134954- IB, em que os um ou mais processadores são adicionalmente configurados para determinar uma ou ambas dentre a direcionalidade e a energia dos um ou mais objetos de áudio com base nos coeficientes harmônicos esféricos associados aos objetos de áudio.
[0958] Cláusula 134954-3B. O dispositivo de qualquer uma das reivindicações 1B ou 2B ou combinações das mesmas, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação aos coeficientes harmônicos esféricos representativos do campo sonoro para gerar uma matriz U representativa dos vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa dos valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa dos vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos e representar a pluralidade de coeficientes harmônicos esféricos como uma função de pelo menos uma porção de uma ou mais dentre a matriz U, a matriz S e a matriz V, em que os um ou mais processadores são configurados para determinar a respectiva direcionalidade dos um ou mais objetos de áudio com base, pelo menos em parte, na matriz V, e em que os um ou mais processadores são configurados para determinar a respectiva energia dos um ou mais objetos de áudio com base, pelo menos em parte, na matriz S.
[0959] Cláusula 134954-4B. O dispositivo da cláusula 134954-3B, em que os um ou mais processadores são adicionalmente configurados para multiplicar a matriz V pela matriz S para gerar uma matriz VS, sendo que a matriz VS inclui um ou mais vetores.
[0960] Cláusula 134954-5B. O dispositivo da Cláusula 134954-5B. O dispositivo da cláusula 134954-4B, em que os um ou mais processadores são adicionalmente configurados para selecionar entradas de cada fileira da matriz VS que são associadas a uma ordem maior do que 1, elevar ao quadro cada uma das entradas selecionadas para formar entradas elevadas ao quadrado correspondentes e, para cada fileira da matriz VS, somar todas as entradas elevadas ao quadro para gerar um quociente de direcionalidade para um vetor correspondente da matriz VS.
[0961] Cláusula 134954-6B. O dispositivo de qualquer uma das reivindicações 5B e 6B ou combinação das mesmas, em que cada fileira da matriz VS inclui 25 entradas.
[0962] Cláusula 134954-7B. O dispositivo da cláusula 134954-6B, em que os um ou mais processadores são configurados para selecionar todas as entradas começando em uma 5a entrada de cada fileira da matriz VS e terminando em uma 25a entrada de cada fileira da matriz VS.
[0963] Cláusula 134954-8B. O dispositivo de qualquer uma dentre a cláusula 134954-6B e a cláusula 134954-7B ou combinação das mesmas, em que os um ou mais processadores são adicionalmente configurados para selecionar um subconjunto dos vetores para representar objetos de áudio distintos.
[0964] Cláusula 134954-9B. O dispositivo da cláusula 134954-8B, em que os um ou mais processadores são configurados para selecionar quatro vetores da matriz VS, e em que os quatro vetores selecionados têm os quatro maiores quocientes de direcionalidade de todos os vetores da matriz VS.
[0965] Cláusula 134954-10B. O dispositivo de qualquer uma dentre a cláusula 134954-6B e a cláusula 134954-7B ou combinação das mesmas, em que os um ou mais processadores são adicionalmente configurados para determinar que o subconjunto selecionado dos vetores que representam os objetos de áudio distintos baseia-se tanto na direcionalidade quanto em uma energia de cada vetor.
[0966] Cláusula 134954-1C. Um dispositivo, tal como o dispositivo de codificação de áudio 510G que compreende: um ou mais processadores configurados para determinar, com o uso das informações com base na direcionalidade, um ou mais primeiros vetores que descrevem os componentes distintos do campo sonoro e um ou mais segundos vetores que descrevem os componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos realizando-se uma transformação em relação à pluralidade de coeficientes harmônicos esféricos.
[0967] Cláusula 134954-2C. O método da cláusula 134954-1C, em que a transformação compreende uma decomposição de valor singular que gera uma matriz U representativa dos vetores singulares à esquerda da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa dos valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa dos vetores singulares à direita da pluralidade de coeficientes harmônicos esféricos.
[0968] Cláusula 134954-3C. O método da cláusula 134954-2C, que compreende adicionalmente as operações citadas por qualquer combinação da cláusula 134954-1A à cláusula 134954-12A e cláusula 134954-1B à cláusula 134954-9B.
[0969] Cláusula 134954-4C. O método da cláusula 134954-1C, em que a transformação compreende uma análise de componente principal para identificar os componentes distintos do campo sonoro e os componentes de segundo plano do campo sonoro.
[0970] A Figura 40H é um diagrama de blocos que ilustra o dispositivo de codificação de áudio exemplificativo 510H que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descrevem dois ou três campos de som dimensionais. O dispositivo de codificação de áudio 510H pode ser similar ao dispositivo de codificação de áudio 510G em que o dispositivo de codificação de áudio 510H inclui uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de fluxo de bits 516. Além disso, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510H pode ser similar a esta do dispositivo de codificação de áudio 510G em que a unidade de compressão de áudio 512 inclui uma unidade de decomposição 518 e uma unidade de extração de componente de campo sonoro 520G, que pode operar similarmente a unidades similares do dispositivo de codificação de áudio 510G. Em alguns exemplos, o dispositivo de codificação de áudio 510H pode incluir uma unidade de quantização 534, conforme descrito em relação às Figuras 40D e 40E, para quantizar um ou mais vetores de qualquer um dos vetores UDIST 525C, os vetores UBG 525D, os vetores VTDIST 525E e os vetores VTBG 525J.
[0971] A unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510H pode, entretanto, se diferenciar da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510G em que a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510H inclui uma unidade adicional denotada como a unidade de interpolação 550. A unidade de interpolação 550 pode representar uma unidade que interpola subquadros de um primeiro quadro de áudio dos subquadros do primeiro quadro de áudio e um quadro de áudio temporariamente subsequente ou precedente, conforme descrito em mais detalhes abaixo em relação às Figuras 45 e 45B. A unidade de interpolação 550 pode, na realização dessa interpolação, reduzir a complexidade computacional (em termos de ciclos de processamento e/ou consumo de memória) reduzindo-se potencialmente a extensão a qual exige-se que a unidade de decomposição 518 decomponha os SHC 511. Nesse aspecto, a unidade de interpolação 550 pode realizar as operações similares àquelas descritas acima em relação à unidade de interpolação espaço-temporal 50 do dispositivo de codificação de áudio 24 mostrado no exemplo da Figura 4.
[0972] Isto é, a decomposição de valor singular realizada pela unidade de decomposição 518 consume potencialmente muita memória e/ou processador, enquanto também, em alguns exemplos, leva quantidades extensivas de tempo para decompor os SHC 511, especialmente na medida em que a ordem dos SHC 511 aumenta. A fim de reduzir a quantidade de tempo e tornar a compressão dos SHC 511 mais eficaz (em termos de ciclos de processamento e/ou consumo de memória), as técnicas descritas nesta revelação podem fornecer a interpolação de um ou mais subquadros do primeiro quadro de áudio, em que cada um dos subquadros pode representar versões decompostas dos SHC 511. Em vez de realizar a SVD em relação ao quadro inteiro, as técnicas podem permitir que a unidade de decomposição 518 decomponha um primeiro subquadro de um primeiro quadro de áudio, gerando uma matriz V 519’.
[0973] A unidade de decomposição 518 pode também decompor um segundo subquadro de um segundo quadro de áudio, em que esse segundo quadro de áudio pode ser temporariamente subsequente ou temporariamente precedente ao primeiro quadro de áudio. A unidade de decomposição 518 pode emitir uma matriz V 519’ para esse subquadro do segundo quadro de áudio. A unidade de interpolação 550 pode, então, interpolar os subquadros restantes do primeiro quadro de áudio com base nas matrizes V 519’ decompostas a partir do primeiro e segundo subquadros, emitindo a matriz V 519, a matriz S 519B e a matriz U 519C, em que as decomposições para os subquadros restantes podem ser computadas com base nos SHC 511, na matriz V 519A para o primeiro quadro de áudio e nas matrizes V interpoladas 519 para os subquadros restantes do primeiro quadro de áudio. A interpolação pode, portanto, evitar a computação das decomposições para os subquadros restantes do primeiro quadro de áudio.
[0974] Além disso, conforme notado acima, a matriz U 519C pode não ser contínua de quadro para quadro, em que os componentes distintos da matriz U 519C decomposta a partir de um primeiro quadro de áudio dos SHC 511 podem ser especificados em fileiras e/ou colunas diferentes do que na matriz U 519C decomposta a partir de um segundo quadro de áudio dos SHC 511. Realizando-se essa interpolação, a descontinuidade pode ser reduzida dado que uma interpolação linear pode ter um efeito de suavização que pode reduzir quaisquer artefatos introduzidos devido aos limites de quadro (ou, em outras palavras, a segmentação dos SHC 511 em quadros). Usar a matriz V 519’ para realizar essa interpolação e, então, recuperar as matrizes U 519C com base na matriz V interpolada 519’ dos SHC 511 pode suavizar quaisquer efeitos da reordenação da matriz U 519C.
[0975] Em operação, a unidade de interpolação 550 pode interpolar um ou mais subquadros de um primeiro quadro de áudio de uma primeira decomposição, por exemplo, a matriz V 519’, de uma porção de uma primeira pluralidade de coeficientes harmônicos esféricos 511 incluída no primeiro quadro e uma segunda decomposição, por exemplo, a matriz V 519' de uma porção de uma segunda pluralidade de coeficientes harmônicos esféricos 511 incluída em um segundo quadro para gerar os coeficientes harmônicos esféricos interpolados decompostos para os um ou mais subquadros.
[0976] Em alguns exemplos, a primeira decomposição compreende a primeira matriz V 519' representativa dos vetores singulares à direita da porção da primeira pluralidade de coeficientes harmônicos esféricos 511. Igualmente, em alguns exemplos, a segunda decomposição compreende a segunda matriz V 519' representativa dos vetores singulares à direita da porção da segunda pluralidade de coeficientes harmônicos esféricos.
[0977] A unidade de interpolação 550 pode realizar uma interpolação temporal em relação aos um ou mais subquadros com base na primeira matriz V 519’ e na segunda matriz V 519’. Isto é, a unidade de interpolação 550 pode interpolar temporariamente, por exemplo, o segundo, o terceiro e o quarto subquadros dentre quatro subquadros totais para o primeiro quadro de áudio com base em uma matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio e a matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio. Em alguns exemplos, essa interpolação temporal é uma interpolação temporal linear, em que a matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio é ponderada mais pesada ao interpolar o segundo subquadro do primeiro quadro de áudio do que ao interpolar o quarto subquadro do primeiro quadro de áudio. Ao interpolar o terceiro subquadro, as matrizes V 519’ podem ser ponderadas igualmente. Ao interpolar o quarto subquadro, a matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio pode ser mais pesadamente ponderada do que a matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio.
[0978] Em outras palavras, a interpolação temporal linear pode ponderar as matrizes V 519’ dada a proximidade de um dos subquadros do primeiro quadro de áudio a ser interpolado. Para o segundo subquadro a ser interpolado, a matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio é ponderada mais pesadamente dada a sua proximidade ao segundo subquadro a ser interpolado do que a matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio. Os pesos podem ser equivalentes por essa razão ao interpolar o terceiro subquadro com base nas matrizes V 519’. O peso aplicado à matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio pode ser maior do que este aplicado à matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio dado que o quarto subquadro a ser interpolado é mais próximo ao primeiro subquadro do segundo quadro de áudio do que ao primeiro subquadro do primeiro quadro de áudio.
[0979] Embora, em alguns exemplos, apenas um primeiro subquadro de cada quadro de áudio seja usado para realizar a interpolação, a porção da primeira pluralidade de coeficientes harmônicos esféricos pode compreender dois de quatro subquadros da primeira pluralidade de coeficientes harmônicos esféricos 511. Nesses e em outros exemplos, a porção da segunda pluralidade de coeficientes harmônicos esféricos 511 compreende dois de quatro subquadros da segunda pluralidade de coeficientes harmônicos esféricos 511.
[0980] Conforme notado acima, um único dispositivo, por exemplo, o dispositivo de codificação de áudio 510H, pode realizar a interpolação enquanto também decompõe a porção da primeira pluralidade de coeficientes harmônicos esféricos para gerar as primeiras decomposições da porção da primeira pluralidade de coeficientes harmônicos esféricos. Nesses e em outros exemplos, a unidade de decomposição 518 pode decompor a porção da segunda pluralidade de coeficientes harmônicos esféricos para gerar as segundas decomposições da porção da segunda pluralidade de coeficientes harmônicos esféricos 511. Embora descritas em relação a um único dispositivo, dois ou mais dispositivos podem realizar as técnicas descritas nesta revelação, em que um dos dois dispositivos realiza a decomposição e o outro dentre os dispositivos realiza a interpolação em conformidade com as técnicas descritas nesta revelação.
[0981] Em outras palavras, o áudio 3D com base em harmônicas esféricas pode ser uma representação paramétrica do campo de pressão 3D em termos de funções de base ortogonal em uma esfera. Quanto maior a ordem N da representação, potencialmente maior é a resolução espacial e, frequentemente, maior é o número de coeficientes harmônicos esféricos (SH) (para um total de (N+1)2 coeficientes). Para muitas aplicações, uma compressão de largura de banda dos coeficientes pode ser exigida para ter a capacidade de transmitir e armazenar os coeficientes eficazmente. Essas técnicas direcionadas nesta revelação podem fornecer um processo de redução de dimensionalidade com base em quadro que usa a Decomposição de Valor Singular (SVD). A análise SVD pode decompor cada quadro de coeficientes em três matrizes U, S e V. Em alguns exemplos, as técnicas podem manipular alguns dos vetores em U como componentes direcionais do campo sonoro subjacente. Entretanto, quando manipulados dessa maneira, esses vetores (em U) são descontínuos de quadro para quadro - embora os mesmos representem o mesmo componente de áudio distinto. Essas descontinuidades podem levar a artefatos significativos quando os componentes são alimentados através de codificadores de áudio de transformada.
[0982] As técnicas descritas nesta revelação podem abordar essa descontinuidade. Isto é, as técnicas podem se basear na observação de que a matriz V pode ser interpretada como eixos geométricos espaciais ortogonais no domínio de Harmônicas Esféricas. A matriz U pode representar uma projeção dos dados de Harmônicas Esféricas (HOA) em termos daquelas funções de base, em que a descontinuidade pode ser atribuída às funções de base (V) que mudam a cada quadro - e são, portanto, descontínuas. Isso é diferente da decomposição similar, tal como a Transformada de Fourier, em que as funções de base são, em alguns exemplos, constantes de quadro para quadro. Nesses termos, a SVD pode ser considerada como um algoritmo de busca de compatibilidade. As técnicas descritas nesta revelação podem permitir a unidade de interpolação 550 para manter a continuidade entre as funções de base (V) de quadro para quadro - através da interpolação entre os mesmos.
[0983] Em alguns exemplos, as técnicas permitem que a unidade de interpolação 550 divida o quadro dos dados de SH em quatro subquadros, conforme descrito acima e adicionalmente descrito abaixo em relação às Figuras. 45 e 45B. A unidade de interpolação 550 pode, então, computar a SVD para o primeiro subquadro. Similarmente, computa-se a SVD para o primeiro subquadro do segundo quadro. Para cada um dentre o primeiro quadro e o segundo quadro, a unidade de interpolação 550 pode converter os vetores em V em um mapa espacial projetando-se os vetores em uma esfera (com o uso de uma matriz de projeção tal como uma matriz de projeto T). A unidade de interpolação 550 pode, então, interpretar os vetores em V como formados em uma esfera. Para interpolar as matrizes V para os três subquadros entre o primeiro subquadro do primeiro quadro o primeiro subquadro do próximo quadro, a unidade de interpolação 550 pode, então, interpolar esses formatos espaciais - e, então, transformar os mesmos de volta para vetores de SH por meio da inversão da matriz de projeção. As técnicas desta revelação podem, dessa maneira, fornecer uma transição suave entre as matrizes V.
[0984] Desse modo, o dispositivo de codificação de áudio 510H pode ser configurado para realizar vários aspectos das técnicas estabelecidas abaixo em relação às cláusulas a seguir.
[0985] Cláusula 135054-1A. Um dispositivo, tal como o dispositivo de codificação de áudio 510H, que compreende: um ou mais processadores configurados para interpolar um ou mais subquadros de um primeiro quadro de uma primeira decomposição de uma porção de uma primeira pluralidade de coeficientes harmônicos esféricos incluída no primeiro quadro e uma segunda decomposição de uma porção de uma segunda pluralidade de coeficientes harmônicos esféricos incluída em um segundo quadro para gerar os coeficientes harmônicos esféricos interpolados decompostos para os um ou mais subquadros.
[0986] Cláusula 135054-2A. O dispositivo da cláusula 135054-1A, em que a primeira decomposição compreende uma primeira matriz V representativa dos vetores singulares à direita da porção da primeira pluralidade de coeficientes harmônicos esféricos.
[0987] Cláusula 135054-3A. O dispositivo da cláusula 135054-1A, em que a segunda decomposição compreende uma segunda matriz V representativa dos vetores singulares à direita da porção da segunda pluralidade de coeficientes harmônicos esféricos.
[0988] Cláusula 135054-4A. O dispositivo da cláusula 135054-1A, em que a primeira decomposição compreende uma primeira matriz V representativa dos vetores singulares à direita da porção da primeira pluralidade de coeficientes harmônicos esféricos, e em que a segunda decomposição compreende uma segunda matriz V representativa dos vetores singulares à direita da porção da segunda pluralidade de coeficientes harmônicos esféricos.
[0989] Cláusula 135054-5A. O dispositivo da cláusula 135054-1 A, em que os um ou mais processadores são adicionalmente configurados para, ao interpolar os um ou mais subquadros, interpolar temporariamente os um ou mais subquadros com base na primeira decomposição e na segunda decomposição.
[0990] Cláusula 135054-6A. O dispositivo da cláusula 135054-1A, em que os um ou mais processadores são adicionalmente configurados para, ao interpolar os um ou mais subquadros, projetar a primeira decomposição em um domínio espacial para gerar as primeiras decomposições projetadas, projetar a segunda decomposição no domínio espacial para gerar as segundas decomposições projetadas, interpolar espacialmente as primeiras decomposições projetadas e as segundas decomposições projetadas para gerar uma primeira decomposição projetada espacialmente interpolada e uma segunda decomposição projetada espacialmente interpolada e interpolar temporariamente os um ou mais subquadros com base na primeira decomposição projetada espacialmente interpolada e a segunda decomposição projetada espacialmente interpolada.
[0991] Cláusula 135054-7A. O dispositivo da cláusula 135054-6A, em que os um ou mais processadores são adicionalmente configurados para projetar os coeficientes harmônicos esféricos temporariamente interpolados que resultam da interpolação dos um ou mais subquadros de volta para um domínio harmônico esférico.
[0992] Cláusula 135054-8A. O dispositivo da cláusula 135054-1A, em que a porção da primeira pluralidade de coeficientes harmônicos esféricos compreende um único subquadro da primeira pluralidade de coeficientes harmônicos esféricos.
[0993] Cláusula 135054-9A. O dispositivo da cláusula 135054-1A, em que a porção da segunda pluralidade de coeficientes harmônicos esféricos compreende um único subquadro da segunda pluralidade de coeficientes harmônicos esféricos.
[0994] Cláusula 135054-10A. O dispositivo da cláusula 135054-1A,
[0995] em que o primeiro quadro é dividido em quatro subquadros, e
[0996] em que a porção da primeira pluralidade de coeficientes harmônicos esféricos compreende apenas o primeiro subquadro da primeira pluralidade de coeficientes harmônicos esféricos.
[0997] Cláusula 135054-11A. O dispositivo da cláusula 135054-1A,
[0998] em que o segundo quadro é dividido em quatro subquadros, e
[0999] em que a porção da segunda pluralidade de coeficientes harmônicos esféricos compreende apenas o primeiro subquadro da segunda pluralidade de coeficientes harmônicos esféricos.
[1000] Cláusula 135054-12A. O dispositivo da cláusula 135054-1A, em que a porção da primeira pluralidade de coeficientes harmônicos esféricos compreende dois de quatro subquadros da primeira pluralidade de coeficientes harmônicos esféricos.
[1001] Cláusula 135054-13A. O dispositivo da cláusula 135054-1A, em que a porção da segunda pluralidade de coeficientes harmônicos esféricos compreende dois de quatro subquadros da segunda pluralidade de coeficientes harmônicos esféricos.
[1002] Cláusula 135054-14A. O dispositivo da cláusula 135054-1A, em que os um ou mais processadores são adicionalmente configurados para decompor a porção da primeira pluralidade de coeficientes harmônicos esféricos para gerar as primeiras decomposições da porção da primeira pluralidade de coeficientes harmônicos esféricos.
[1003] Cláusula 135054- 15 A. O dispositivo da cláusula 135054-1 A, em que os um ou mais processadores são adicionalmente configurados para decompor a porção da segunda pluralidade de coeficientes harmônicos esféricos para gerar as segundas decomposições da porção da segunda pluralidade de coeficientes harmônicos esféricos.
[1004] Cláusula 135054-16A. O dispositivo da cláusula 135054-1A, em que os um ou mais processadores são adicionalmente configurados para realizar uma decomposição de valor singular em relação à porção da primeira pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U representativa de vetores singulares à esquerda da primeira pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da primeira pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores singulares à direita da primeira pluralidade de coeficientes harmônicos esféricos.
[1005] Cláusula 135054- 17A. O dispositivo de cláusula 135054-1A, em que o um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor singular em relação à porção da segunda pluralidade de coeficientes harmônicos esféricos para gerar uma matriz U representante de vetores singulares à esquerda da segunda pluralidade de coeficientes harmônicos esféricos, uma matriz S representante de valores singulares da segunda pluralidade de coeficientes harmônicos esféricos e uma matriz V representante de vetores singulares à direita da segunda pluralidade de coeficientes harmônicos esféricos.
[1006] Cláusula 135054-18A. O dispositivo de cláusula 135054-1A, em que cada uma dentre a primeira e a segunda pluralidade de coeficientes harmônicos esféricos representa uma representação de onda plana do campo sonoro.
[1007] Cláusula 135054-19A. O dispositivo de cláusula 135054-1A, em que cada uma dentre a primeira e a segunda pluralidade de coeficientes harmônicos esféricos representa um ou mais objetos de áudio mono misturados entre si.
[1008] Cláusula 135054-20A. O dispositivo de cláusula 135054-1A, em que cada uma dentre a primeira e a segunda pluralidade de coeficientes harmônicos esféricos compreende os respectivos primeiro e segundo coeficientes harmônicos esféricos que representam um campo sonoro tridimensional. [0952] cláusula 135054-21A. O dispositivo de cláusula 135054-1A, em que cada uma dentre a primeira e a segunda pluralidade de coeficientes harmônicos esféricos é associada a pelo menos uma função de base esférica que tem uma ordem maior do que um.
[1009] Cláusula 135054-22A. O dispositivo de cláusula 135054-1A, em que cada uma dentre a primeira e a segunda pluralidade de coeficientes harmônicos esféricos é associada a pelo menos uma função de base esférica que tem uma ordem igual a quatro.
[1010] Embora descrito acima como sendo realizados pelo dispositivo de codificação de áudio exemplificativo 510H, os vários dispositivos de decodificação de áudio 24 e 540 também podem realizar qualquer um dos vários aspectos das técnicas estabelecidas em relação às cláusulas 135054-1A até 135054-22A.
[1011] A Figura 40I é um diagrama de blocos que ilustra um dispositivo de codificação de áudio exemplificativo 510I que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descrevem dois ou mais campos sonoros tridimensionais. O dispositivo de codificação de áudio exemplificativo 510I pode ser similar ao dispositivo de codificação de áudio exemplificativo 510H em que o dispositivo de codificação de áudio exemplificativo 510I inclui uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de fluxo de bits 516. Além disso, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio exemplificativo 510I pode ser similar à do dispositivo de codificação de áudio exemplificativo 510H em que a unidade de compressão de áudio 512 inclui uma unidade de decomposição 518 e uma unidade de extração de componente de campo sonoro 520, que pode operar similarmente às unidades semelhantes do dispositivo de codificação de áudio exemplificativo 510H. Em alguns exemplos, o dispositivo de codificação de áudio exemplificativo 10I pode incluir uma unidade de quantização 34, conforme descrito em relação às Figuras 3D e 3E, para quantizar um ou mais vetores de qualquer um dentre UDIST 25C, UBG 25D, VTDIST 25E e VTBG 25J.
[1012] Entretanto, embora tanto a unidade de compressão de áudio 512 do dispositivo de codificação de áudio exemplificativo 510I quanto a unidade de compressão de áudio 512 do dispositivo de codificação de áudio exemplificativo 10H incluam uma unidade de extração de componente de campo sonoro, a unidade de extração de componente de campo sonoro 520I do dispositivo de codificação de áudio exemplificativo 510I pode incluir um módulo adicional referido como unidade de compressão V 552. A unidade de compressão V 552 pode representar uma unidade configurada para comprimir um componente espacial do campo sonoro, isto é, um ou mais dos vetores VTDIST 539 nesse exemplo. Isto é, a decomposição de valor singular realizada em relação aos SHC pode decompor os SHC (que é representante do campo sonoro) em componentes de energia representados por vetores da matriz S, componentes de tempo representados pela matriz U e componentes especiais representados pela matriz V. A unidade de compressão V 552 pode realizar as operações similares àquelas descritas acima em relação à unidade de quantização 52.
[1013] Para propósitos de exemplo, os vetores VTDIST 539 são considerados para compreender dois vetores em fileira que têm 25 elementos cada (o que implica uma representação de HOA de quarta ordem do campo sonoro). Embora descrito em relação aos dois vetores em fileira, qualquer número de vetores pode ser incluído nos vetores VTDIST 539 até (N+1)2, onde n denota a ordem da representação de HOA do campo sonoro.
[1014] A unidade de compressão V pode receber os vetores VTDIST 539 e realizar um esquema de compressão para gerar representações de vetor comprimido VTDIST 539’. Esse esquema de compressão pode envolver qualquer esquema de compressão concebível para comprimir os elementos de um vetor ou geralmente dados, e não deve ser limitado ao exemplo descrito abaixo em mais detalhes.
[1015] A unidade de compressão V 552 pode realizar, como um exemplo, um esquema de compressão que inclui um ou mais dentre transformar representações de ponto flutuante de cada elemento dos vetores VTDIST 539 para representações inteiras de cada elemento dos vetores VTDIST 539, uniformizar a quantização das representações inteiras dos vetores VTDIST 539 e categorização e codificação das representações inteiras quantizadas dos vetores VTDIST 539. Vários dos um ou mais processos desse esquema de compressão podem ser controlados dinamicamente por parâmetros para alcançar ou quase alcançar, como um exemplo, uma taxa de bits alvo para o fluxo de bits resultante 517.
[1016] Dado que cada um dos vetores VTDIST 539 são ortonormais entre si, cada um dos vetores VTDIST 539 pode ser codificado independentemente. Em alguns exemplos, conforme descrito em mais detalhes abaixo, cada elemento de cada vetor VTDIST 539 pode ser codificado com o uso do mesmo modo de codificação (definido por vários sub-modos).
[1017] Em qualquer caso, conforme observado acima, esse esquema de codificação pode envolver primeiro transformar as representações de ponto flutuante de cada elemento (que é, em alguns exemplos, um número de ponto de flutuamento de 32 bits) de cada um dos vetores VTDIST 539 para uma representação inteira de 16 bits. A unidade de compressão V 552 pode realizar essas transformações de ponto flutuante para inteiro multiplicando-se cada elemento de um dado um dos vetores VTDIST 539 por 215, que é, em alguns exemplos, realizado por um deslocamento à direita por 15.
[1018] A unidade de compressão V 552 pode, então, realizar a quantização uniforme em relação a todos os elementos do dado um dos vetores VTDIST 539. A unidade de compressão V 552 pode identificar um tamanho de etapa de quantização com base em um valor, que pode ser denotado como um parâmetro de nbits. A unidade de compressão V 552 pode dinamicamente determinar esse parâmetro de nbits com base em uma taxa de bits alvo. A unidade de compressão V 552 pode determinar o tamanho de etapa de quantização como uma função desse parâmetro de nbits. Como um exemplo, a unidade de compressão V 552 pode determinar o tamanho de etapa de quantização (denotada como “delta” ou “Δ" nesta revelação) como igual a 2l6-nbits. Nesse exemplo, se nbits é igual a seis, delta é igual a 210 e existem 26 níveis de quantização. Nesse aspecto, para um elemento de vetor v, o elemento de vetor quantizado vq é igual a
Figure img0059
Figure img0060
[1019] A unidade de compressão V 552 pode, então, realizar a categorização e a codificação residual dos elementos de vetor quantizados. Como um exemplo, a unidade de compressão V 552 pode, para um dado elemento de vetor quantizado vq identificar uma categoria (determinando-se um identificador de categoria cid) a qual esse elemento corresponde com o uso da equação a seguir:
Figure img0061
Í
[1020] A unidade de compressão V 552 pode, então, codificar por Huffman esse cid de índice de categoria, enquanto também identifica um bit de sinal que indica se vq é um valor positivo ou um valor negativo. A unidade de compressão V 552 pode identificar a seguir um resíduo nessa categoria. Como um exemplo, a unidade de compressão V 552 pode determinar esse resíduo de acordo com a equação a seguir:
Figure img0062
[1021] O exemplo a seguir ilustra um exemplo simplificado dessa categorização e processo de codificação residual.
[1022] Primeiro, assume-se que nbits é igual a seis de modo que vq e [-31,31]. A seguir, assume-se o seguinte:
Figure img0063
[1023] Além disso, assume-se o seguinte:
Figure img0064
Figure img0065
[1024] Assim, para um \>q = [6, -17, 0, 0, 3], o seguinte pode ser determinado:
[1025] » cid = 3,5,0,0,2
[1026] » sinal = 1,0,x,x,l
[1027] » resíduo = 2,1,x,x, 1
[1028] » Bits para 6 = ‘0010’ + 'I ‘ + ‘ 10’
[1029] » Bits para -17 = ‘00111 ‘ + ‘0’ + ‘0001 ‘
[1030] » Bits para 0 = ‘0’
[1031] » Bits para 0 = ‘0’
[1032] » Bits para 3 = ‘000 ‘ + ‘1’ + ‘ 1 ‘
[1033] » Bits Total = 7+ 10+ 1 + 1 +5 = 24
[1034] » Bits médio = 24/5 = 4,8
[1035] Embora não mostrado no exemplo simplificado supracitado, a unidade de compressão V 552 pode selecionar diferentes livros de códigos de Huffman para diferentes valores de nbits durante a codificação do cid. Em alguns exemplos, a unidade de compressão V 552 pode fornecer uma tabela de codificação de Huffman diferente para valores de nbits 6,..., 15. Além disso, a unidade de compressão V 552 pode incluir cinco livros de códigos de Huffman diferentes para cada um dos diferentes valores de nbits na faixa de 6, 15 para um total de 50 livros de códigos de Huffman. Nesse aspecto, a unidade de compressão V 552 pode incluir uma pluralidade de diferentes livros de códigos de Huffman para acomodar a codificação do cid em diversos contextos estatísticos diferentes.
[1036] Para ilustrar, a unidade de compressão V 552 pode, para cada um dos valores de nbits, incluir um primeiro livro de códigos de Huffman para codificar os elementos de vetor de um a quatro, um segundo livro de códigos de Huffman para codificar os elementos de vetor de cinco a nove, um terceiro livro de códigos de Huffman para codificar os elementos de vetor de nove para cima. Esses primeiros três livros de códigos de Huffman podem ser usados quando o um dos vetores VTDIST 539 a ser comprimido não é previsto a partir de um temporalmente subsequente que corresponde a um dentre os vetores VTDIST 539 e não é representante de informações espaciais de um objeto de áudio sintético (aquele definido, por exemplo, originalmente por um objeto de áudio modulado de código por pulso (PCM)). A unidade de compressão V 552 pode incluir adicionalmente, para cada um dos valores de nbits, um quarto livro de códigos de Huffman para codificar o um dos vetores VTDIST 539 quando esse um dos vetores VTDIST 539 é previsto a partir de um temporalmente subsequente que corresponde a um dos vetores VTDIST 539. A unidade de compressão V 552 também pode incluir, para cada um dos valores de nbits, um quinto livro de códigos de Huffman para codificar o um dos vetores VTDIST 539 quando esse um dos vetores VTDIST 539 é representante de um objeto de áudio sintético. Os vários livros de códigos de Huffman podem ser desenvolvidos para cada um desses diferentes contextos estatísticos, isto é, o contexto não previsto e não sintético, o contexto previsto e o contexto sintético nesse exemplo.
[1037] A tabela a seguir ilustra a seleção de tabela de Huffman e os bits a serem especificados no fluxo de bits para permitir que a unidade de descompressão selecione a tabela de Huffman apropriada:
Figure img0066
[1038] Na tabela supracitada, o modo de previsão (“Pred mode”) indica se a previsão foi realizada para o vetor atual, enquanto que Tabela de Huffman (“info de HT”) indica as informações de livro de códigos de Huffman adicionais (ou tabela) usadas para selecionar uma dentre as tabelas de Huffman de uma a cinco.
[1039] A tabela a seguir ilustra adicionalmente esse processo de seleção de tabela de Huffman dados vários contextos ou cenários estatísticos.
Figure img0067
[1040] Na tabela supracitada, a coluna Registro” indica o contexto de codificação quando o vetor é representante de um objeto de áudio que foi registrado enquanto que a coluna “Sintético” indica um contexto de codificação para quando o vetor é representativo de um objeto de áudio sintético. A fileira “Sem Previsão” indica o contexto de codificação quando a previsão não é realizada em relação aos elementos de vetor, enquanto que a fileira “Com previsão” indica o contexto de codificação quando a previsão é realizada em relação aos elementos de vetor. Conforme mostrado nessa tabela, a unidade de compressão V 552 seleciona HT{1, 2, 3} quando o vetor é representante de um objeto de áudio registrado e a previsão não é realizada em relação aos elementos de vetor. A unidade de compressão V 552 seleciona HT5 quando o objeto de áudio é representando de um objeto de áudio sintético e a previsão não é realizada em relação aos elementos de vetor. A unidade de compressão V 552 seleciona HT4 quando o vetor é representante de um objeto de áudio registrado e a previsão é realizada em relação aos elementos de vetor. A unidade de compressão V 552 seleciona HT5 quando o objeto de áudio é representante de um objeto de áudio sintético e a previsão é realizada em relação aos elementos de vetor.
[1041] Dessa maneira, as técnicas podem permitir que um dispositivo de compressão de áudio comprima um componente espacial de um campo sonoro, onde o componente espacial é gerado realizando-se uma síntese com base em relação a uma pluralidade de coeficientes harmônicos esféricos.
[1042] A Figura 43 é um diagrama que ilustra a unidade de compressão V 552 mostrada na Figura 40I em mais detalhes. No exemplo da Figura 43, a unidade de compressão V 552 inclui uma unidade de quantização uniforme 600, uma unidade de nbits 602, uma unidade de previsão 604, uma unidade de modo de previsão 606 (“Pred Mode Unit 606”), uma unidade de codificação residual e de categoria 608 e uma unidade de seleção de tabela de Huffman 610. A unidade de quantização uniforme 600 representa uma unidade configurada para realizar a quantização descrita acima em relação a um dos componentes especiais denotado como v no exemplo da Figura 43 (que pode representar qualquer um dos vetores VTDIST 539). A unidade de nbits 602 representa uma unidade configurada para determinar o parâmetro ou valor de nbits.
[1043] A unidade de previsão 604 representa uma unidade configurada para realizar a previsão em relação ao componente espacial quantizado denotado como \>q no exemplo da Figura 43. A unidade de previsão 604 pode realizar a previsão realizando-se uma subtração de elemento do um dos vetores VTDIST atual 539 por um temporalmente subsequente que corresponde a um dos vetores VTDIST 539. O resultado dessa previsão pode ser referido como um componente espacial previsto.
[1044] A unidade de modo de previsão 606 pode representar uma unidade configurada para selecionar o modo de previsão. A unidade de seleção de tabela de Huffman 610 pode representar uma unidade configurada para selecionar uma tabela de Huffman apropriada para codificar o cid. A unidade de modo de previsão 606 e a unidade de seleção de tabela de Huffman 610 podem operar, como um exemplo, de acordo com o seguinte pseudocódigo:
[1045] Para um dado nbits, recuperar todas as Tabelas de Huffman que têm nbits
[1046] B00 = 0; B01 = 0; B10 = 0; B11 = 0; // inicializar para computar os bits esperados por modo de codificação
[1047] para m = 1:(# elementos no vetor)
[1048] // calcular número esperado de bits para um elemento de vetor v(m)
[1049] // sem previsão e com o uso da Tabela de Huffman 5
[1050] B00 = B00 + calcular_bits(v(m) , HT5);
[1051] // sem previsão e com o uso da Tabela de Huffman {1,2,3}
[1052] B01 = B01 + calcular_bits(v(m) , HTq); q em {1,2,3}
[1053] // calcular número esperado de bits para previsão residual
[1054] e(m e(m) ) = v(m) - vp(m); // vp(m) : elemento de vetor de quadro
[1055] anterior // com previsão e com o uso da Tabela de Huffman 4
[1056] B10 = B10 + calcular_bits(e(m) , HT4);
[1057] // com previsão e com o uso da Tabela de Huffman 5
[1058] B11 = B11 + calcular_bits(e(m) , HT5);
[1059] fim
[1060] // encontrar um melhor modo de previsão e tabela de Huffman que rendam bits mínimos
[1061] // melhor modo de previsão e tabela de Huffman são sinalizados por pflag e Htflag, respectivamente
[1062] [Be, id] = mín([BOO B01 B10 B11]);
[1063]
[1064] Comutar Caso 1: id pflag = 0; HTflag = 0;
[1065] Caso 2: pflag = 0; HTflag = 1;
[1066] Caso 3: pflag = 1; HTflag = 0;
[1067] Caso 4: pflag = 1; HTflag = 1;
[1068] A unidade fim de codificação residual e de categoria 608 pode representar uma unidade configurada para realizar a categorização e a codificação residual de um componente espacial previsto ou o componente espacial quantizado (quando a previsão é desativada) da maneira descrita em mais detalhes abaixo.
[1069] Conforme mostrado no exemplo da Figura 43, a unidade de compressão V 552 pode emitir vários parâmetros ou valores para inclusão no fluxo de bits 517 ou informações de lado (que pode o próprio ser um fluxo de bits separado a partir do fluxo de bits 517). Assumindo-se que as informações são especificadas no fluxo de bits 517, a unidade de compressão V 552 pode emitir o valor de nbits, o modo de previsão e as informações de tabela de Huffman para a unidade de geração de fluxo de bits 516 juntamente com a versão comprimida do componente espacial (mostrado como componente espacial comprimido 539’ no exemplo da Figura 40I), que nesse exemplo pode ser referir ao código de Huffman selecionado para codificar o cid, o bit de sinal e o resíduo codificado em blocos. O valor de nbits pode ser especificado uma vez no fluxo de bits 517 para todos os vetores VTDIST 539, enquanto o modo de previsão e as informações de tabela de Huffman podem ser especificadas para cada um dos vetores VTDIST 539. A porção do fluxo de bits que especifica a versão comprimida do componente espacial é mostrada no exemplo das Figuras 10B e 10c.
[1070] Dessa maneira, o dispositivo de codificação de áudio exemplificativo 510H pode realizar vários aspectos das técnicas estabelecidas em relação às seguintes cláusulas.
[1071] Cláusula 141541-1A. Um dispositivo, tal como o dispositivo de codificação de áudio exemplificativo 510H, que compreende: um ou mais processadores configurados para obter um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, em que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[1072] Cláusula 141541-2A. O dispositivo de cláusulas 141541-1A, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de um campo que especifica um modo de previsão usado durante a compressão do componente espacial.
[1073] Cláusula 141541-3A. O dispositivo de qualquer combinação de cláusula 141541-1A e cláusula 141541-2A, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso, pelo menos em parte, de informações de tabela de Huffman que especificam uma tabela de Huffman usada durante a compressão do componente espacial.
[1074] Cláusula 141541-4A. O dispositivo de qualquer combinação de cláusula 141541-1A até a cláusula 141541-3A, em que a versão comprimida do componente espacial é representada no fluxo de bits com uso, pelo menos em parte, de um campo que indica um valor que expressa um tamanho de etapa de quantização ou uma variável do mesmo usada durante a compressão do componente espacial.
[1075] Cláusula 141541-5A. O dispositivo de cláusula 141541-4A, em que o valor compreende um valor de nbits.
[1076] Cláusula 141541-6A. O dispositivo de qualquer combinação de cláusula 141541-4A e cláusula 141541-5A, em que o fluxo de bits compreende uma versão comprimida de uma pluralidade de componentes especiais do campo sonoro do qual a versão comprimida do componente espacial é incluída, e em que o valor expressa o tamanho de etapa de quantização ou uma variável do mesmo usada durante a compressão da pluralidade de componentes especiais.
[1077] Cláusula 141541-7A. O dispositivo de qualquer combinação de cláusula 141541-1A até a cláusula 141541-6A, em que a versão comprimida do componente espacial é representada no fluxo de bits com uso, pelo menos em parte, de um código de Huffman para representar um identificador de categoria que identifica uma categoria de compressão a qual o componente espacial corresponde.
[1078] Cláusula 141541-8A. O dispositivo de qualquer combinação de cláusula 141541-1A até a cláusula 141541-7A, em que a versão comprimida do componente espacial é representada no fluxo de bits com uso, pelo menos em parte, de um bit de sinal que identifica se o componente espacial é um valor positivo ou um valor negativo.
[1079] Cláusula 141541-9A. O dispositivo de qualquer combinação de cláusula 141541-1A até a cláusula 141541-8A, em que a versão comprimida do componente espacial é presentada no fluxo de bits com uso, pelo menos em parte, de um código de Huffman para representar um valor residual do componente espacial.
[1080] Cláusula 141541-10A. O dispositivo de qualquer combinação de cláusula 141541-1A até cláusula 141541-9A, em que o dispositivo compreende um dispositivo de codificação de áudio exemplificativo e um dispositivo de geração de fluxo de bits.
[1081] Cláusula 141541-12A. O dispositivo de qualquer combinação de cláusula 141541-1A até a cláusula 141541-11A, em que a síntese com base em vetor compreende uma decomposição de valor singular.
[1082] Embora descrito como sendo realizadas pelo dispositivo de codificação de áudio 510H, as técnicas também podem ser realizadas por qualquer um dos dispositivos de decodificação de áudio 24 e/ou 540.
[1083] Dessa maneira, o dispositivo de codificação de áudio exemplificativo 510H pode realizar adicionalmente vários aspectos das técnicas estabelecidas em relação às seguintes cláusulas.
[1084] Cláusula 141541-1D. Um dispositivo, tal como o dispositivo de codificação de áudio exemplificativo 510H, que compreende: um ou mais processadores configurados para gerar um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, o componente espacial gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[1085] Cláusula 141541-2D. O dispositivo de cláusula 141541-1D, em que o um ou mais processadores são configurados adicionalmente para, durante a geração do fluxo de bits, gerar o fluxo de bits para incluir um campo que especifica um modo de previsão usado durante a compressão do componente espacial.
[1086] Cláusula 141541-3D. O dispositivo de qualquer combinação de cláusula 141541-1D e cláusula 141541-2D, em que o um ou mais processadores são configurados adicionalmente para, durante a geração do fluxo de bits, gerar o fluxo de bits para incluir informações de tabela de Huffman que especificam uma tabela de Huffman usada durante a compressão do componente espacial.
[1087] Cláusula 141541-4D. O dispositivo de qualquer combinação de cláusula 141541-1D até a cláusula 141541-3D, em que o um ou mais processadores são configurados adicionalmente para, durante a geração do fluxo de bits, gerar o fluxo de bits para incluir um campo que indica um valor que expressa um tamanho de etapa de quantização ou uma variável do mesmo usada durante a compressão do componente espacial.
[1088] Cláusula 141541-5D. O dispositivo de cláusula 141541-4D, em que o valor compreende um valor de nbits.
[1089] Cláusula 141541-6D. O dispositivo de qualquer combinação de cláusula 141541-4D e cláusula 141541-5D, em que o um ou mais processadores são configurados adicionalmente para, durante a geração do fluxo de bits, gerar o fluxo de bits para incluir uma versão comprimida de uma pluralidade de componentes especiais do campo sonoro do qual a versão comprimida do componente espacial é incluída, e em que o valor expressa o tamanho de etapa de quantização ou uma variável do mesmo usada durante a compressão da pluralidade de componentes especiais.
[1090] Cláusula 141541-7D. O dispositivo de qualquer combinação de cláusula 141541-1D até a cláusula 141541-6D, em que o um ou mais processadores são configurados adicionalmente para, durante a geração do fluxo de bits, gerar o fluxo de bits para incluir um código de Huffman para representa um identificador de categoria que identifica uma categoria de compressão a qual o componente espacial corresponde.
[1091] Cláusula 141541-8D. O dispositivo de qualquer combinação de cláusula 141541-1D até a cláusula 141541-7D, em que o um ou mais processadores são configurados adicionalmente para, durante a geração do fluxo de bits, gerar o fluxo de bits para incluir um bit de sinal que identifica se o componente espacial é um valor positivo ou um valor negativo.
[1092] Cláusula 141541-9D. O dispositivo de qualquer combinação de cláusula 141541-1D até a cláusula 141541-8D, em que o um ou mais processadores são configurados adicionalmente para, durante a geração do fluxo de bits, gerar o fluxo de bits para incluir um código de Huffman para representar um valor residual do componente espacial.
[1093] Cláusula 141541-10D. O dispositivo de qualquer combinação de cláusula 141541-1D até a cláusula 141541-10D, em que a síntese com base em vetor compreende uma decomposição de valor singular.
[1094] O dispositivo de codificação de áudio exemplificativo 510H pode adicionalmente se configurado para implantar vários aspectos das técnicas conforme estabelecidas nas seguintes cláusulas.
[1095] Cláusula 141541-1E. Um dispositivo, tal como o dispositivo de codificação de áudio exemplificativo 510H, que compreende: um ou mais processadores configurados para comprimir um componente espacial de um campo sonoro, em que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[1096] Cláusula 141541-2E. O dispositivo de cláusula 141541-1E, em que o um ou mais processadores são configurados adicionalmente para, durante a compressão do componente espacial, converter o componente espacial de uma representação de ponto flutuante para uma representação inteira.
[1097] Cláusula 141541-3E. O dispositivo de qualquer combinação de cláusula 141541-1E e cláusula 141541-2E, em que o um ou mais processadores são configurados adicionalmente para, durante a compressão do componente espacial, determinar dinamicamente um valor indicativo de um tamanho de etapa de quantização, e quantizar o componente espacial com base no valor para gerar um componente espacial quantizado.
[1098] Cláusula 141541-4E. O dispositivo de qualquer combinação de reivindicações 1E a 3E, em que o um ou mais processadores são configurados adicionalmente para, durante a compressão do componente espacial, identificar uma categoria a qual o componente espacial corresponde.
[1099] Cláusula 141541-5E. O dispositivo de qualquer combinação de cláusula 141541-1E até a cláusula 141541-4E, em que o um ou mais processadores são configurados adicionalmente para, durante a compressão do componente espacial, identificar um valor residual para o componente espacial.
[1100] Cláusula 141541-6E. O dispositivo de qualquer combinação de cláusula 141541-1E até a cláusula 141541-5E, em que o um ou mais processadores são configurados adicionalmente para, durante a compressão do componente espacial, realizar uma previsão em relação ao componente espacial e a um componente espacial subsequente para gerar um componente espacial previsto.
[1101] Cláusula 141541-7E. O dispositivo de qualquer combinação de cláusula 141541-1E, em que o um ou mais processadores são configurados adicionalmente para, durante a compressão do componente espacial, converter o componente espacial a partir de uma representação de ponto flutuante para uma representação inteira, determinar dinamicamente um valor indicativo de um tamanho de etapa de quantização, quantizar a representação inteira do componente espacial com base no valor para gerar um componente espacial quantizado, identificar uma categoria a qual o componente espacial corresponde com base no componente espacial quantizado para gerar um identificador de categoria, determinar um sinal do componente espacial, identificar um valor residual para o componente espacial com base no componente espacial quantizado e no identificador de categoria e gerar uma versão comprimida do componente espacial com base no identificador de categoria, no sinal e no valor residual.
[1102] Cláusula 141541-8E. O dispositivo de qualquer combinação de cláusula 141541-1E, em que o um ou mais processadores são configurados adicionalmente para, durante a compressão do componente espacial, converter o componente espacial a partir de uma representação de ponto flutuante para uma representação inteira, determinar dinamicamente um valor indicativo de um tamanho de etapa de quantização, quantizar a representação inteira do componente espacial com base no valor para gerar um componente espacial quantizado, realizar uma previsão em relação ao componente espacial e a um componente espacial subsequente para gerar um componente espacial previsto, identificar uma categoria a qual o componente espacial previsto corresponde com base no componente espacial quantizado para gerar um identificador de categoria, determinar um sinal do componente espacial, identificar um valor residual para o componente espacial com base no componente espacial quantizado e no identificador de categoria e gerar uma versão comprimida do componente espacial com base no identificador de categoria, no sinal e no valor residual.
[1103] Cláusula 141541-9E. O dispositivo de qualquer combinação de cláusula 141541-1E até a cláusula 141541-8E, em que a síntese com base em vetor compreende uma decomposição de valor singular.
[1104] Os vários aspectos das técnicas podem, além disso, permitir que o dispositivo de codificação de áudio 510H seja configurado para operar conforme estabelecido nas seguintes cláusulas.
[1105] Cláusula 141541-1F. Um dispositivo, tal como o dispositivo de codificação de áudio exemplificativo 510H, que compreende: um ou mais processadores configurados para identificar um livro de códigos de Huffman para usar durante a compressão de um componente espacial atual de uma pluralidade de componentes especiais com base em uma ordem do componente espacial atual em relação aos remanescentes da pluralidade de componentes especiais, em que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[1106] Cláusula 141541-2F. O dispositivo de cláusula 141541-3F, em que o um ou mais processadores são configurados adicionalmente para realizar qualquer combinação das etapas enumeradas em cláusula 141541-1A até a cláusula 141541-12A, cláusula 141541-1B até a cláusula 141541-10B e cláusula 141541-1C até a cláusula 141541-9C.
[1107] Os vários aspectos das técnicas podem, além disso, permitir que o dispositivo de codificação de áudio 510H seja configurado para operar conforme estabelecido nas seguintes cláusulas.
[1108] Cláusula 141541-1H. Um dispositivo, tal como o dispositivo de codificação de áudio 510H, que compreende: um ou mais processadores configurados para determinar um tamanho de etapa de quantização a ser usado durante a compressão de um componente espacial de um campo sonoro, em que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[1109] Cláusula 141541-2H. O dispositivo de cláusula 141541-1H, em que o um ou mais processadores são configurados adicionalmente para, durante a determinação do tamanho de etapa de quantização, determinar o tamanho de etapa de quantização com base em uma taxa de bits alvo.
[1110] cláusula 141541-1H, em que o um ou mais processadores são configurados adicionalmente para, durante a seleção de um dentre a pluralidade de tamanhos de etapa de quantização, determinar uma estimativa de um número de bits usado para representar o componente espacial, e determinar o tamanho de etapa de quantização com base em uma diferença entre a estimativa e uma taxa de bits alvo.
[1111] Cláusula 141541-4H. O dispositivo de cláusula 141541-1H, em que o um ou mais processadores são configurados adicionalmente para, durante a seleção de um dentre a pluralidade de tamanhos de etapa de quantização, determinar uma estimativa de um número de bits usado para representar o componente espacial, determinar uma diferença entre a estimativa e uma taxa de bits alvo e determinar o tamanho de etapa de quantização adicionando-se a diferença para a taxa de bits alvo.
[1112] Cláusula 141541-5H. O dispositivo de cláusula 141541-3H ou cláusula 141541-4H, em que o um ou mais processadores são configurados adicionalmente para, durante a determinação da estimativa do número de bits, calcular o estimado do número de bits que devem ser gerados para o componente espacial dado um livro de códigos que corresponde à taxa de bits alvo.
[1113] Cláusula 141541-6H. O dispositivo de cláusula 141541-3H ou cláusula 141541-4H, em que o um ou mais processadores são configurados adicionalmente para, durante a determinação da estimativa do número de bits, calcular o estimado do número de bits que devem ser gerados para o componente espacial dado um modo de codificação usado durante a compressão do componente espacial.
[1114] Cláusula 141541-7H. O dispositivo de cláusula 141541-3H ou cláusula 141541-4H, em que o um ou mais processadores são configurados adicionalmente para, durante a determinação da estimativa do número de bits, calcular uma primeira estimativa do número de bits que devem ser gerados para o componente espacial dado um primeiro modo de codificação a ser usado durante a compressão do componente espacial, calcular uma segunda estimativa do número de bits que devem ser gerados para o componente espacial dado um segundo modo de codificação a ser usado durante a compressão do componente espacial, selecionar aquele da primeira estimativa e da segunda estimativa que tem o menor número de bits a ser usado como a estimativa determinada do número de bits.
[1115] Cláusula 141541-8H. O dispositivo de cláusula 141541-3H ou cláusula 141541-4H, em que o um ou mais processadores são configurados adicionalmente para, durante a determinação da estimativa do número de bits, identificar um identificador de categoria que identifica uma categoria a qual o componente espacial corresponde, identificar um comprimento de bit de um valor residual para o componente espacial que resultaria durante a compressão do componente espacial que corresponde à categoria e determinar a estimativa do número de bits através, pelo menos em parte, da adição de um número de bits usado para representar o identificador de categoria para o comprimento de bit do valor residual.
[1116] Cláusula 141541-9H. O dispositivo de qualquer combinação de cláusula 141541-1H até a cláusula 141541-8H, em que a síntese com base em vetor compreende uma decomposição de valor singular.
[1117] Embora descrito como sendo realizadas pelo dispositivo de codificação de áudio 510H, as técnicas estabelecidas nas cláusulas acima, cláusula 141541-lH até a cláusula 141541-9H, também podem ser realizadas pelo dispositivo de decodificação de áudio 540D.
[1118] Adicionalmente, os vários aspectos das técnicas podem permitir que o dispositivo de codificação de áudio 510H seja configurado para operar conforme estabelecido nas seguintes cláusulas.
[1119] Cláusula 141541-1J. Um dispositivo, tal como o dispositivo de codificação de áudio 510J, que compreende: um ou mais processadores configurados para selecionar um dentre uma pluralidade de livros de códigos a ser usado durante a compressão de um componente espacial de um campo sonoro, em que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[1120] Cláusula 141541-2J. O dispositivo de cláusula 141541-1J, em que o um ou mais processadores são configurados adicionalmente para, durante a seleção de um dentre a pluralidade de livros e códigos, determinar uma estimativa de um número de bits usado para representar o componente espacial com o uso de cada um da pluralidade de livros de códigos, e selecionar aquele da pluralidade de livros de códigos que resultou na estimativa determinada que tem o menor número de bits.
[1121] Cláusula 141541-3J. O dispositivo de cláusula 141541-1J, em que o um ou mais processadores são configurados adicionalmente para, durante a seleção de um dentre a pluralidade de livros de códigos, determinar uma estimativa de um número de bits usado para representar o componente espacial com uso de um ou mais da pluralidade de livros de códigos, em que o um ou mais da pluralidade de livros de códigos é selecionado com base em uma ordem de elementos do componente espacial a serem comprimidos em relação a outros elementos do componente espacial.
[1122] Cláusula 141541-4J. O dispositivo de cláusula 141541-1J, em que o um ou mais processadores são configurados adicionalmente para, durante a seleção de um dentre a pluralidade de livros de códigos, determinar uma estimativa de um número de bits usado para representa o componente espacial com uso de um da pluralidade de livros de códigos projetado para ser usado quando o componente espacial não é previsto a partir de um componente espacial subsequente.
[1123] Cláusula 141541-5J. O dispositivo de cláusula 141541-1J, em que o um ou mais processadores são configurados adicionalmente para, durante a seleção de um dentre a pluralidade de livros de códigos, determinar uma estimativa de um número de bits usado para representa o componente espacial com uso de um da pluralidade de livros de códigos projetado para ser usado quando o componente espacial é previsto a partir de um componente espacial subsequente.
[1124] Cláusula 141541-6J. O dispositivo de cláusula 141541-1J, em que o um ou mais processadores são configurados adicionalmente para, durante a seleção de um dentre a pluralidade de livros de códigos, determinar uma estimativa de um número de bits usado para representar o componente espacial com uso de um da pluralidade de livros de códigos projetado pata ser usado quando o componente espacial é representante de um objeto de áudio sintético no campo sonoro.
[1125] Cláusula 141541-7J. O dispositivo de cláusula 141541-1J, em que o objeto de áudio sintético compreende um objeto de áudio modulado de código por pulso (PCM).
[1126] Cláusula 141541-8J. O dispositivo de cláusula 141541-1J, em que o um ou mais processadores são configurados adicionalmente para, durante a seleção de um dentre a pluralidade de livros de códigos, determinar uma estimativa de um número de bits usado para representar o componente espacial com o uso de um da pluralidade de livros de códigos projetado para ser usado quando o componente espacial é representante de um objeto de áudio registrado no campo sonoro.
[1127] Cláusula 141541-9J. O dispositivo de qualquer combinação de reivindicações 1J a 8J, em que a síntese com base em vetor compreende uma decomposição de valor singular.
[1128] Em cada um dos vários exemplos descritos acima, deve ser entendido que o dispositivo de codificação de áudio 510 pode realizar um método ou de outra forma compreender meios para cada etapa do método para o qual o dispositivo de codificação de áudio 510 seja configurado para realizar. Em alguns exemplos, esses meios podem compreender uma ou mais processadores. Em alguns exemplos, o um ou mais processadores podem representar um processador de propósito especial configurado por meio de instruções armazenadas a uma mídia de armazenamento legível por computador não transitória. Em outras palavras, os vários aspectos das técnicas em cada um dos conjuntos de exemplos de codificação podem fornecer uma mídia de armazenamento legível por computador não transitória que tem armazenada na mesma, instruções que, quando executadas, fazem com que o um ou mais processadores realizem o método para o qual o dispositivo de codificação de áudio 510 foi configurado para realizar.
[1129] A Figura 40J é um diagrama de blocos que ilustra um dispositivo de codificação de áudio exemplificativo 510J que pode realizar vários aspectos das técnicas descritas nesta revelação para comprimir coeficientes harmônicos esféricos que descrevem dois ou mais campos sonoros tridimensionais. O dispositivo de codificação de áudio exemplificativo 510J pode ser similar ao dispositivo de codificação de áudio exemplificativo 510G em que o dispositivo de codificação de áudio exemplificativo 510J inclui uma unidade de compressão de áudio 512, uma unidade de codificação de áudio 514 e uma unidade de geração de fluxo de bits 516. Além disso, a unidade de compressão de áudio 512 do dispositivo de codificação de áudio exemplificativo 510J pode ser similar à do dispositivo de codificação de áudio exemplificativo 510G em que a unidade de compressão de áudio 512 inclui uma unidade de decomposição 518 e uma unidade de extração de componente de campo sonoro 520, que pode operar similarmente às unidades semelhantes do dispositivo de codificação de áudio exemplificativo 510I. Em alguns exemplos, o dispositivo de codificação de áudio exemplificativo 510J pode incluir uma unidade de quantização 534, conforme descrito em relação às Figuras 40D a 40E, para quantizar um ou mais vetores de qualquer um dos vetores UDIST 525C, os vetores UBG 525D, os vetores VTDIST 525E e os vetores VTBG 525J.
[1130] A unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510J pode, entretanto, diferir da unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510G em que a unidade de compressão de áudio 512 do dispositivo de codificação de áudio 510J inclui uma unidade adicional denotada como unidade de interpolação 550. A unidade de interpolação 550 pode representar uma unidade que interpola subquadros de um primeiro quadro de áudio a partir dos subquadros do primeiro quadro de áudio e um segundo temporalmente subsequente ou quadro de áudio precedente, conforme descrito em mais detalhes abaixo em relação às Figuras 45 e 45B. A unidade de interpolação 550 pode, ao realizar essa interpolação, reduzir a complexidade computacional (em termos de ciclos de processamento e/ou consumo de memória) por potencialmente reduzir a extensão a qual a unidade de decomposição 518 é exigida para decompor os SHC 511. A unidade de interpolação 550 pode operar de uma maneira similar à descrita acima em relação à unidade de interpolação 550 dos dispositivos de codificação de áudio 510H e 510I mostrados nos exemplos das Figuras 40H e 40I.
[1131] Em operação, a unidade de interpolação 200 pode interpolar um ou mais subquadros de um primeiro quadro de áudio a partir de uma primeira decomposição, por exemplo, a matriz V 19’, de uma porção de uma primeira pluralidade de coeficientes harmônicos esféricos 11 incluídos no primeiro quadro e uma segunda decomposição, por exemplo, a matriz V 19’, de uma porção de uma segunda pluralidade de coeficientes harmônicos esféricos 11 incluídos em um segundo quadro para gerar coeficientes harmônicos esféricos interpolados decompostos para o um ou mais subquadros.
[1132] A unidade de interpolação 550 pode obter coeficientes harmônicos esféricos interpolados decompostos por um segmento de tempo por, pelo menos em parte, realizar uma interpolação em relação a uma primeira decomposição de uma primeira pluralidade de coeficientes harmônicos esféricos e uma decomposição de uma segunda pluralidade de coeficientes harmônicos esféricos. A unidade de suavização 554 pode aplicar os coeficientes harmônicos esféricos interpolados decompostos para suavizar pelo menos um dentre componentes especiais e componentes de tempo da primeira pluralidade de coeficientes harmônicos esféricos e da segunda pluralidade de coeficientes harmônicos esféricos. A unidade de suavização 554 pode gerar matrizes UDIST suavizadas 525C’ conforme descritas acima em relação às Figuras 37 a 39 A primeira e segunda decomposições podem se referir aos V1T 556, V2T 556B na Figura 40J.
[1133] Em alguns casos, VT ou outros vetores V ou matrizes V pode ser emitido em uma versão quantizada para interpolação. Dessa maneira, os vetores V para a interpolação podem ser idênticos aos vetores V no decodificador, que também realiza a interpolação do vetor V, por exemplo, para recuperar o sinal multidimensional.
[1134] Em alguns exemplos, a primeira decomposição compreende a primeira matriz V 519’ representante de vetores singulares à direita da porção da primeira pluralidade de coeficientes harmônicos esféricos 511. De forma semelhante, em alguns exemplos, a segunda decomposição compreende a segunda matriz V 519’ representante de vetores singulares à direita da porção da segunda pluralidade de coeficientes harmônicos esféricos.
[1135] A unidade de interpolação 550 pode realizar uma interpolação temporal em relação ao um ou mais subquadros com base na primeira V 519’ e na segunda matriz V 19’. Isto é, a unidade de interpolação 550 pode interpolar temporalmente, por exemplo, o segundo, terceiro e quarto subquadros de um total de quatro subquadros para o primeiro quadro de áudio com base em uma matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio e na matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio. Em alguns exemplos, essa interpolação temporal é uma interpolação temporal linear, onde a matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio é ponderada mais fortemente durante a interpolação do segundo subquadro do primeiro quadro de áudio do que durante a interpolação do quarto subquadro do primeiro quadro de áudio. Durante a interpolação do terceiro subquadro, as matrizes V 519’ podem ser ponderadas igualmente. Durante a interpolação do quarto subquadro, a matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio pode ser mais fortemente ponderada do que a matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio.
[1136] Em outras palavras, a interpolação temporal linear pode ponderar as matrizes V 519’ dada a proximidade de um dos subquadros do primeiro quadro de áudio a ser interpolado. Para o segundo subquadro a ser interpolado, a matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio é ponderada mais fortemente dada sua proximidade ao segundo subquadro a ser interpolado do que a matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio. Os pesos podem ser equivalentes por essa razão durante a interpolação do terceiro subquadro com base nas matrizes V 519’. O peso aplicado à matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio pode ser maior do que o aplicado à matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio dado que o quarto subquadro a ser interpolado está mais próximo ao primeiro subquadro do segundo quadro de áudio do que o primeiro subquadro do primeiro quadro de áudio.
[1137] Em alguns exemplos, a unidade de interpolação 550 pode projetar a primeira matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro de áudio em um domínio espacial para gerar as primeiras decomposições projetadas. Em alguns exemplos, essa projeção inclui uma projeção em uma esfera (por exemplo, com o uso de uma matriz de projeção, tal como uma matriz de projeto em T). A unidade de interpolação 550 pode, então, projetar a segunda matriz V 519’ decomposta a partir do primeiro subquadro do segundo quadro de áudio no domínio espacial para gerar as segundas decomposições projetadas. A unidade de interpolação 550 pode, então, interpolar espacialmente (o que novamente pode ser uma interpolação linear) as primeiras decomposições projetadas e as segundas decomposições projetadas para gerar uma primeira decomposição projetada espacialmente interpolada e uma segunda decomposição projetada espacialmente interpolada. A unidade de interpolação 550 pode, então, interpolar temporalmente o um ou mais subquadros com base na primeira decomposição projetada espacialmente interpolada e na segunda decomposição projetada espacialmente interpolada.
[1138] Nesse exemplo onde a unidade de interpolação 550 espacialmente e, depois, temporalmente projeta as matrizes V 519’, a unidade de interpolação 550 pode projetar os coeficientes harmônicos esféricos temporalmente interpolados que resultam da interpolação do um ou mais subquadros de volta a um domínio harmônico esférico, gerando desse modo a matriz V 519, a matriz S 519B e a matriz U 519C.
[1139] Em alguns exemplos, a porção da primeira pluralidade de coeficientes harmônicos esféricos compreende um único subquadro da primeira pluralidade de coeficientes harmônicos esféricos 511. Em alguns exemplos, a porção da segunda pluralidade de coeficientes harmônicos esféricos compreende um único subquadro da segunda pluralidade de coeficientes harmônicos esféricos 511. Em alguns exemplos, esse único subquadro a partir do qual as matrizes V 19’ são decompostas é o primeiro subquadro.
[1140] Em alguns exemplos, o primeiro quadro é dividido em quatro subquadros. Nesses e outros exemplos, a porção da primeira pluralidade de coeficientes harmônicos esféricos compreende somente o primeiro subquadro da pluralidade de coeficientes harmônicos esféricos 511. Nesses e outros exemplos, o segundo quadro é dividido em quatro subquadros, e a porção da segunda pluralidade de coeficientes harmônicos esféricos 511 compreende somente o primeiro subquadro da segunda pluralidade de coeficientes harmônicos esféricos 511.
[1141] Embora, em alguns exemplos, somente um primeiro subquadro de cada quadro de áudio seja usado para realizar a interpolação, a porção da primeira pluralidade de coeficientes harmônicos esféricos pode compreender dois de quatro subquadros da primeira pluralidade de coeficientes harmônicos esféricos 511. Nesses e outros exemplos, a porção da segunda pluralidade de coeficientes harmônicos esféricos 511 compreende dois de quatro subquadros da segunda pluralidade de coeficientes harmônicos esféricos 511.
[1142] Conforme observado acima, um dispositivo único, por exemplo, dispositivo de codificação de áudio 510J, pode realizar a interpolação enquanto também decompõe a porção da primeira pluralidade de coeficientes harmônicos esféricos para gerar as primeiras decomposições da porção da primeira pluralidade de coeficientes harmônicos esféricos. Nesses e outros exemplos, a unidade de decomposição 518 pode decompor a porção da segunda pluralidade de coeficientes harmônicos esféricos para gerar as segundas decomposições da porção da segunda pluralidade de coeficientes harmônicos esféricos. Embora descrito em relação a um dispositivo único, dois ou mais dispositivos podem realizar as técnicas descritas nesta revelação, em que um dos dois dispositivos realiza a decomposição e o outro dos dispositivos realiza a interpolação de acordo com as técnicas descritas nesta revelação.
[1143] Em alguns exemplos, a unidade de decomposição 518 pode realizar uma decomposição de valor singular em relação à porção da primeira pluralidade de coeficientes harmônicos esféricos 511 para gerar uma matriz V 519’ (assim como uma matriz S 519B’ e uma matriz U 519C’, que não são mostradas para facilidade de propósitos de ilustração) representante de vetores singulares à direita da primeira pluralidade de coeficientes harmônicos esféricos 511. Nesses e outros exemplos, a unidade de decomposição 518 pode realizar a decomposição de valor singular em relação à porção da segunda pluralidade de coeficientes harmônicos esféricos 511 para gerar uma matriz V 519’ (assim como uma matriz S 519B’ e uma matriz U 519C’, que não são mostradas para facilidade de propósitos de ilustração) representante de vetores singulares à direita da segunda pluralidade de coeficientes harmônicos esféricos.
[1144] Em alguns exemplos, conforme observado acima, cada uma das primeira e segunda pluralidades de coeficientes harmônicos esféricos representam uma representação de onda plana do campo sonoro. Nesses e outros exemplos, cada uma das primeira e segunda pluralidades de coeficientes harmônicos esféricos 511 representam um ou mais objetos de áudio mono misturados entre si.
[1145] Em outras palavras, o áudio 3D com base em harmônicos esféricos pode ser uma representação paramétrica do campo de pressão 3D em termos de funções de base ortogonal em uma esfera. Quanto maior a ordem de N da representação, potencialmente maior será a resolução espacial, e frequentemente maior será o número de coeficientes harmônicos esféricos (SH) (para um total de (N+1)2 coeficientes). Para muitas aplicações, pode ser exigido uma compressão de largura de banda dos coeficientes para ter a capacidade de transmitir e armazenar os coeficientes de modo eficiente. Essas técnicas direcionadas nesta revelação podem fornecer um processo de redução de dimensionalidade com base em quadro com o uso de Decomposição de Valor Singular (SVD). A análise de SVD pode decompor cada quadro de coeficientes em três matrizes U, S e V. Em alguns exemplos, as técnicas podem lidar com alguns dos vetores em U como componentes direcionais do campo sonoro subjacente. Entretanto, quando tratados dessa maneira, esses vetores (em U) são descontínuos de quadro a quadro - mesmo que os mesmos representem o mesmo componente de áudio distinto. Essas descontinuidades podem levar a artefatos significantes quando os componentes são alimentados através de codificadores de áudio de transformada.
[1146] As técnicas descritas nesta revelação podem abordar essa descontinuidade. Isto é, as técnicas podem estar baseadas na observação que a matriz V pode ser interpretada como eixos geométricos espaciais ortogonais no domínio de Harmônicos Esféricos. A matriz U pode representar uma projeção dos dados Harmônicos Esféricos (HOA) em termos dessas funções de base, onde a descontinuidade pode ser atribuída às funções de base (V) que alteram todo quadro - e as mesmas são, portanto, descontínuas. Isso é diferente de decomposição similar, tal como a transformada de Fourier, onde as funções de base são, em alguns exemplos, constantes de quadro a quadro. Nesses termos, a SVD pode ser considerada como de um algoritmo de busca de compatibilidade. As técnicas descritas nesta revelação podem permitir que a unidade de interpolação 550 mantenha a continuidade entre as funções de base (V) de quadro a quadro - através da interpolação entre as mesmas.
[1147] Em alguns exemplos, as técnicas permitem que a unidade de interpolação 550 divida o quadro de dados de SH em quatro subquadros, conforme descrito acima e descrito adicionalmente abaixo em relação às Figuras 45 e 45B. A unidade de interpolação 550 pode, então, computar a SVD para o primeiro subquadro. Similarmente, computamos a SVD para o primeiro subquadro do segundo quadro. Para cada um do primeiro quadro e do segundo quadro, a unidade de interpolação 550 pode converter os vetores em V para um mapa espacial projetando- se os vetores em uma esfera (com o uso de uma matriz de projeção tal como uma matriz de projeto em T). A unidade de interpolação 550 pode, então, interpretar os vetores em V como formatos em uma esfera. Para interpolar as matrizes V para os três subquadros entre o primeiro subquadro do primeiro quadro e o primeiro subquadro do quadro seguinte, a unidade de interpolação 550 pode, então, interpolar esses formatos espaciais - e, então, transformar os mesmo de volta aos vetores SH através da inversa da matriz de projeção. As técnicas desta revelação podem, dessa maneira, fornecer uma transição suave entre as matrizes V.
[1148] As Figuras 41 e 41D são diagramas de blocos, em que cada um ilustra um dispositivo de decodificação de áudio exemplificativo 540A-540D que pode realizar vários aspectos das técnicas descritas nesta revelação para decodificar coeficientes harmônicos esféricos que descrevem campos sonoros de duas ou três dimensões. O dispositivo de decodificação de áudio 540A pode representar qualquer dispositivo que tenha a capacidade de decodificar dados de áudio, tal como um computador de mesa, um computador do tipo laptop, uma estação de trabalho, um computador do tipo tablet ou tipo slate, um dispositivo de gravação de áudio dedicado, um telefone celular (que inclui os chamados “telefones inteligente”), um dispositivo leitor de mídia pessoal, um dispositivo de jogos pessoal ou qualquer outro tipo de dispositivo que tenha a capacidade de decodificar dados de áudio.
[1149] Em alguns exemplos, o dispositivo de decodificação de áudio 540A realiza um processo de decodificação de áudio que é recíproco ao processo de codificação de áudio realizado por qualquer um dos dispositivos de codificação de áudio 510 ou 510B com a exceção de realizar a redução de ordem (conforme descrito acima em relação aos exemplos das Figuras 40B a 40J), que é, em alguns exemplos, usada pelos dispositivos de codificação de áudio 510B a 510J para facilitar a remoção de dados irrelevantes estranhos.
[1150] Embora mostrado como um dispositivo único, isto é, o dispositivo 540A no exemplo da Figura 41, os vários componentes ou unidades referenciados abaixo como sendo incluídos dentro do dispositivo 540A podem formar dispositivos separados que são externos do dispositivo 540. Em outras palavras, embora descrito nesta revelação como sendo realizadas por um dispositivo único, isto é, o dispositivo 540A no exemplo da Figura 41, as técnicas podem ser implantadas ou de outra forma, realizadas por um sistema que compreende múltiplos dispositivos, onde cada um desses dispositivos pode cada um incluir um ou mais dos vários componentes ou unidades descritos em mais detalhes abaixo. Consequentemente, as técnicas não devem ser limitadas a esse respeito, ao exemplo da Figura 41.
[1151] Conforme mostrado no exemplo da Figura 41, o dispositivo de decodificação de áudio 540A compreende uma unidade de extração 542, uma unidade de decodificação de áudio 544, uma unidade matemática 546 e uma unidade de renderização de áudio 548. A unidade de extração 542 representa uma unidade configurada para extrair os coeficientes harmônicos esféricos de segundo plano reduzidos codificados 515B, os vetores UDIST * SDIST codificados 515A e os vetores VTDIST 525E a partir do fluxo de bits 517. A unidade de extração 542 emite os coeficientes harmônicos esféricos de segundo plano reduzidos codificados 515B e os vetores UDIST * SDIST codificados 515A para a unidade de decodificação de áudio 544, enquanto também emite a matriz VTDIST 525E para a unidade matemática 546. Nesse aspecto, a unidade de extração 542 pode operar de uma maneira similar à unidade de extração 72 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5.
[1152] A unidade de decodificação de áudio 544 representa uma unidade para decodificar os dados de áudio codificados (frequentemente de acordo com um esquema de decodificação de áudio recíproco, tal como um esquema de decodificação de AAC) de modo a recuperar os vetores UDIST * SDIST 527 e os coeficientes harmônicos esféricos de segundo plano reduzidos 529. A unidade de decodificação de áudio 544 emite os vetores UDIST * SDIST 527 e os coeficientes harmônicos esféricos de segundo plano reduzidos 529 para a unidade matemática 546. Nesse aspecto, a unidade de decodificação de áudio 544 pode operar de uma maneira similar à unidade de decodificação psicoacústica 80 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5.
[1153] A unidade matemática 546 pode representar uma unidade configurada para realizar a soma e a multiplicação de matriz (assim como, em alguns exemplos, qualquer outra operação matemática de matriz). A unidade matemática 546 pode primeiramente realizar uma multiplicação de matriz dos vetores UDIST * SDIST 527 pela matriz VTDIST 525E. A unidade matemática 546 pode, então, adicionar o resultado da multiplicação dos vetores UDIST * SDIST 527 pela matriz VTDIST 525E pelos coeficientes harmônicos esféricos de segundo plano reduzidos 529 (os quais, novamente, podem se referir ao resultado da multiplicação da matriz UBG 525D pela matriz SBG 525B e, então, pela matriz VTBG 525F) ao resultado da multiplicação de matriz dos vetores UDIST * SDIST 527 pela matriz VTDIST 525E para gerar a versão reduzida dos coeficientes harmônicos esféricos originais 11, os quais são denotados como coeficientes harmônicos esféricos recuperados 547. A unidade matemática 546 pode emitir os coeficientes harmônicos esféricos recuperados 547 para a unidade de renderização de áudio 548. Nesse aspecto, a unidade matemática 546 pode operar de uma maneira similar à unidade de formulação de primeiro plano 78 e a unidade de formulação de coeficiente de HOA 82 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5.
[1154] A unidade de renderização de áudio 548 representa uma unidade configurada para render os canais 549A-549N (os “canais 549”, que também podem ser genericamente referidos como os “dados de áudio de multicanal 549” ou como “alimentos de alto-falantes 549”). A unidade de renderização de áudio 548 pode aplicar uma transformada (frequentemente expressada na forma de uma matriz) aos coeficientes harmônicos esféricos recuperados 547. Visto que os coeficientes harmônicos esféricos recuperados 547 descrevem o campo sonoro em três dimensões, os coeficientes harmônicos esféricos recuperados 547 representam um formato de áudio que facilita a renderização dos dados de áudio de multicanal 549A de uma maneira que tenha a capacidade de acomodar a maioria de geometrias de alto-falantes de decodificador local (que pode ser referir à geometria dos alto-falantes que irão reproduzir dados de áudio de multicanal 549). Mais informações sobre a renderização dos dados de áudio de multicanal 549A são descritas acima em relação à Figura 48.
[1155] Embora descrito no contexto dos dados de áudio de multicanal 549A sendo dados de áudio de multicanal de som surround 549, a unidade de renderização de áudio 48 também pode realizar uma forma de binauralização para binauralizar os coeficientes harmônicos esféricos recuperados 549A e desse modo, gerar dois canais binauralmente renderizados 549. Consequentemente, as técnicas não devem ser limitadas a formas de som surround de dados de áudio de multicanal, mas podem incluir dados de áudio de multicanal binauralizados.
[1156] As várias cláusulas listadas abaixo podem apresentar vários aspectos das técnicas descritas nesta revelação.
[1157] Cláusula 132567-1B. Um dispositivo, tal como o dispositivo de decodificação de áudio 540, que compreende: um ou mais processadores configurados para determinar um ou mais primeiros vetores que descrevem componentes distintos do campo sonoro e um ou mais segundos vetores que descrevem componentes de segundo plano do campo sonoro, tanto o um ou mais primeiros vetores quanto o um ou mais segundos vetores gerados pelo menos através da realização de uma decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos.
[1158] Cláusula 132567-2B. O dispositivo de cláusula 132567-1B, em que o um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST codificados por áudio que, antes da codificação de áudio, foram gerados através da multiplicação de um ou mais vetores UDIST codificados por áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, em que a matriz U e a matriz S são geradas pelo menos através da realização da decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos, e em que o um ou mais processadores são configurados adicionalmente para decodificar por áudio o um ou mais vetores UDIST * SDIST codificados por áudio para gerar uma versão decodificada por áudio do um ou mais vetores UDIST * SDIST codificados por áudio.
[1159] Cláusula 132567-3B. O dispositivo de cláusula 132567-1B, em que o um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST codificados por áudio que, antes da codificação de áudio, foram gerados através da multiplicação de um ou mais vetores UDIST codificados por áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e um ou mais vetores VTDIST de uma transposta de uma matriz V, em que a matriz U, a matriz S e a matriz V são geradas pelo menos através da realização da decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos, e em que o um ou mais processadores são configurados adicionalmente para decodificar por áudio o um ou mais vetores UDIST * SDIST codificados por áudio para gerar uma versão decodificada por áudio do um ou mais vetores UDIST * SDIST codificados por áudio.
[1160] Cláusula 132567-4B. O dispositivo de cláusula 132567-3B, em que o um ou mais processadores são configurados adicionalmente para multiplicar os vetores UDIST * SDIST pelos vetores VTDIST para recuperar os da pluralidade de harmônicos esféricos representantes dos componentes distintos do campo sonoro.
[1161] Cláusula 132567-5B. O dispositivo de cláusula 132567-1B, em que o um ou mais segundos vetores compreendem um ou mais vetores UBG * SBG * VTBG codificados por áudio que, antes da codificação por áudio, foram gerados através da multiplicação dos vetores UBG incluídos dentro de uma matriz U por vetores SBG incluídos dentro de uma matriz S e, então, por vetores VTBG incluídos dentro de uma transposta de uma matriz V, e em que a matriz S, a matriz U e a matriz V foram, cada uma, geradas pelo menos através da realização da decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos.
[1162] Cláusula 132567-6B. O dispositivo de cláusula 132567-1B, em que o um ou mais segundos vetores compreendem um ou mais vetores UBG * SBG * VTBG codificados por áudio que, antes da codificação por áudio, foram gerados através da multiplicação de vetores UBG incluídos dentro de uma matriz U por vetores SBG incluídos dentro de uma matriz S e, então, por vetores VTBG incluídos dentro de uma transposta de uma matriz V, e em que a matriz S, a matriz U e a matriz V foram geradas pelo menos através da realização da decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos, e em que o um ou mais processadores são configurados adicionalmente para decodificar por áudio o um ou mais vetores UBG * SBG * VTBG codificados por áudio para gerar um ou mais vetores UBG * SBG * VTBG decodificados por áudio.
[1163] Cláusula 132567-7B. O dispositivo de cláusula 132567-1B, em que o um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST codificados por áudio que, antes da codificação por áudio, foram gerados através da multiplicação de um ou mais vetores UDIST codificados por áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e um ou mais vetores VTDIST de uma transposta de uma matriz V, em que a matriz U, a matriz S e a matriz V foram geradas pelo menos através da realização da decomposição de valor singular em relação à pluralidade de coeficientes harmônicos esféricos, e em que o um ou mais processadores são configurados adicionalmente para decodificar por áudio o um ou mais vetores UDIST * SDIST codificados por áudio para gerar o um ou mais vetores UDIST * SDIST vetores, e multiplicar os vetores UDIST * SDIST vetores pelos vetores VTDIST para recuperar os da pluralidade de coeficientes harmônicos esféricos que descrevem os componentes distintos do campo sonoro, em que o um mais segundos vetores compreendem um ou mais vetores UBG * SBG * VTBG codificados por áudio que, antes da codificação por áudio, foram gerados através da multiplicação de vetores UBG incluídos dentro da matriz U por vetores SBG incluídos dentro da matriz S e, então, por vetores VTBG incluídos dentro da transposta da matriz V, e em que o um ou mais processadores são configurados adicionalmente para decodificar por áudio o um ou mais vetores UBG * SBG * VTBG codificados por áudio para recuperar pelo menos uma porção da pluralidade dos coeficientes harmônicos esféricos que descrevem componentes de segundo plano do campo sonoro, e adiciona a pluralidade de coeficientes harmônicos esféricos que descrevem os componentes distintos do campo sonoro à pelo menos porção da pluralidade dos coeficientes harmônicos esféricos que descrevem componentes de segundo plano do campo sonoro para gerar uma versão reconstruída da pluralidade de coeficientes harmônicos esféricos.
[1164] Cláusula 132567-8B. O dispositivo da cláusula 132567-1B, em que os um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST que, antes da codificação de áudio, foram gerados multiplicando-se um ou mais vetores UDIST codificados em áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e um ou mais vetores VTDIST de uma transposta de uma matriz V, em que a matriz U, a matriz S e a matriz V foram geradas pelo menos realizando-se a decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos, e em que os um ou mais processadores são configurados adicionalmente para determinar um valor D que indica o número de vetores a serem extraídos de um fluxo de bits para formar os um ou mais vetores UDIST * SDIST e os um ou mais vetores VTDIST.
[1165] Cláusula 132567-9B. O dispositivo da cláusula 132567-10B, em que os um ou mais primeiros vetores compreendem um ou mais vetores UDIST * SDIST que, antes da codificação de áudio, foram gerados multiplicando-se um ou mais vetores UDIST codificados em áudio de uma matriz U por um ou mais vetores SDIST de uma matriz S, e um ou mais vetores VTDIST de uma transposta de uma matriz V, em que a matriz U, a matriz S e a matriz V foram geradas pelo menos realizando-se a decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos, e em que os um ou mais processadores são configurados adicionalmente para determinar um valor D em um quadro de áudio, em uma base de quadro de áudio, que indica o número de vetores a serem extraídos de um fluxo de bits para formar os um ou mais vetores UDIST * SDIST e os um ou mais vetores VTDIST.
[1166] Cláusula 132567-1G. Um dispositivo, como o dispositivo de decodificação de áudio 540, que compreende: um ou mais processadores configurados para determinar um ou mais primeiros vetores que descrevem componentes distintos de um campo sonoro e um ou mais segundos vetores que descrevem componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos realizando-se uma decomposição de valor único em relação a dados de áudio de multicanais que representam pelo menos uma porção do campo sonoro.
[1167] Cláusula 132567-2G. O dispositivo da cláusula 132567- 1G, em que os dados de áudio de multicanais compreendem uma pluralidade de coeficientes harmônicos esféricos.
[1168] Cláusula 132567-3G. O dispositivo da cláusula 132567-2G, em que os um ou mais processadores são configurados adicionalmente para realizar qualquer combinação da cláusula 132567-2B a cláusula 132567-9B.
[1169] A partir de cada uma dentre as várias cláusulas descritas acima, deve ser entendido que qualquer um dentre os dispositivos de decodificação de áudio 540A a 540D podem realizar um método ou podem compreender, de outro modo, meio para realizar cada etapa do método que os dispositivos de decodificação de áudio 540A a 540D são configurados para realizar. Em alguns exemplos, esses meios podem compreende um ou mais processadores. Em alguns exemplos, os um ou mais processadores pode representar um processador de propósito especial configurado por meio de instruções armazenadas em uma mídia de armazenamento legível por computador não transitória. Em outras palavras, vários aspectos das técnicas em cada um desses conjuntos de exemplos de codificação podem fornecer uma mídia de armazenamento legível por computador não transitória que tem instruções armazenadas na mesma que, quando executadas, fazem com que os um ou mais processadores realizem o método que os dispositivos de decodificação de áudio 540A a 540D foram configurados para realizar.
[1170] Por exemplo, uma cláusula 132567-10B pode ser derivada da cláusula 132567-1B supracitada para ser um método que compreende: determinar um ou mais primeiros vetores que descrevem componentes distintos de um campo sonoro e um ou mais segundos vetores que descrevem componentes de segundo plano do campo sonoro, tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos realizando-se uma a decomposição de valor único em relação a uma pluralidade de coeficientes harmônicos esféricos que representam o campo sonoro.
[1171] Como outro exemplo, uma cláusula 132567-1 IB pode ser derivada da cláusula 132567-1B supracitada para ser um dispositivo, como o dispositivo de decodificação de áudio 540, que compreende meios para determinar um ou mais primeiros vetores que descrevem componentes distintos do campo sonoro e um ou mais segundos vetores que descrevem componentes de segundo plano do campo sonoro, em que tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores gerados pelo menos realizando-se uma decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos; e meios para armazenar os um ou mais primeiros vetores e os um ou mais segundos vetores.
[1172] Ainda como outro exemplo, uma cláusula 132567-12B pode ser derivada a partir da cláusula 132567-1B supracitada para ser uma mídia de armazenamento legível por computador não transitória que tem instruções armazenadas na mesma que, quando executadas, fazem com que um ou mais processadores determinem um ou mais primeiros vetores que descrevem componentes distintos de um campo sonoro e um ou mais segundos vetores que descrevem componentes de segundo plano do campo sonoro, em que tanto os um ou mais primeiros vetores quanto os um ou mais segundos vetores são gerados pelo menos realizando-se uma decomposição de valor único em relação a uma pluralidade de coeficientes harmônicos esféricos incluídos em dados de áudio ambissônicos de ordem superior que descrevem o campo sonoro.
[1173] Várias cláusulas podem ser derivadas igualmente a das cláusulas 132567-2B a 132567-9B para os vários dispositivos, métodos e mídias de armazenamento legíveis por computador não transitórias derivadas conforme exemplificado acima. O mesmo pode ser realizado para as várias outras cláusulas listadas por toda a presente revelação.
[1174] A Figura 41B é um diagrama de blocos que ilustra um dispositivo de decodificação de áudio exemplificativo 540B que pode realizar vários aspectos das técnicas descritas na presente revelação para decodificar coeficientes harmônicos esféricos que descrevem campos de som bidimensionais ou tridimensionais. O dispositivo de decodificação de áudio 540B pode ser semelhante ao dispositivo de decodificação de áudio 540, com exceção de que, em alguns exemplos, a unidade de extração 542 pode extrair vetores VTDIST reordenados 539 em vez de vetores VTDIST 525E. Em outros exemplos, a unidade de extração 542 pode extrair os vetores VTDIST 525E e, em seguida, reordenar esses vetores VTDIST 525E com base em informações de reordenação especificadas no fluxo de bits ou inferidas (através de análise de outros vetores) para determinar os vetores VTDIST reordenados 539. Nesse aspecto, a unidade de extração 542 pode operar semelhantemente à unidade de extração 72 do dispositivo de decodificação de áudio 24 mostrado no exemplo da Figura 5. De qualquer modo, a unidade de extração 542 pode emitir os vetores VTDIST reordenados 539 à unidade de matemática 546, em que o processo descrito acima em relação à recuperação dos coeficientes harmônicos esféricos pode ser realizado em relação a esses vetores VTDIST reordenados 539.
[1175] Dessa maneira, as técnicas podem possibilitar que o dispositivo de decodificação de áudio 540B decodifique áudio de um ou mais vetores reordenados representativos de componentes distintos de um campo sonoro, os um ou mais vetores reordenados foram reordenados para facilitar a compressão dos um ou mais vetores. Nesses ou em outros exemplos, o dispositivo de decodificação de áudio 540B pode recombinar os um ou mais vetores reordenados com um ou mais vetores reordenados adicionais para recuperar coeficientes harmônicos esféricos representativos de componentes distintos do campo sonoro. Nesses e em outros exemplos, o dispositivo de decodificação de áudio 540B pode, então, recuperar uma pluralidade de coeficientes harmônicos esféricos com base nos coeficientes harmônicos esféricos representativos de componentes distintos do campo sonoro e nos coeficientes harmônicos esféricos representativos de componentes de segundo plano do campo sonoro.
[1176] Ou seja, vários aspectos das técnicas podem fornecer a configuração do dispositivo de decodificação de áudio 540B de modo a decodificar um ou mais vetores reordenados, de acordo com as cláusulas a seguir.
[1177] Cláusula 133146-1F. Um dispositivo, como o dispositivo de codificação de áudio 540B, que compreende: um ou mais processadores configurados para determinar um número de vetores correspondentes a componentes no campo sonoro.
[1178] Cláusula 133146-2F. O dispositivo da cláusula 133146-1F, em que os um ou mais processadores são configurados para determinar o número de vetores após realizar a redução de ordem em conformidade com qualquer combinação dos exemplos descritos acima.
[1179] Cláusula 133146-3F. O dispositivo da cláusula 133146-1F, em que os um ou mais processadores são configurados adicionalmente para realizar a redução de ordem em conformidade com qualquer combinação dos exemplos descritos acima.
[1180] Cláusula 133146-4F. O dispositivo da cláusula 133146-1F, em que os um ou mais processadores são configurados para determinar o número de vetores a partir de um valor especificado em um fluxo de bits, e em que os um ou mais processadores são configurados adicionalmente para analisar o fluxo de bits com base no número determinado de vetores para identificar um ou mais vetores no fluxo de bits que representam componentes distintos do campo sonoro.
[1181] Cláusula 133146-5F. O dispositivo da cláusula 133146-1F, em que os um ou mais processadores são configurados para determinar o número de vetores a partir de um valor especificado em um fluxo de bits, e em que os um ou mais processadores são configurados adicionalmente para analisar o fluxo de bits com base no número determinado de vetores para identificar um ou mais no fluxo de bits que representam componentes de segundo plano do campo sonoro.
[1182] Cláusula 133143-1C. Um dispositivo, como o dispositivo de decodificação de áudio 540B, que compreende: um ou mais processadores configurados para reordenar um ou mais vetores reordenados representativos de componentes distintos de um campo sonoro.
[1183] Cláusula 133143-2C. O dispositivo da cláusula 133143-1C, em que os um ou mais processadores são configurados adicionalmente para determinar os um ou mais vetores reordenados e para determinar informações de reordenação que descreve como os um ou mais vetores reordenados foram reordenados, em que os um ou mais processadores são configurados adicionalmente para reordenar, durante a reordenação dos um ou mais vetores reordenados, os um ou mais vetores reordenados com base nas informações de reordenação determinadas.
[1184] Cláusula 133143-3C. O dispositivo da 1C, em que os um ou mais vetores reordenados compreende os um ou mais primeiros vetores reordenados recitados por qualquer combinação das reivindicações 1A a 18A ou qualquer combinação das reivindicações 1B a 19B, e em que os um ou mais primeiros vetores são determinados em conformidade com o método recitado por qualquer combinação das reivindicações 1A a 18A ou por qualquer combinação das reivindicações 1B a 19B.
[1185] Cláusula 133143-4D. Um dispositivo, como o dispositivo de decodificação de áudio 540B, que compreende: um ou mais processadores configurados para decodificador em áudio um ou mais vetores reordenados representativos de componentes distintos de um campo sonoro, sendo que os um ou mais vetores reordenados foram reordenados para facilitar a compressão dos um ou mais vetores.
[1186] Cláusula 133143-5D. O dispositivo da cláusula 133143-4D, em que os um ou mais processadores são configurados adicionalmente para recombinar os um ou mais vetores reordenados com um ou mais vetores reordenados adicionais para recuperar os coeficientes harmônicos esféricos representativos de componentes distintos do campo sonoro.
[1187] Cláusula 133143-6D. O dispositivo da cláusula 133143-5D, em que os um ou mais processadores são configurados adicionalmente para recuperar uma pluralidade de coeficientes harmônicos esféricos com base nos coeficientes harmônicos esféricos representativos de componentes distintos do campo sonoro e nos coeficientes harmônicos esféricos representativos de componentes de segundo plano do campo sonoro.
[1188] Cláusula 133143-1E. Um dispositivo, como o dispositivo de decodificação de áudio 540B, que compreende: um ou mais processadores configurados para reordenar um ou mais vetores para gerar um ou mais primeiros vetores reordenados e, desse modo, facilitar a codificação através de um codificador de áudio herdado, em que os um ou mais vetores descrevem representam componentes distintos de um campo sonoro, e codificam em áudio os um ou mais vetores reordenados com o uso do codificador de áudio herdado a fim de gerar uma versão codificada dos um ou mais vetores reordenados.
[1189] Cláusula 133143-2E. O dispositivo da 1E, em que os um ou mais vetores reordenados compreende os um ou mais primeiros vetores reordenados recitados por qualquer combinação das reivindicações 1A a 18A ou qualquer combinação das reivindicações 1B a 19B, e em que os um ou mais primeiros vetores são determinados em conformidade com o método recitado por qualquer combinação das reivindicações 1A-18A ou por qualquer combinação das reivindicações 1B-19B.
[1190] A Figura 41C é um diagrama de blocos que ilustra outro dispositivo de codificação de áudio exemplificativo 540C. O dispositivo de decodificação de áudio 540C pode representar qualquer dispositivo com capacidade para decodificar dados de áudio, por exemplo, um computador de mesa, um computador do tipo laptop, uma estação de trabalho, um computador do tipo tablet ou slate, um dispositivo de gravação de áudio dedicado, um telefone celular (incluindo então chamados "telefones inteligentes”), um dispositivo pessoal de reprodução de mídia, um dispositivo pessoal de jogo, ou qualquer outro tipo de dispositivo om capacidade para decodificar dados de áudio.
[1191] No exemplo da Figura 41C, o dispositivo de decodificação de áudio 540C realiza um processo de decodificação de áudio que é recíproco ao processo de codificação de áudio realizado por qualquer um dentre os dispositivos de codificação de áudio 510B a 510E com exceção da realização da redução de ordem (as descrita acima em relação aos exemplos das Figuras 40B a 40J), que, em alguns exemplos, é usada pelo dispositivo de codificação de áudio 510B a 510J para facilitar a remoção de dados irrelevantes externos.
[1192] Embora mostrado como um único dispositivo, isto é, o dispositivo 540C no exemplo da Figura 41C, os vários componentes ou unidades indicados abaixo como incluídos nos dispositivo 540C podem formar dispositivos separados que são externos ao dispositivo 540C. Em outras palavras, embora descrito na presente revelação como sendo realizadas por um único dispositivo, isto é, o dispositivo 540C no exemplo da Figura 41 C, as técnicas podem ser implantadas ou, de outro modo, realizadas por um sistema que compreende múltiplos dispositivos, em que cada um desses dispositivos pode incluir, cada um, um ou mais dentre os vários componentes ou unidades descritos mais detalhadamente abaixo. Consequentemente, nesse aspecto, as técnicas não devem ser limitadas ao exemplo da Figura 41 C.
[1193] Ademais, os dispositivos de codificação de áudio 540C podem ser semelhantes ao dispositivo de codificação de áudio 540B. No entanto, a unidade de extração 542 pode determinar os um ou mais vetores VTSMALL 521 a partir do fluxo de bits 517 em vez dos vetores VTQ_DIST 539 ou vetores VTDIST 525E reordenados (como no caso descrito em relação ao dispositivo de codificação de áudio 510 da Figura 40). Como resultado, a unidade de extração 542 pode passar os vetores VTSMALL 521 à unidade de matemática 546.
[1194] Além disso, a unidade de extração 542 pode determinar coeficientes harmônicos esféricos de segundo plano modificação codificados em áudio 515B’ a partir do fluxo de bits 517, passando esses coeficientes 515B’ para a unidade de decodificação de áudio 544, que pode decodificar por áudio os coeficientes harmônicos esféricos de segundo plano modificados codificados 515B para recuperar os coeficientes harmônicos esféricos de segundo plano modificados 537. A unidade de decodificação de áudio 544 pode passar esses coeficientes harmônicos esféricos de segundo plano modificados 537 para a unidade de matemática 546.
[1195] A unidade de matemática 546 pode, em seguida, multiplicar os vetores UDIST * SDIST decodificados em áudio (e possivelmente não ordenados) 527’ pelos um ou mais vetores VTSMALL 521 para recuperar os coeficientes harmônicos esféricos distintos de ordem superior. Em seguida, a unidade de matemática 546 pode somar os coeficientes harmônicos esféricos distintos de ordem superior aos coeficientes harmônicos esféricos de segundo plano modificados 537 para recuperar a pluralidade dos coeficientes harmônicos esféricos 511 ou alguma derivada dos mesmos (que podem ser uma derivada devido à de ordem realizada na unidade codificadora 510E).
[1196] Dessa maneira, as técnicas podem possibilitar que o dispositivo de decodificação de áudio 540C determine, a partir de um fluxo de bits, pelo menos um dentre os um ou mais vetores decompostos a partir de coeficientes harmônicos esféricos que forma recombinados com coeficientes harmônicos esféricos de segundo plano para reduzir uma quantidade de bits cuja alocação é exigida para os um ou mais vetores no fluxo de bits, em que os coeficientes harmônicos esféricos descrevem um campo sonoro, e em que os coeficientes harmônicos esféricos de segundo plano descrevem um ou mais componentes de segundo plano do mesmo campo sonoro.
[1197] Nesse aspecto, vários aspectos das técnicas podem possibilitar que o dispositivo de decodificação de áudio 540C, em alguns exemplos, sejam configurados para determinar, a partir de um fluxo de bits, pelo menos um dentre os um ou mais vetores decompostos a partir de coeficientes harmônicos esféricos que foram recombinados com coeficientes harmônicos esféricos de segundo plano, em que os coeficientes harmônicos esféricos descrevem um campo sonoro, e em que os coeficientes harmônicos esféricos de segundo plano descreveram um ou mais componentes de segundo plano do mesmo campo sonoro.
[1198] Nesses e em outros exemplos, o dispositivo de decodificação de áudio 540C é configurado para obter, a partir do fluxo de bits, uma primeira porção dos coeficientes harmônicos esféricos que têm uma ordem igual a NBG. Nesses e em outros exemplos, o dispositivo de decodificação de áudio 540C é configurado adicionalmente para obter, a partir do fluxo de bits, uma primeira porção codificada em áudio dos coeficientes harmônicos esféricos que têm uma ordem igual a NBG, e para decodificar por áudio a primeira porção codificada em áudio dos coeficientes harmônicos esféricos para gerar uma primeira porção dos coeficientes harmônicos esféricos.
[1199] Nesses e em outros exemplos, os pelo menos um ou mais vetores compreende um ou mais vetores VTSMALL, sendo que os um ou mais vetores VTSMALL foram determinados a partir de uma transposta de uma matriz V gerada realizando-se uma decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos.
[1200] Nesses e em outros exemplos, o pelo menos um dentre os um ou mais vetores compreendem um ou mais vetores VTSMALL, sendo que os um ou mais vetores VTSMALL foram determinados a partir de uma transposta de uma matriz V gerada realizando-se uma decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos, e o dispositivo de decodificação de áudio 540C é configurado adicionalmente para obter, a partir do fluxo de bits, um ou mais vetores UDIST * SDIST que foram derivados de uma matriz U e de uma matriz S, em que ambos dos mesmos foram gerados realizando-se a decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos, e para multiplicar os vetores UDIST * SDIST pelos vetores VTSMALL.
[1201] Nesses e em outros exemplos, o pelo menos um dentre os um ou mais vetores compreendem um ou mais vetores VTSMALL, sendo que os um ou mais vetores VTSMALL foram determinados a partir de uma transposta de uma matriz V gerada realizando-se uma decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos, e o dispositivo de decodificação de áudio 540C é configurado adicionalmente para obter, a partir do fluxo de bits, um ou mais vetores UDIST * SDIST que foram derivados a partir de uma matriz U e de uma matriz S, sendo que ambos dos mesmos são gerados realizando-se a decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos, e para multiplicar os vetores UDIST * SDIST pelos vetores VTSMALL a fim de recuperar coeficientes harmônicos esféricos distintos de ordem superior de segundo plano e para somar os coeficientes harmônicos esféricos de segundo plano que incluem os coeficientes harmônicos esféricos de segundo plano distintos de ordem inferior aos coeficientes harmônicos esféricos distintos de ordem superior de segundo plano a fim recuperar, pelo menos parcialmente, a pluralidade de coeficientes harmônicos esféricos.
[1202] Nesses e em outros exemplos, o pelo menos um dentre os um ou mais vetores compreendem um ou mais vetores VTSMALL, sendo que os um ou mais vetores VTSMALL foram determinados a partir de uma transposta de uma matriz V gerada realizando-se uma decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos, e o dispositivo de decodificação de áudio 540C é configurado adicionalmente para obter, a partir do fluxo de bits, um ou mais vetores UDIST * SDIST que foram derivados a partir de uma matriz U e de uma matriz S, sendo que ambos dos mesmos são gerados realizando-se a decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos, e para multiplicar os vetores UDIST * SDIST pelos vetores VTSMALL a fim de recuperar coeficientes harmônicos esféricos distintos de ordem superior de segundo plano, para somar os coeficientes harmônicos esféricos de segundo plano que incluem os coeficientes harmônicos esféricos de segundo plano distintos de ordem inferior aos coeficientes harmônicos esféricos distintos de ordem superior de segundo plano a fim recuperar, pelo menos parcialmente, a pluralidade de coeficientes harmônicos esféricos e renderizar a pluralidade recuperada de coeficientes harmônicos esféricos
[1203] A Figura 41D é um diagrama de blocos que ilustra outro dispositivo de codificação de áudio exemplificativo 540D. O dispositivo de decodificação de áudio 540D pode representar qualquer dispositivo com capacidade para decodificar dados de áudio, por exemplo, um computador de mesa, um computador do tipo laptop, uma estação de trabalho, um computador do tipo tablet ou slate, um dispositivo de gravação de áudio dedicado, um telefone celular (incluindo então chamados "telefones inteligentes”), um dispositivo pessoal de reprodução de mídia, um dispositivo pessoal de jogo, ou qualquer outro tipo de dispositivo om capacidade para decodificar dados de áudio.
[1204] No exemplo da Figura 41D, o dispositivo de decodificação de áudio 540D realiza um processo de decodificação de áudio que é recíproco ao processo de codificação de áudio realizado por qualquer um dentre os dispositivos de codificação de áudio 510B a 510J com exceção da realização da redução de ordem (as descrita acima em relação aos exemplos das Figuras 40B a 40J), que, em alguns exemplos, é usada pelos dispositivos de codificação de áudio 510B a 510J para facilitar a remoção de dados irrelevantes externos.
[1205] Embora mostrado como um único dispositivo, isto é, o dispositivo 540D no exemplo da Figura 41D, os vários componentes ou unidades indicados abaixo como incluídos no dispositivo 540D podem formar dispositivos separados que são externos ao dispositivo 54DC. Em outras palavras, embora descrito na presente revelação como sendo realizadas por um único dispositivo, isto é, o dispositivo 540D no exemplo da Figura 41D, as técnicas podem ser implantadas ou, de outro modo, realizadas por um sistema que compreende múltiplos dispositivos, em que cada um desses dispositivos pode incluir, cada um, um ou mais dentre os vários componentes ou unidades descritos mais detalhadamente abaixo. Consequentemente, nesse aspecto, as técnicas não devem ser limitadas ao exemplo da Figura 41D.
[1206] Ademais, o dispositivo de decodificação de áudio 540D pode ser semelhante ao dispositivo de decodificação de áudio 540B, com exceção de que o dispositivo de decodificação de áudio 540D realizar uma descompressão V adicional que é, em geral, recíproca à compressão realizada pela unidade de compressão V 552 descrita acima em relação à Figura 401. No exemplo da Figura 41D, a unidade de extração 542 inclui uma unidade de descompressão V 555 que realizar essa descompressão V dos componentes espaciais comprimidos 539’ incluídos no fluxo de bits 517 (e, especificados, em geral, em conformidade com o exemplo mostrado em uma das Figuras 10B e 10c). A unidade de descompressão V 555 pode descomprimir os vetores VTDIST 539 com base na seguinte equação:
Figure img0068
[1207] Em outras palavras, a unidade de descompressão V 555 pode analisar, primeiramente, o valor nbits a partir do fluxo de bits 517 e identificar o conjunto apropriado de cinco tabelas de código de Huffman a serem usadas durante a descodificação do código de Huffman representativo do cid. Com base no modo de predição e nas informações de codificação de Huffman especificadas no fluxo de bits 517 e, possivelmente, a ordem do elemento do componente espacial em relação aos outros elementos do componente espacial, a unidade de descompressão V 555 pode identificar a tabela correta dentre as cinco tabelas de Huffman definidas para o valor de nbits analisados. Com o uso dessa tabela de Huffman, a unidade de descompressão V 555 pode decodificar o valor de cid a partir do código de Huffman. Em seguida, a unidade de descompressão V 555 pode analisar o bit de sinal e o código de bloco residual, com a decodificação do código de bloco residual a fim de identificar o residual. Em conformidade com a equação acima, a unidade de descompressão V 555 pode decodificar um dentre os vetores VTDIST 539.
[1208] O supracitado pode ser resumido na seguinte tabela de sintaxe: TABELA— VETORES DECODIFICADOS
Figure img0069
Figure img0070
[1209] Na tabela de sintaxe supracitada, o primeiro comando de comutação com os quatro casos (caso 0 a 3) fornece maneira para determinar o comprimento do vetor VTDIST em termos do número de coeficientes. O primeiro caso, caso 0, indica que todos os coeficientes para os vetores VTDIST são especificados. O segundo caso, caso 1, indica que apenas esses coeficientes do vetor VTDIST correspondentes a uma ordem maior do que um MmNumOfCoeffsForAmbHOA são especificados, o que pode denotar o que é indicado como (NDIST +1) - (NBG + 1) acima. O terceiro caso, caso 2, é semelhante ao segundo caso, porém subtrai adicionalmente coeficientes identificados pelo NumOfAddAmbHoaChan, o que denota uma variável para especificar canais adicionais (em que "canais” indica um coeficiente específico correspondente a uma determinada combinação de ordem, subordem) correspondentes a uma ordem que excede a ordem NBG. O quarto caso, caso 3, indica que apenas aqueles coeficientes do vetor VTDIST deixados após a remoção dos coeficientes identificados por NumOfAddAmbHoaChan são especificados.
[1210] Após esse comando de comutação, a decisão de realizar a desquantização uniforme é controlada por NbitsQ (ou nbits, conforme denotado acima), o que resulta, caso não seja igual a 5, na aplicação da descodificação de Huffman. O valor de cid, indicado acima, é igual aos dois bits menos significantes do valor de NbitsQ. O modo de predição discutido acima é denotado como o PFlag na tabela de sintaxe acima, embora o bit de informações de HT seja denotado como o CbFlag na tabela de sintaxe acima. A sintaxe restante especifica como a decodificação ocorre de maneira substancialmente semelhante àquela descrita acima.
[1211] Dessa maneira, as técnicas da presente revelação podem possibilitar que o dispositivo de decodificação de áudio 540D obtenha um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, sendo que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos, e descomprima a versão comprimida do componente espacial para obter o componente espacial.
[1212] As demais, as técnicas podem possibilitar que o dispositivo de decodificação de áudio 540D descomprima uma versão comprimida de um componente espacial de um campo sonoro, sendo que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[1213] Dessa maneira, o dispositivo de codificação de áudio 540D pode realizar vários aspectos das técnicas apresentados abaixo em relação às cláusulas a seguir.
[1214] Cláusula 141541-1B. Um dispositivo que compreende:
[1215] um ou mais processadores configurados para obter um fluxo de bits que compreende uma versão comprimida de um componente espacial de um campo sonoro, sendo que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos, e para descomprimir a versão comprimida do componente espacial para obter o componente espacial.
[1216] Cláusula 141541-2B. O dispositivo da cláusula 141541-1B, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso, pelo menos parcialmente, de um campo que especifica um modo de predição usado durante a compressão do componente espacial, e em que os um ou mais processadores são configurados adicionalmente para descomprimir, durante a descompressão da versão comprimida do componente espacial, uma versão comprimida do componente espacial com base, pelo menos parcialmente, no modo de predição a fim de obter o componente espacial.
[1217] Cláusula 141541-3B. O dispositivo de qualquer combinação da cláusula 141541-1B e da cláusula 141541-2B, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso, pelo menos parcialmente, das informações da tabela de Huffman que especificam uma tabela de Huffman usada durante a compressão do componente espacial, e em que os um ou mais processadores são configurados adicionalmente para, durante a descompressão da versão comprimida do componente espacial, descomprimir a versão comprimida do componente espacial com base, pelo menos parcialmente, nas informações da tabela de Huffman.
[1218] Cláusula 141541-4B. O dispositivo de qualquer combinação da cláusula 141541-1B à cláusula 141541-3B, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso de, pelo menos parcialmente, um campo que indica um valor que expressa um tamanho de etapa de quantização ou uma variável da mesma usada durante a compressão do componente espacial, e em que os um ou mais processadores são configurados adicionalmente para, durante a descompressão da versão comprimida do componente espacial, descomprimir a versão comprimida do componente espacial com base, pelo menos parcialmente, no valor.
[1219] Cláusula 141541-5B. O dispositivo da cláusula 141541-4B, em que o valor compreende um valor de nbits.
[1220] Cláusula 141541-6B. O dispositivo de qualquer combinação da cláusula 141541-4B e da cláusula 141541-5B, em que o fluxo de bits compreende uma versão comprimida de uma pluralidade de componentes espaciais do campo sonoro cuja versão comprimida do componente espacial está incluída, em que o valor expressa o tamanho de etapa de quantização ou uma variável do mesmo usado durante a compressão da pluralidade de componentes espaciais e os um ou mais processadores são configurados adicionalmente para, durante a descompressão da versão comprimida do componente espacial, descomprimir a pluralidade de versão comprimida do componente espacial com base, pelo menos parcialmente, no valor.
[1221] Cláusula 141541-7B. O dispositivo de qualquer combinação da cláusula 141541-1B à cláusula 141541-6B, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso, pelo menos parcialmente, de um código de Huffman para representar um identificador de categoria que identifica uma categoria de compressão à qual o componente espacial corresponde, e em que os um ou mais processadores são configurados adicionalmente para descomprimir, durante a descompressão da versão comprimida do componente espacial, a versão comprimida do componente espacial com base, pelo menos parcialmente, no código de Huffman.
[1222] Cláusula 141541-8B. O dispositivo de qualquer combinação da cláusula 141541-1B à cláusula 141541-7B, em que a versão comprimida do componente espacial é representada no fluxo de bits com o uso de, pelo menos parcialmente, um bit de sinal que identifica se o componente espacial é um valor positivo ou um valor negativo, e em que os um ou mais processadores são configurados adicionalmente para descomprimir, durante a descompressão da versão comprimida do componente espacial, a versão comprimida do componente espacial com base, pelo menos parcialmente, no bit de sinal.
[1223] Cláusula 141541-9B. O dispositivo de qualquer combinação da cláusula 141541-1B à cláusula 141541-8B, em que a versão comprimida do componente espacial representada no fluxo de bits com o uso de, pelo menos parcialmente, um código de Huffman para representar um valor residual do componente espacial, e em que os um ou mais processadores são configurados adicionalmente para descomprimir, durante a descompressão da versão comprimida do componente espacial, a versão comprimida do componente espacial com base, pelo menos parcialmente, no código de Huffman.
[1224] Cláusula 141541-10B. O dispositivo de qualquer combinação da cláusula 141541-1B à cláusula 141541-10B, em que a síntese com base em vetor compreende uma decomposição de valor único.
[1225] Adicionalmente, o dispositivo de decodificação de áudio 540D pode ser configurado para realizar vários aspectos das técnicas apresentadas abaixo em relação às cláusulas a seguir.
[1226] Cláusula 141541-1C. Um dispositivo, como o dispositivo de decodificação de áudio 540D, que compreende: um ou mais processadores configurados para descomprimir uma versão comprimida de uma componente espacial de um campo sonoro, sendo que o componente espacial é gerado realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[1227] Cláusula 141541-2C. O dispositivo de qualquer combinação da cláusula 141541-1C e da cláusula 141541-2C, em que os um ou mais processadores são configurados adicionalmente para obter, durante a descompressão da versão comprimida do componente espacial, um identificador de categoria que identifica uma categoria à qual o componente espacial foi categorizado quando comprimido, obter um sinal que identifica se o componente espacial é um valor positivo ou negativo, obter um valor residual associado à versão comprimida do componente espacial e descomprimir a versão comprimida do componente espacial com base no identificador de categoria, no sinal e no valor residual.
[1228] Cláusula 141541-3C. O dispositivo da cláusula 141541-2C, em que os um ou mais processadores são configurados adicionalmente para obter, durante a obtenção do identificador de categoria, um código de Huffman representativo do identificador de categoria e para decodificar o código de Huffman para obter o identificador de categoria.
[1229] Cláusula 141541-4C. O dispositivo da cláusula 141541-3C, em que os um ou mais processadores são configurados adicionalmente para identificar, durante a decodificação do código de Huffman, uma tabela de Huffman usada para decodificar o código de Huffman com base em, pelo menos parcialmente, uma posição relativa do componente espacial em um vetor que especifica uma pluralidade de componentes espaciais.
[1230] Cláusula 141541-5C. O dispositivo de qualquer combinação da cláusula 141541-3C e da cláusula 141541-4C, em que os um ou mais processadores são configurados adicionalmente para identificar, durante a decodificação do código de Huffman, uma tabela de Huffman usada para decodificar o código de Huffman com base em, pelo menos parcialmente, um modo de predição usado durante a compressão do componente espacial.
[1231] Cláusula 141541-6C. O dispositivo de qualquer combinação da cláusula 141541-3C à cláusula 141541-5C, em que os um ou mais processadores são configurados adicionalmente para identificar, durante a decodificação do código de Huffman, uma tabela de Huffman usada para decodificar o código de Huffman com base, pelo menos parcialmente, nas informações da tabela de Huffman associadas à versão comprimida do componente espacial.
[1232] Cláusula 141541-7C. O dispositivo da cláusula 141541-3C, em que os um ou mais processadores são configurados adicionalmente para identificar, durante a decodificação do código de Huffman, uma tabela de Huffman usada para decodificar o código de Huffman com base, pelo menos parcialmente, em uma posição relativa do componente espacial em um vetor que especifica uma pluralidade de componentes espaciais, em um modo de predição usado durante a compressão do componente espacial e informações da tabela de Huffman associadas à versão comprimida do componente espacial.
[1233] Cláusula 141541-8C. O dispositivo da cláusula 141541-2C, em que os um ou mais processadores são configurados adicionalmente para decodificar, durante obtenção do valor residual, um código de bloco representativo do valor residual a fim de obter o valor residual.
[1234] Cláusula 141541-9C. O dispositivo de qualquer combinação da cláusula 141541-1C à cláusula 141541-8C, em que a síntese com base em vetor compreende uma decomposição de valor único.
[1235] Adicionalmente, o dispositivo de decodificação de áudio 540D pode ser configurado para realizar vários aspectos das técnicas apresentadas abaixo em relação às cláusulas a seguir. Cláusula 141541-1G. Um dispositivo, como o dispositivo de decodificação de áudio 540D que compreende: um ou mais processadores configurados para identificar um livro de códigos de Huffman para uso durante a descompressão de uma versão comprimida de um atual componente espacial de uma pluralidade de componentes espaciais comprimidos com base em uma ordem da versão comprimida do atual componente espacial em relação aos componentes restantes dentre a pluralidade de componentes espaciais comprimidos, sendo que a componente espacial é gerada realizando-se uma síntese com base em vetor em relação a uma pluralidade de coeficientes harmônicos esféricos.
[1236] Cláusula 141541-2G. O dispositivo da cláusula 141541-1G, em que os um ou mais processadores são configurados adicionalmente para realizar qualquer combinação das etapas recitadas na cláusula 141541-1D à cláusula 141541-10D, e na cláusula 141541-1E à cláusula 141541-9E.
[1237] As Figuras 42 a 42C são, cada uma, diagramas de blocos que ilustram mais detalhadamente a unidade de redução de ordem 528A mostrada nos exemplos das Figuras 40B a 40J. A Figura 42 é um diagrama de blocos que ilustra uma unidade de redução de ordem 528, que pode representar um exemplo da unidade de redução de ordem 528A das Figuras 40B a 40J. A unidade de redução de ordem 528A pode receber ou determinar, de outro modo, uma taxa-alvo de bits 535 e realizar a redução de ordem em relação aos coeficientes harmônicos esféricos de segundo plano 531 com base apenas nessa taxa-alvo de bits 535. Em alguns exemplos, a unidade de redução de ordem 528A pode acessar uma tabela ou outras estruturas de dados que usam a taxa- alvo de bits 535 para identificar aquelas ordens e/ou subordens que devem ser removidas dos coeficientes harmônicos esféricos de segundo plano 531 a fim de gerar os coeficientes harmônicos esféricos de segundo plano reduzidos 529.
[1238] Dessa maneira, as técnicas podem possibilitar que um dispositivo de codificação de áudio, como os dispositivos de codificação de áudio 510B a 410J, realizem, com base em uma taxa-alvo de bits 535, a redução de ordem em relação a uma pluralidade de coeficientes harmônicos esféricos ou decomposições dos mesmos, tais como, coeficientes harmônicos esféricos de segundo plano 531, a fim de gerar coeficientes harmônicos esféricos reduzidos 529 e as decomposições reduzidas dos mesmos, em que a pluralidade de coeficientes harmônicos esféricos representa um campo sonoro.
[1239] Em cada um dentre os vários exemplos descritos acima, deve ficar entendido que o dispositivo de decodificação de áudio 540 pode realizar um método ou compreende, de outro modo, meios para realizar cada etapa do método que o dispositivo de decodificação de áudio 540 é configurado para realizar, em alguns exemplos, sendo que esses meios podem compreender um ou mais processadores. Em alguns exemplos, os um ou mais processadores pode representar um processador de propósito especial configurado por meio de instruções armazenadas em uma mídia de armazenamento legível por computador não transitória. Em outras palavras, vários aspectos das técnicas em cada um desses conjuntos de exemplos de codificação podem fornecer uma mídia de armazenamento legível por computador não transitória que tem instruções armazenadas na mesma que, quando executadas, fazem com que os um ou mais processadores realizem o método que o dispositivo de decodificação de áudio 540 foi configurado para realizar.
[1240] A Figura 42B é um diagrama de blocos que ilustra uma unidade de redução de ordem 528B, que pode representar um exemplo da unidade de redução de ordem 528A das Figuras 40B a 40J. No exemplo da Figura 42B, em vez realizar a redução de ordem com base apenas em uma taxa- alvo de bits 535, a unidade de redução de ordem 528B pode realizar a redução de ordem com base em uma análise de conteúdo dos coeficientes harmônicos esféricos de segundo plano 531. A unidade de redução de ordem 528B pode incluir uma unidade de análise de conteúdo 536A que realiza essa análise de conteúdo.
[1241] Em alguns exemplos, a unidade de análise de conteúdo 536A pode incluir uma unidade de análise espacial 536A que realiza uma forma de análise de conteúdo denominada de análise espacial. A análise espacial pode envolver analisar os coeficientes harmônicos esféricos de segundo plano 531 para identificar informações espaciais que descrevem o formato ou outras propriedades espaciais dos componentes de segundo plano do campo sonoro. Com base nessas informações espaciais, a unidade de redução de ordem 528B pode identificar essas ordens e/ou subordens que devem ser removidas dos coeficientes harmônicos esféricos de segundo plano 531 a fim de gerar coeficientes harmônicos esféricos de segundo plano reduzidos 529.
[1242] Em alguns exemplos, a unidade de análise de conteúdo 536A pode incluir uma unidade de análise de difusão 536B que realiza uma forma de análise de conteúdo denominada de análise de difusão. A análise de difusão pode analisar os coeficientes harmônicos esféricos de segundo plano 531 para identificar as informações de difusão que descrevem a difusividade dos componentes de segundo plano do campo sonoro. Com base nessas informações de difusão, a unidade de redução de ordem 528B pode identificar essas ordens e/ou subordens que devem ser removidas dos coeficientes harmônicos esféricos de segundo plano 531 a fim de gerar coeficientes harmônicos esféricos de segundo plano reduzidos 529.
[1243] Embora mostrada como inclusiva tanto da unidade de análise espacial 536A quanto da unidade de análise de difusão 36B, a unidade de análise de conteúdo 536A pode incluir apenas a unidade de análise espacial 536, apenas a unidade de análise de difusão 536B ou tanto a unidade de análise espacial 536A quanto a unidade de análise de difusão 536B. Em alguns exemplos, a unidade de análise de conteúdo 536A pode realizar outras formas de análise de conteúdo além da análise espacial e da análise de difusão, ou como alternativas às mesmas. Consequentemente, as técnicas descritas na presente revelação não devem ser limitadas a esse aspecto.
[1244] Dessa maneira, as técnicas podem possibilitar que um dispositivo de codificação de áudio, como os dispositivos de codificação de áudio 510B a 510J, realize, com base em uma análise de conteúdo de uma pluralidade de coeficientes harmônicos esféricos ou decomposições dos mesmos que descreve um campo sonoro, a redução de ordem em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos a fim de gerar os coeficientes harmônicos esféricos reduzidos ou decomposições reduzidas dos mesmos.
[1245] Em outras palavras, as técnicas podem possibilitar que um dispositivo, como os dispositivos de codificação de áudio 510B a 510J, seja configurado em conformidade com as cláusulas a seguir.
[1246] Cláusula 133146-1E. Um dispositivo, como quaisquer um dentre os dispositivos de codificação de áudio 510B a 510J, que compreende um ou mais processadores configurados para realizar, com base em uma análise de conteúdo de uma pluralidade de coeficientes harmônicos esféricos ou decomposições dos mesmos que descrevem um campo sonoro, uma redução de ordem em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos a fim de gerar coeficientes harmônicos esféricos reduzidos ou decomposições reduzidas dos mesmos.
[1247] Cláusula 133146-2E. O dispositivo da cláusula 133146-1E, em que os um ou mais processadores são configurados adicionalmente para realizar, antes de realizar a redução de ordem, uma decomposição de valor único em relação à pluralidade de coeficientes harmônicos esféricos a fim de identificar um ou mais primeiros vetores que descrevem componentes distintos do campo sonoro e um ou mais segundos vetores que identificam componentes de segundo plano do campo sonoro, e em que os um ou mais processadores são configurados para realizar a redução de ordem em relação aos um ou mais primeiros vetores, aos um ou mais segundos vetores ou tanto aos um ou primeiros vetores quanto aos um ou mais segundos vetores.
[1248] Cláusula 133146-3E. O dispositivo da cláusula 133146-1E, em que os um ou mais processadores são configurados adicionalmente para realizar a análise de conteúdo em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos.
[1249] Cláusula 133146-4E. O dispositivo da cláusula 133146-3E, em que os um ou mais processadores são configurados para realizar a análise espacial em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos.
[1250] Cláusula 133146-5E. O dispositivo da cláusula 133146-3E, em que a realização da análise de conteúdo compreende realizar uma análise de difusão em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos.
[1251] Cláusula 133146-6E. O dispositivo da cláusula 133146-3E, em que os um ou mais processadores são configurados para realizar uma análise e uma análise de difusão em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos. Cláusula 133146- 7E. O dispositivo da reivindicação 1, em que os um ou mais processadores são configurados para realizar, com base na análise de conteúdo da pluralidade de coeficientes harmônicos esféricos ou nas decomposições dos mesmos e em uma taxa-alvo de bits, na redução de ordem em relação à pluralidade de coeficientes harmônicos esféricos ou nas decomposições dos mesmos a fim de gerar os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.
[1252] Cláusula 133146-8E. O dispositivo da cláusula 133146-1E, em que os um ou mais processadores são configurados adicionalmente para codificar por áudio os coeficientes harmônicos esféricos reduzidos ou as decomposições dos mesmos.
[1253] Cláusula 133146-9E. O dispositivo da cláusula 133146-1E, em que os um ou mais processadores são configurados adicionalmente para codificar por áudio os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos e para gerar um fluxo de bits de modo a incluir os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.
[1254] Cláusula 133146-10E. O dispositivo da cláusula 133146-1E, em que os um ou mais processadores são configurados adicionalmente para especificar uma ou mais ordens e/ou uma ou mais subordens de funções de base esférica às quais esses coeficientes harmônicos esféricos reduzidos ou das decomposições reduzidas dos mesmos correspondem em um fluxo de bits que inclui os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.
[1255] Cláusula 133146-1 IE. O dispositivo da cláusula 133146-1E, em que os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos têm menos valores que a pluralidade de coeficientes harmônicos esféricos ou as decomposições dos mesmos.
[1256] Cláusula 133146-12E. O dispositivo da cláusula 133146-1E, em que os um ou mais processadores são configurados adicionalmente para remover aqueles dentre a pluralidade de coeficientes harmônicos esféricos ou vetores das decomposições dos mesmos que têm uma ordem e/ou subordem especificada para gerar os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.
[1257] Cláusula 133146-13E. O dispositivo da cláusula 133146-1E, em que os um ou mais processadores são configurados para zerar esses aqueles dentre a pluralidade de coeficientes harmônicos esféricos ou aqueles vetores da decomposição dos mesmos que têm uma ordem e/ou subordem especificada para gerar os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.
[1258] A Figura 42C é um diagrama de blocos que ilustra uma unidade de redução de ordem 528C, que pode representar um exemplo da unidade de redução de ordem 528A das Figuras 40B a 40J. A unidade de redução de ordem 528C da Figura 42B é substancialmente a mesma que a unidade de redução de ordem 528B, porém pode receber ou, de outro modo, determinar uma taxa-alvo de bits 535 da maneira descrita acima em relação à unidade de redução de ordem 528A da Figura 42, ao mesmo tempo em que também realizar a análise de conteúdo da maneira descrita acima em relação à unidade de redução de ordem 528B da Figura 42B. Em seguida, a unidade de redução de ordem 528C pode realizar a redução de ordem em relação aos coeficientes harmônicos esféricos de segundo plano 531 com base nessa taxa-alvo de bits 535 e na análise de conteúdo.
[1259] Dessa maneira, as técnicas podem possibilitar que um dispositivo de codificação de áudio, por exemplo, os dispositivos de codificação de áudio 510B a 510J, realizem uma análise de conteúdo em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos. Durante a realização da redução de ordem, os dispositivos de codificação de áudio 510B a 510J podem realizar, com base na taxa-alvo de bits 535 e na análise de conteúdo, a redução de ordem em relação à pluralidade de coeficientes harmônicos esféricos ou às decomposições dos mesmos para gerar os coeficientes harmônicos esféricos reduzidos ou as decomposições reduzidas dos mesmos.
[1260] Visto que um ou mais vetores são removidos, os dispositivos de codificação de áudio 510B a 510J pode especificar o número de vetores no fluxo de bits como dados de controle. Os dispositivos de codificação de áudio 510B a 510J pode especificar esse número de vetores no fluxo de bits para facilitar a extração dos vetores do fluxo de bits pelo dispositivo de decodificação de áudio.
[1261] A Figura 44 é uma ilustração em diagrama exemplificativo de operações realizadas pelo dispositivo de codificação de áudio 410D para compensar a o erro de quantização em conformidade com vários aspectos das técnicas descritas na presente revelação. No exemplo da Figura 44, a unidade de matemática 526 do dispositivo de codificação de áudio 510D é mostrada como um bloco tracejado para denotar que as operações matemáticas podem ser realizadas pela unidade de matemática 526 do dispositivo de decodificação de áudio 510D.
[1262] Conforme mostrado no exemplo da Figura 44, a unidade de matemática 526 pode multiplicar primeiramente os vetores UDIST * SDIST 527 pelos vetores VTDIST 525E a fim de gerar coeficientes harmônicos esféricos distintos (denotados como "vetores HDIST 630”). Em seguida, a unidade de matemática 526 pode dividir os vetores HDIST 630 pela versão quantizada dos vetores VTDIST 525E (que são denotadas, novamente, como "vetores VTQ_DIST 525G”). A unidade de matemática 526 pode realizar a divisão determinando-se um pseudoinverso dos vetores VTQ_DIST 525G e em seguida multiplicando-se os vetores HDIST pelo pseudoinverso dos vetores VTQ_DIST 525G, emitindo-se uma versão compensada de erro de UDIST * SDIST (que pode ser abreviado como vetores "USDIST” ou "USDIST”). A versão compensada de erro de USDIST pode ser denotada como vetores USDIST 527’ no exemplo da Figura 44. Dessa maneira, as técnicas podem projetar, de maneira eficaz, o erro de quantização, pelo menos parcialmente, para os vetores USDIST 527, gerando os vetores USDIST 527’.
[1263] Em seguida, a unidade de matemática 526 pode subtrair os vetores USDIST 527’ dos vetores UDIST * SDIST 527 para determinar os vetores USERR 634 (que podem representar pelo menos uma porção do erro devido à quantização projetada nos vetores UDIST * SDIST 527). Em seguida, a unidade de matemática 526 pode multiplicar os vetores USERR 634 pelos vetores VTQ_DIST 525G a fim de determinar os vetores HERR 636. Matematicamente, os vetores HERR 636 pode ser equivalente aos vetores USDIST 527 - vetores USDIST 527’, cujo resultado é, em seguida, multiplicado pelos vetores VTDIST 525E. Em seguida, a unidade de matemática 526 pode somar os vetores HERR 636 aos coeficientes harmônicos esféricos de segundo plano 531 (denotados como vetores ^G 531 no exemplo da Figura 44) computado multiplicando-se os vetores UBG 525D pelos vetores SBG 525B e, em seguida, pelos vetores VTBG 525F. A unidade de matemática 526 pode somar os vetores HERR 636 aos vetores HBG 531, o que projeta de maneira eficaz pelo menos uma porção do erro de quantização nos vetores HBG 531 para gerar vetores HBG 53 compensados. Dessa maneira, as técnicas podem projetar pelo menos uma porção do erro de quantização nos vetores HBG 531.
[1264] As Figuras 45 e 45B são diagramas que ilustram a interpolação de subquadros das porções de dois quadros em conformidade com vários aspectos das técnicas descritas na presente revelação. No exemplo da Figura 45, um primeiro quadro 650 e um segundo quadro 652 são mostrados. O primeiro quadro 650 pode incluir coeficientes harmônicos esféricos (“SH[1]”) que podem ser decompostos em matrizes U[1], S[1] e V’[1]. O segundo quadro 652 pode incluir coeficientes harmônicos esféricos (“SH[2]”). Esses SH[1] e SH[2] podem identificar diferentes quadros do SHC 511 descritos acima.
[1265] No exemplo da Figura 45B, a unidade de decomposição 518 do dispositivo de codificação de áudio 510H mostrado no exemplo da Figura 40H pode separar cada um dentre os quadros 650 e 652 em quatro subquadros respectivos 651A a 651D e 653A a 653D. Em seguida, a unidade de decomposição 518 pode decompor o primeiro subquadro 651A (denotado como "SH[1,1]”) do quadro 650 em matrizes U[1, 1], S[1, 1] and V[1, 1], emitindo a matriz V[1, 1] 519’ à unidade de interpolação 550. Em seguida, a unidade de decomposição 518 pode decompor o segundo subquadro 653A (denotado como "SH[2,1]”) do quadro 652 em matrizes U[1, 1], S[1, 1] and V[1, 1], emitindo a matriz V[2, 1] 519’ à unidade de interpolação 550. A unidade de decomposição 518 também pode emitir SH[1, 1], SH[1, 2], SH[1, 3] and SH[1, 4] dos SHC 11 e SH[2, 1], SH[2, 2], SH[2, 3] e SH[2, 4] do SHC 511 à unidade de interpolação 550.
[1266] Em seguida, a unidade de interpolação 550 pode realizar as interpolações identificadas no fundo da ilustração mostrada no exemplo da Figura 45B. Ou seja, a unidade de interpolação 550 pode interpolar V’[1, 2] com base em V’[1, 1] e em V’[2, 1]. A unidade de interpolação 550 pode também interpolar V’[1, 3] com base em V’[1, 1] e em V’[2, 1]. Além disso, a unidade de interpolação 550 pode também interpolar V’[1, 4] com base em V’[1, 1] e em V’[2, 1]. Essas interpolações podem envolver uma projeção do V’[1, 1] e do V’[2, 1] no domínio espacial, conforme mostrado no exemplo das Figuras 46 a 46E, seguidos por uma interpolação temporal e, em seguida, por uma projeção de volta no domínio harmônico esférico.
[1267] A unidade de interpolação 550 pode, em seguida, derivar U[1, 2]S[1, 2] multiplicando-se SH[1, 2] por (V’[1, 2])-1, U[1, 3]S[1, 3] multiplicando-se SH[1, 3] por (V’[1, 3])-1 e U[1, 4]S[1, 4] multiplicando-se SH[1, 4] por (V’[1, 4])-1. Em seguida, a unidade de interpolação 550 pode reformar o quadro em forma decomposta emitindo a matriz V 519, a matriz S 519B e a matriz U 519C.
[1268] As Figuras 46A a 46E são diagramas que ilustram um corte transversal de uma projeção de um ou mais vetores de uma versão decomposta de uma pluralidade de coeficientes harmônicos esféricos que foram interpolados em conformidade com as técnicas descritas na presente revelação. A Figura 46A ilustra um corte transversal de uma projeção de um ou mais primeiros vetores de uma primeira matriz V 19’ que foi decomposta do SHC 511 de um primeiro subquadro a partir de um primeiro quadro através de um processo de SVD. A Figura 46B ilustra um corte transversal de uma projeção de um ou mais primeiros vetores de uma segunda matriz V 519’ que foi decomposta do SHC 511 de um segundo subquadro a partir de um segundo quadro através de um processo de SVD.
[1269] A Figura 46C ilustra um corte transversal de uma projeção de um ou mais vetores interpolados para uma matriz V 519A representativa de um segundo subquadro do primeiro quadro, sendo que esses vetores foram interpolados em conformidade com as técnicas descritas na presente revelação da matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro do SHC 511 (isto é, os um ou mais vetores da matriz V 519’ mostrada no exemplo da Figura 46 nesse exemplo) e do primeiro subquadro do segundo quadro do SHC 511 (isto é, os um ou mais vetores da matriz V 519’ mostrados no exemplo da Figura 46B nesse exemplo).
[1270] A Figura 46D ilustra um corte transversal de uma projeção de um ou mais vetores interpolados para uma matriz V 519A representativa de um terceiro subquadro do primeiro quadro, sendo que esses vetores foram interpolados em conformidade com as técnicas descritas na presente revelação da matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro do SHC 511 (isto é, os um ou mais vetores da matriz V 519’ mostrada no exemplo da Figura 46 nesse exemplo) e do primeiro subquadro do segundo quadro do SHC 511 (isto é, os um ou mais vetores da matriz V 519’ mostrados no exemplo da Figura 46B nesse exemplo).
[1271] A Figura 46E ilustra um corte transversal de uma projeção de um ou mais vetores interpolados para uma matriz V 519A representativa de um quarto subquadro do primeiro quadro, sendo que esses vetores foram interpolados em conformidade com as técnicas descritas na presente revelação da matriz V 519’ decomposta a partir do primeiro subquadro do primeiro quadro do SHC 511 (isto é, os um ou mais vetores da matriz V 519’ mostrada no exemplo da Figura 46 nesse exemplo) e do primeiro subquadro do segundo quadro do SHC 511 (isto é, os um ou mais vetores da matriz V 519’ mostrados no exemplo da Figura 46B nesse exemplo).
[1272] A Figura 47 é um diagrama de blocos que ilustra mais detalhadamente a unidade de extração 542 dos dispositivos de decodificação de áudio 540A a 540D mostrados nos exemplos das Figuras 41 a 41D. Em alguns exemplos, a unidade de extração 542 pode representar um front-end o qual pode ser denominado de "decodificador integrado”, que ode realizar dois ou mais esquemas de decodificação (em que, realizando-se esses dois ou mais esquemas, o decodificador pode ser considerado para "integrar” os dois ou mais esquemas). Conforme mostrado no exemplo da Figura 44, a unidade de extração 542 inclui um multiplexador 620 e as subunidades de extração 622A e 622B (“subunidades de extração 622”). O multiplexador 620 identificar aquelas dentre as matrizes de SCH com quadro codificadas 547 a 547N a serem enviadas à subunidade de extração 622A e à subunidade de extração 622B com base na indicação correspondente de se as matrizes de SCH com quadro codificadas associadas 547 a 547N são geradas a parir de um objeto de áudio sintético ou de uma gravação. Cada uma dentre as subunidades de extração 622A pode realizar um diferente esquema de decodificação (que pode ser denominado de "descompressão”) que, em alguns exemplos, é adaptado tanto para SHC gerado a partir de um objeto de áudio sintético como para um SHC gerado a partir de uma gravação. Cada uma dentre as subunidades de extração 622A pode realizar um esquema respectivo dentre esses esquemas de descompressão a fim de gerar os quadros do SHC 547, que são emitidos ao SHC 547.
[1273] Por exemplo, a unidade de extração 622A pode realizar um esquema de descompressão para reconstruir da SA de um sinal predominante (PS) com o uso da seguinte fórmula:
Figure img0071
[1274] em que DirV é um vetor direcional (representativo de várias direções e larguras), que podem ser transmitidas através de um canal auxiliar. Nesse exemplo, a unidade de extração 622B pode realizar um esquema de descompressão que reconstrói a matriz de HOA do PS com o uso da seguinte fórmula:
Figure img0072
[1275] em que Ynm é a função harmônica esférica e as informações de teta e fi podem ser enviadas através do canal auxiliar.
[1276] Nesse aspecto, as técnicas possibilitam que a unidade de extração 538 selecione um dentre uma pluralidade de esquemas de descompressão com base na indicação de se uma versão comprimida de coeficientes harmônicos esféricos representativos de um campo sonoro é gerada a partir de um objeto de áudio sintético e descomprima a versão comprimida dos coeficientes harmônicos esféricos com o uso do esquema selecionado dentre a pluralidade de esquemas de descompressão. Em alguns exemplos, o dispositivo compreende um decodificador integrado.
[1277] A Figura 48 é um diagrama de blocos que ilustra a unidade de renderização de áudio 48 do dispositivo de decodificação de áudio 540A a 540D mostrado nos exemplos das Figuras 41A a 41D mais detalhadamente. A Figura 48 ilustra uma conversão dos coeficientes harmônicos esféricos recuperados 547 nos dados de áudio de multicanais 549A que é compatível com uma geometria de falante local decodificador. Para algumas geometrias de falante local (que, novamente, pode se referir a uma geometria de falante no decodificador), algumas transformadas que garantem a invertibilidade podem resultar em uma qualidade de áudio- imagem menos que desejável. Ou seja, a reprodução de som pode não resultar sempre em uma localização correta de sons quando comparada ao áudio que é capturado. A fim de corrigir essa qualidade de imagem menos que desejável, as técnicas podem ser aprimoradas adicionalmente de modo a introduzir um conceito que pode ser denominado de "falantes virtuais”.
[1278] Em vez de exigir que um ou mais alto- falantes sejam reposicionados ou posicionados em regiões particulares ou definidas de espaço que têm determinadas tolerâncias especificadas por um padrão, tal como, o ITU-R BS.775-1 verificado acima, a moldura acima pode ser modificada para incluir alguma forma de movimento panorâmico, por exemplo, o movimento panorâmico de amplitude de base de vetor (VBAP), movimento panorâmico de amplitude com base em distância ou outras formas de movimento panorâmico. Tendo como foco o VBAP, para propósitos de ilustração, o VBAP pode introduzir de maneira eficaz o que pode ser caracterizado como "falantes virtuais”. O VBAP pode modificar uma alimentação a um ou mais alto-falantes de modo que esses ou mais alto-falantes emitem de maneira eficaz som que aparenta se originar de um falante virtual em um ou mais dentre uma localização e ângulo diferente d que pelo menos um dentre localização e/ou ângulo dos um ou mais alto-falantes que suportam falante virtual.
[1279] Para propósitos de ilustração, a equação a seguir para determinar as alimentações alto- falante em termos de SHC pode ser conforme o seguinte:
Figure img0073
[1280] Na equação acima, a matriz de VBAP é do tamanho de M fileiras por N colunas, número de falantes (e é igual a cinco na equação acima) e N denota o número de falantes virtuais. A matriz A de VBAP pode ser computada como uma função dos vetores a partir da localização definida do ouvinte para cada uma dentre as posições dos falantes e dos vetores a partir da localização definida do ouvinte para cada uma dentre as posições dos falantes virtuais. A matriz A D na equação acima pode ser do tamanho de N fileiras por (ordem+1)2 colunas, em que a ordem pode se referir à ordem das funções de SH. A matriz D pode representar o seguinte:
Figure img0074
[1281] A matriz g (ou vetor, visto que há apenas uma única coluna) pode representar o ganho para alimentações de falante para os falantes dispostos na geometria de decodificador local. Na equação, a matriz g é do tamanho M. A matriz A (ou vetor, visto que há apenas uma única coluna) pode denotar o SHC 520, e é do tamanho (Ordem+1)(Ordem+l), que também pode ser denotado como (Ordem+1)2.
[1282] Em vigor, a matriz de VBAP é uma matriz MxN que fornece o que pode ser denominado como um "ajuste de ganho” que fatora na localização dos falantes e da porção dos falantes virtuais. A introdução do movimento panorâmico dessa maneira pode resultar em melhor reprodução do áudio de multicanais que resulta em uma imagem de melhor qualidade quando reproduzida pela geometria de falante local. Ademais, incorporando-se o VBAP nessa equação, as técnicas podem superar geometrias de falante insatisfatórias que não se alinham àquelas especificadas em vários padrões.
[1283] Na prática, a equação pode ser invertida e empregada para transformar o SHC de volta às alimentações de multicanais para uma geometria ou configuração particular de alto-falantes, que, novamente, pode ser denominada de geometria de decodificador local na presente revelação. Ou seja, a equação pode ser invertida a fim de resolver a matriz g. A equação invertida pode ser conforme o seguinte]:
Figure img0075
[1284] A matriz g pode representar o ganho de falante, nesse exemplo, para cada um dentre os cinco alto- falantes em uma configuração de falante 5.1. As localizações de falantes virtuais usadas nessa configuração podem corresponder às localizações definidas em uma especificação ou padrão de formato de multicanal de 5.1. A localização dos alto-falantes que podem suportar cada um dentre esses falantes virtuais pode ser determinada com o uso de qualquer técnica conhecida de localização de áudio, dentre as quais, muitas envolvem reproduzir um tom que tem uma frequência particular para determinar uma localização de cada alto-falante em relação a uma unidade de headend (tal como, um receptor de áudio/vídeo (receptor de A/V), televisão, sistema de jogos, sistema de disco de vídeo digital, ou outros tipos de sistemas de headend). Alternativamente, um usuário da unidade de headend pode especificar manualmente a localização de cada um dentre os alto-falantes. De qualquer modo, dadas essas localizações e possíveis ângulos, a unidade de headend pode resolver os ganhos, assumindo uma configuração ideal de alto-falantes virtuais por meio de VBAP.
[1285] Nesse aspecto, um dispositivo ou aparelho pode realizar um movimento panorâmico de amplitude de base de vetor ou outra forma de movimento panorâmico na pluralidade de canais virtuais para produzir uma pluralidade de canais que acionam os falantes e, uma geometria de decodificador local para emitir sons que aparentam se originarem dos falantes virtuais configurados em uma diferente geometria local. Portanto, as técnicas podem possibilitar que o dispositivo de decodificação de áudio 40 realize uma transformada na pluralidade de coeficientes harmônicos esféricos, tais como, os coeficientes harmônicos esféricos recuperados 47, a fim de produzir uma pluralidade de canais. Cada uma dentre a pluralidade de canais pode ser associada a uma região diferente correspondente de espaço. Ademais, cada um dentre a pluralidade de canais pode compreender uma pluralidade de canais virtuais, em que a pluralidade de canais virtuais pode ser associada à região diferente correspondente de espaço. Portanto, um dispositivo pode realizar um movimento panorâmico de amplitude de base de vetor nos canais virtuais para produzir a pluralidade de canais dos dados de áudio de multicanais 49.
[1286] As Figuras 49A a 49E(ii) são diagramas que ilustram sistemas de codificação de áudio receptivos 560 A 560C, 567D, 569D, 571E e 573E que podem implantar vários aspectos das técnicas descritas na presente revelação. Conforme mostrado no exemplo da Figura 49A, o sistema de codificação de áudio 560 A pode incluir um dispositivo de codificação de áudio 562 e um dispositivo de decodificação de áudio 564. O dispositivo de codificação de áudio 562 pode ser semelhante a qualquer um dentre os dispositivos de codificação de áudio 20 e 510A a 510D mostrados no exemplo das Figuras 4 e 40A a 40D, respectivamente. O dispositivo de decodificação de áudio 564 pode ser semelhante ao dispositivo de decodificação de áudio 24 e 40 mostrado no exemplo das Figuras 5 e 41.
[1287] Conforme descrito acima, a ambisonics de ordem superior (HO A) é uma maneira de descrever todas as informações direcionais de um campo sonoro com base em uma transformada de Fourier espacial. Em alguns exemplos, quanto mais alta a ordem de ambisonics, N, maior a resolução espacial e maior o número de coeficientes harmônicos esféricos (SH) (N+1)2. Desse modo, quanto mais alta a ordem de ambisonics N, em alguns exemplos, os resultados são exigências de maior largura de banda para transmitir e armazenar os coeficientes. Devido ao fato de que as exigências de largura de banda de HO A são um tanto altas em comparação, por exemplo, a dados de áudio de sistema surround 5.1 ou 7.1, uma redução de largura de banda pode desejada para muitas aplicações.
[1288] Em conformidade com as técnicas descritas na presente revelação, o sistema de codificação de áudio 560 A pode realizar um método com base na separação dos elementos distintos (primeiro plano) dos não distintos dos não distintos (de segundo plano ou ambiente) em uma cena de som espacial. Essa separação pode permitir que o sistema de codificação de áudio 560 A processe elementos e primeiro e de segundo plano independentemente um do outro. Nesse exemplo, o sistema de codificação de áudio 560 A explora a propriedade que elementos de primeiro plano pode atrair mais atenção (pelo ouvinte) e pode ser mais fácil de localizar (novamente, pelo ouvinte) em comparação a elementos de segundo plano. Como resultado, o sistema de codificação de áudio 560 A pode armazenar ou transmitir conteúdo de HOA de maneira mais eficaz.
[1289] Em alguns exemplos, o sistema de codificação de áudio 560 A pode realizar essa separação empregando-se o processo de Decomposição de Valor Singular (SVD). O processo de SVD pode separar um quadro de coeficientes de HOA em 3 matrizes (U, S, V). A matriz U contém os vetores esquerdos singulares e a matriz V contém os vetores direitos singulares. A matriz S Diagonal S contém os valores singulares classificados não negativos em sua diagonal. Uma reconstrução geralmente satisfatória (ou, em alguns exemplos, perfeita que assume precisão ilimitada na representação dos coeficientes de HOA) dos coeficientes de HOA é dada por U*S*V. Através da reconstrução apenas do subespaço com os maiores valores singulares D: U(:,1:D)*S(1:D,:)*V, o sistema de codificação de áudio 560 A pode extrair as informações espaciais mais salientes desse quadro de HOA, isto é, elementos de som de primeiro plano (e, talvez, alguns reflexos fortes de sala anteriores). O U(:,D+1:end)*S(D+1:end,:)*V’ restante pode reconstruir os elementos de segundo plano e a reverberação do conteúdo.
[1290] O sistema de codificação de áudio 560 A pode determinar o valor D, que separa os dois subespaços, analisando-se o coeficiente angular da curva criada diminuindo valores diagonais de S: os valores singulares grandes representam sons de primeiro plano, valores singulares baixos representam valores de segundo plano. O sistema de codificação de áudio 560 A pode usar uma primeira e uma segunda derivada da curva de valor singular. O sistema de codificação de áudio 560 A também pode limitar o número D entre um e cinco. Alternativamente, o sistema de codificação de áudio 560 A pode predefinir o número D, por exemplo, a um valor de quatro. De qualquer modo, uma vez que o número D é estimado, o sistema de codificação de áudio 560 A extrai o subespaço de primeiro e de segundo plano das matrizes U e S.
[1291] O sistema de codificação de áudio 560 A pode, então, reconstruir os coeficientes de HO A do cenário de segundo plano por meio de U(:,D+l:end)*S(D+l:end,:)*V, o que resulta em (N+1)2 canais de coeficientes de HOA. Uma vez que sabe-se que os elementos de segundo plano não são, em alguns exemplos, tão salientes e não são tão passíveis de localização em relação aos elementos de primeiro plano, o sistema de codificação de áudio 560 A pode truncar a ordem dos canais de HOA. Adicionalmente, o sistema de codificação de áudio 560 A pode comprimir esses canais com codecs de áudio com perda ou sem perda, por exemplo AAC, ou opcionalmente um codec de áudio mais agressivo em comparação ao codec usado para comprimir os elementos salientes de primeiro plano. Em alguns exemplos, a fim de economizar largura de banda, o sistema de codificação de áudio 560 A pode transmitir diferentemente os elementos de primeiro plano. Ou seja, o sistema de codificação de áudio pode transmitir os vetores esquerdos singulares U(:,l:D) após serem comprimidos com codecs de áudio com perdas ou sem perdas (por exemplo, AAC) e pode transmitir esses valores esquerdos singulares comprimidos junto da matriz de reconstrução R=S(1:D,:)*V. R pode representar uma matriz D x (N+1)2, que pode diferir ao longo dos quadros.
[1292] No lado receptor do sistema de codificação de áudio 560, o sistema de codificação de áudio pode multiplicar essas duas matrizes a fim de reconstruir um quadro de (N+1)2 canais de HOA. Uma vez que os canais de HOA de segundo plano e de primeiro plano são somados entre si, o sistema de codificação de áudio 560 A pode renderizar para qualquer organização de alto-falante com o uso de qualquer renderizador Ambissônico. Visto que as técnicas fornecem a separação de elementos de primeiro plano (som direto ou distinto) dos elementos de segundo plano, uma pessoa com problemas auditivos pode controlar a mistura de elementos de primeiro e de segundo plano a fim de aumentar a inteligibilidade. Além disso, outros efeitos de áudio também podem ser aplicados, por exemplo, um compressor dinâmico apenas nos elementos de primeiro plano.
[1293] A Figura 49B é um diagrama de blocos que ilustra o sistema de codificação de áudio 560B mais detalhadamente. Conforme mostrado no exemplo da Figura 49B, o sistema de codificação de áudio 560B pode incluir um dispositivo de codificação de áudio 566 e um dispositivo de decodificação de áudio 568. O dispositivo de codificação de áudio 566 pode ser semelhante aos dispositivos de codificação de áudio 24 e 510E mostrados nos exemplos das Figuras 4 e 40E. O dispositivo de decodificação de áudio 568 pode ser semelhante ao dispositivo de decodificação de áudio 540B e 40 mostrado no exemplo das Figuras 5 e 41B.
[1294] Em conformidade com as técnicas descritas na presente revelação, durante o uso do quadro com base SVD (ou métodos relacionados, por exemplo, KLT & PCA) a decomposição em sinais de HoA, para o propósito de redução de largura de banda, o dispositivo de codificação de áudio 66 pode quantizar os primeiros vetores da matriz U (múltiplos pelos valores singulares correspondentes da matriz S) assim como os vetores correspondentes do VT vetor. Isso irá compreende os componentes ‘de primeiro plano’ do campo sonoro. As técnicas podem possibilitar que o dispositivo de codificação de áudio 566 codifique o vetor UDIST * SDIST com o uso de um mecanismo de codificação de áudio "caixa preta". O vetor V pode ser tanto escalar como um vetor quantizado. Além disso, alguns ou todos os vetores restantes na matriz U podem ser multiplicados pelos valores singulares correspondentes da matriz S e da matriz V e também codificados com o uso de um mecanismo de codificação de áudio "caixa-preta". Os mesmos irão compreender os componentes 'de segundo plano' do campo sonoro.
[1295] Visto que os componentes de audição mais altos são decompostos nos ‘componentes de primeiro plano’, os dispositivos de codificação de áudio 566 podem reduzir a ordem de Ambisonics dos componentes de 'plano de fundo' antes de usar um mecanismo de codificação de áudio "caixa-preta", devido ao fato de que pressupõe-se que o segundo plano não contém importante conteúdo passível de localização. Dependendo da ordem de ambisonics dos componentes de primeiro plano, uma unidade de codificação de áudio 566 pode transmitir o(s) vetor(es)-V correspondente(s), que podem ser um tanto grandes. Por exemplo, uma simples quantização escalar de 16 bits dos vetores V irá resultar em uma sobrecarga de aproximadamente 20 kbps para a 4a ordem (25 coeficientes) e de 40 kbps para 6a ordem (49 coeficientes) por componente de primeiro plano. As técnicas descritas na presente revelação podem fornecer um método para reduzir essa sobrecarga do Vetor-V.
[1296] Para propósitos de ilustração, pressupõe-se que a ordem de ambisonics dos elementos de primeiro plano é NDIST e a ordem de ambisonics dos elementos de segundo plano NBG, conforme descrito acima. Visto que o dispositivo de codificação de áudio 566 pode reduzir a ordem de Ambisonics dos elementos de segundo plano, conforme descrito acima, NBG pode ser menor do que NDIST. O comprimento do vetor-V de primeiro plano que precisa ser transmitido para reconstruir os elementos de primeiro plano no lado receptor, tem o comprimento de (NDIST+1)2 por elemento de primeiro plano, ao passo que os primeiros coeficientes ((NDIST+1)2) - ((NBG+1)2) podem ser usados para reconstruir os componentes de primeiro plano ou distintos até a ordem NBG. Com o uso das técnicas descritas na presente revelação, o dispositivo de codificação de áudio 566 pode reconstruir o primeiro plano até a ordem NBG e mesclar os (NBG+1)2 canais resultantes com os canais de segundo plano, o que resulta em um campo sonoro completo até a ordem NBG. O dispositivo de codificação de áudio 566 pode, em seguida, reduzir o vetor-V para aqueles coeficientes com o índice maior do que (NBG+1)2 para transmissão, (em que esses vetores podem ser denominados de "VTSMALL”). No lado receptor, a unidade de decodificação de áudio 568 pode reconstruir os canais de áudio de primeiro plano para a ordem de ambisonics maior do que NBG multiplicando-se os elementos de primeiro plano pelos vetores VTSMALL.
[1297] A Figura 49C é um diagrama de blocos que ilustra o sistema de codificação de áudio 560C mais detalhadamente. Conforme mostrado no exemplo da Figura 49C, o sistema de codificação de áudio 560B pode incluir um dispositivo de codificação de áudio 567 e um dispositivo de decodificação de áudio 569. O dispositivo de codificação de áudio 567 pode ser semelhante aos dispositivos de codificação de áudio 20 e 510F mostrados nos exemplos das Figuras 4 e 40F. O dispositivo de decodificação de áudio 569 pode ser semelhante aos dispositivos de decodificação de áudio 540B e 40 mostrado no exemplo das Figuras 5 e 41B.
[1298] Em conformidade com as técnicas descritas na presente revelação, durante o uso do quadro com base SVD (ou métodos relacionados, por exemplo, KLT & PCA) a decomposição em sinais de HoA, para o propósito de redução de largura de banda, o dispositivo de codificação de áudio 567 pode quantizar os primeiros vetores da matriz U (múltiplos pelos valores singulares correspondentes da matriz S) assim como os vetores correspondentes do VT vetor. Isso irá compreende os componentes ‘de primeiro plano’ do campo sonoro. As técnicas podem possibilitar que o dispositivo de codificação de áudio 567 codifique o vetor UDIST * SDIST com o uso de um mecanismo de codificação de áudio "caixa preta". O vetor V pode ser tanto escalar como um vetor quantizado. Além disso, alguns ou todos os vetores restantes na matriz U podem ser multiplicados pelos valores singulares correspondentes da matriz S e da matriz V e também codificados com o uso de um mecanismo de codificação de áudio "caixa-preta". Os mesmos irão compreender os componentes 'de segundo plano' do campo sonoro.
[1299] Visto que os componentes de audição mais altos são decompostos nos ‘componentes de primeiro plano’, os dispositivos de codificação de áudio 567 podem reduzir a ordem de Ambisonics dos componentes de 'plano de fundo' antes de usar um mecanismo de codificação de áudio "caixa-preta", devido ao fato de que pressupõe-se) que o segundo plano não contém importante conteúdo passível de localização. O dispositivo de codificação de áudio 567 pode reduzir a ordem de maneira a preservar a energia geral do campo sonoro de acordo com técnicas descritas no presente documento. Dependendo da ordem de Ambisonics dos componentes de primeiro plano, uma unidade de codificação de áudio 567 pode transmitir o(s) vetor(es)-V correspondente(s), que podem ser um tanto grandes. Por exemplo, uma simples quantização escalar de 16 bits dos vetores V irá resultar em uma sobrecarga de aproximadamente 20 kbps para a 4a ordem (25 coeficientes) e de 40 kbps para 6a ordem (49 coeficientes) por componente de primeiro plano. As técnicas descritas na presente revelação podem fornecer um método para reduzir essa sobrecarga do(s) Vetor(es)-V.
[1300] Para propósito de ilustração, pressupõe-se que a ordem de Ambisonics dos elementos de primeiro plano e dos elementos de segundo plano é N. O dispositivo de codificação de áudio 567 pode reduzir a ordem de Ambisonics dos elementos de segundo plano do(s) vetor-V(s) de N a f| de modo que rj < N. O dispositivo de codificação de áudio 67 aplica adicionalmente compensação para aumentar os valores dos elementos de segundo plano do(s) vetor-V(s) para preservar a energia geral do campo sonoro descrito pelos SHCs. As técnicas exemplificativas para aplicar compensação são descritas acima em relação à Figura 40F. No lado receptor, a unidade de decodificação de áudio 569 pode reconstruir os canais de áudio de segundo plano para a ordem de ambisonics. As Figuras 49D(i) e 49D(ii) ilustram um dispositivo de codificação de áudio 567D e um dispositivo de decodificação de áudio 569D respectivamente. O dispositivo de codificação de áudio 567D e o dispositivo de decodificação de áudio 569D podem ser configurados para realizar uma ou mais determinações de distinções com base em direcionalidade, em conformidade com aspectos da presente revelação. A Ambisonics de Ordem Superior (HO A) é um método para descrever todas as informações direcionais de um campo sonoro com base na transformada de Fourier espacial. Quanto mais alta a ordem de Ambisonics N, maior a resolução espacial, maior o número de coeficientes harmônicos esféricos (SH) (N+1)A2, maior a largura de banda exigida para transmitir e armazenar os dados. Devido ao fato de que as exigências de largura de banda de HO A são um tanto altas, para muitas aplicações, uma redução de largura de banda é desejada.
[1301] Descrições anteriores descreveram como a SVD (decomposição de valor único) ou processos relacionados podem ser usados para compressão de áudio espacial. As técnicas descritas no presente documento apresentam um algoritmo aprimorado para selecionar os elementos salientes também conhecidos como os elementos de primeiro plano. Após uma decomposição com base em SVD de um quadro de áudio de HOA em suas matrizes U, S, V, as técnicas baseiam a seleção dos elementos salientes K exclusivamente nos primeiros K canais da matriz U [ U(:,1:K)*S(1:K,1:K) ]. Isso resulta na seleção dos elementos de áudio com energia mais alta. No entanto, não é garantido que esses elementos também sejam direcionais. Portanto, as técnicas são direcionadas à constatação dos elementos sonoros que têm alta energia e também são direcionais. Isso é alcançado, potencialmente, mediante a ponderação da matriz V com a matriz S. Em seguida, para cada fileira dessa matriz resultante, os elementos indexados mais altos (que são associados aos coeficientes de ordem superior HOA) são elevados ao quadrado e somados, o que resulta em um valor por fileira [sumVS no pseudocódigo descrito em relação à Figura 40H]. Em conformidade com o fluxo de trabalho representado no pseudocódigo, os coeficientes Ambissônicos de ordem superior que começam no 5o índice são considerados. Esses valores são classificados de acordo com o tamanho dos mesmos e o índice de sortimento é usado para dispor novamente as matrizes originais U, S e V em conformidade. O algoritmo de compressão com base em SVD, descrito anteriormente na presente revelação, pode ser aplicado então sem mais modificações.
[1302] As Figuras 49E(i) e 49E(ii) são diagramas de blocos que ilustram um dispositivo de codificação de áudio 571E e um dispositivo de decodificação de áudio 573E respectivamente. O dispositivo de codificação de áudio 571E e o dispositivo de decodificação de áudio 573E pode realizar vários aspectos das técnicas descritos acima em relação aos exemplos das Figuras 49 a 49D(ii), com exceção de que o dispositivo de codificação de áudio 57 IE pode realizar a decomposição de valor único em relação a uma matriz de densidade espectral de potência (PDS) dos coeficientes de HOA para gerar uma matriz S2 e uma matriz V. A matriz S2 pode denotar uma matriz ao quadrado S, em como consequência, a matriz S2 pode se submeter a uma operação de raiz quadrada para obter a matriz S. O dispositivo de codificação de áudio 57 IE pode realizar, em alguns exemplos, a quantização em relação à matriz V para obter uma matriz V quantizada (que pode ser denotada como matriz V).
[1303] O dispositivo de codificação de áudio 571E pode obter a matriz U, primeiramente, multiplicando-se a matriz S pela matriz V quantizada para gerar uma matriz SV. O dispositivo de codificação de áudio 57 IE pode obter, em seguida, o pseudoinverso da matriz SV e, em seguida, multiplicar os coeficientes de HOA pelo pseudoinverso da matriz SV para obter a matriz U. Realizando-se a SVD em relação à densidade espectral de potência dos coeficientes de HOA em vez dos próprios coeficientes, o dispositivo de codificação de áudio 57 IE pode reduzir potencialmente a complexidade computacional da realização da SVD em termos de um ou mais dentre ciclos de processador e espaço de armazenamento, ao mesmo tempo em que realiza a mesma eficiência de codificação de áudio de fonte como se a SVD fosse aplicada diretamente aos coeficientes de HOA.
[1304] O dispositivo de decodificação de áudio 573E pode ser semelhante àqueles dispositivos de decodificação de áudio descritos acima, com exceção de que o dispositivo de decodificação de áudio 573 pode reconstruir os coeficientes de HOA das decomposições dos coeficientes de HOA alcançados através da aplicação do SVD e em relação à densidade espectral de potência dos coeficientes de HOA em vez dos coeficientes de HOA diretamente.
[1305] As Figuras 50A e 50B são diagramas de bloco que ilustram, cada um, uma dentre duas abordagens diferentes para reduzir potencialmente a ordem de conteúdo de segundo plano em conformidade com as técnicas descritas na presente revelação. Conforme mostrado no exemplo da Figura 50, a primeira abordagem pode empregar a redução de ordem em relação aos vetores UBG * SBG * VT para reduzir a ordem de N a fj, e que f| é menor do que (<) N. Ou seja, a unidade de redução de ordem 528A mostrada nos exemplos da Figura 40B a 40J podem realizar a redução de ordem para truncar ou, de outro modo, reduzir a ordem N dos vetores UBG * SBG * VT a fj, em que r| é menor do que (<) N.
[1306] Como uma abordagem alternativa, a unidade de redução de ordem 528A pode, conforme mostrado no exemplo da Figura 50B, realizar esse truncamento em relação ao VT que elimina as fileiras de modo a serem ( (rj +1)2, o que não é ilustrado no exemplo da Figura 40B para facilitar a ilustração. Em outras palavras, a unidade de redução de ordem 528A pode remover uma ou mais ordens da matriz VT para gerar de maneira eficaz uma matriz de VBG. O tamanho dessa matriz VBG é ((f| +1)2 x (N+1)2 - D, em que essa matriz VBG é, então, usada no lugar da matriz VT durante a geração dos vetores UBG * SBG * VT, que realizam de maneira eficaz o truncamento a fim de gerar os vetores UBG * SBG * VT de tamanho M x (fj + l)2.
[1307] A Figura 51 é um diagrama de blocos que ilustra exemplos de um caminho de compressão de componente distinto de um dispositivo de codificação de áudio 700A que pode implantar vários aspectos das técnicas descritas na presente revelação para comprimir os coeficientes harmônicos esféricos 701. No exemplo da Figura 51, o caminho de compressão de componente distinto pode se referir a um caminho de processamento do dispositivo de codificação de áudio 700A que comprime os componentes distintos do campo sonoro representados pelo SHC 701. Outro caminho, que pode ser denominado de caminho de compressão de componente de segundo plano, pode representar um caminho de processamento do dispositivo de codificação de áudio 700A que comprime os componentes de segundo plano do SHC 701.
[1308] Embora não seja mostrado para propósitos de facilitar a ilustração, o caminho de compressão de segundo plano pode operar em relação ao SHC 701 diretamente em vez das decomposições do SHC 701. Isso é semelhante ao que foi descrito acima em relação às Figuras 49 a 49C, com exceção de que em vez de recompor os componentes de segundo plano a partir das matrizes UBG, SBG e VBG e, em seguida, realizar parte da codificação pseudoacústica (por exemplo, com o uso de um codificador de AAC) desses componentes de segundo plano recompostos, o caminho de processamento de componente de segundo plano pode operar em relação ao SHC 701 diretamente (conforme descrito acima em relação ao dispositivo de codificação de áudio 20 mostrado no exemplo da Figura 4), comprimindo esses componentes de segundo plano com o uso do codificador piscoacústico. Através da realização da codificação pseudoacústica em relação ao SHC 701 diretamente, as descontinuidades podem ser reduzidas ao mesmo tempo em que também reduzem a complexidade de computação (em termos de operações exigidas para comprimir os componentes de segundo plano) em comparação à realização da codificação pseudoacústica em relação aos componentes de segundo plano recompostos. Embora indicado em termos de distinto e segundo plano, o termo "proeminente” pode ser usado no lugar de "distinto” e o termo "ambiente” pode ser usado no lugar de "segundo plano” na presente revelação.
[1309] De qualquer modo, os coeficientes harmônicos esféricos 701 (“SHC 701”) podem compreender uma matriz de coeficientes que têm um tamanho de M x (N+1)2 em que M denota o número de amostras (e, em alguns exemplos, é 1024) em um quadro de áudio e N denota a ordem mais superior da função de base à qual os coeficientes correspondem. Conforme verificado acima, N é definido comumente como quatro (4) para um total de 1024X25 coeficientes. Cada um dentre os SHC 701 correspondente a uma ordem particular, a combinação de subordem pode ser denominada como canal. Por exemplo, todos os M coeficientes de amostra correspondentes a uma primeira ordem, a uma função de base de subordem zero podem representar um canal, ao passo que os coeficientes correspondentes à ordem zero, função de base de subordem zero podem representar outro canal, etc. Os SHC 701 também podem ser denominados na presente revelação como conteúdo de ambisonics de ordem superior (HO A) 701 ou como um sinal de SH 701.
[1310] Conforme mostrado no exemplo da Figura 51, o dispositivo de codificação de áudio 700A inclui uma unidade de análise 702, uma unidade de síntese com base em vetor 704, uma unidade de redução de vetor 706, uma unidade de codificação pseudoacústica 708, uma unidade de redução de coeficiente 710 e uma unidade de compressão 712 (“unidade de compr. 712”). A unidade de análise 702 pode representar uma unidade configurada para realizar uma análise em relação aos SHC 701 de modo a identificar componentes distintos do campo sonoro (D) 703 e um número total de componentes de segundo plano (BGTOT) 705. Em comparação aos dispositivos de codificação de áudio descritos acima, o dispositivo de codificação de áudio 700A não realizar essa determinação em relação às decomposições dos SHC 701, porém diretamente em relação ao SHC 701.
[1311] A unidade de síntese com base em vetor 704 representa uma unidade configurada para realizar alguma forma de síntese com base em vetor em relação aos SHC 701, por exemplo, SVD, KLT, PCA ou qualquer outra síntese com base em vetor, para gerar, nos exemplos de SVD, uma matriz [U.S.] 707 que tem um tamanho de M x (N+1)2 e uma matriz [V] 709 que tem um tamanho de (N+1)2 x (N+1)2. A matriz [U.S.] 707 pode representar uma matriz que resulta de uma multiplicação de matriz da matriz [U] e da matriz [S] gerada através de uma aplicação de SVD aos SHC 701.
[1312] A unidade de redução de vetor 706 pode representar uma unidade configurada para reduzir o número de vetores da matriz [U.S.] 707 e da matriz [V] 709 de modo que cada um dos vetores restantes da matriz [U.S.] 707 e da matriz [V] 709 identifique um componente distinto ou proeminente do campo sonoro. A unidade de redução de vetor 706 pode realizar essa com base no número de componentes distintos D 703. O número de componentes distintos D 703 pode, em vigor, representar uma matriz de números, em que cada número identificar diferentes vetores distintos das matrizes 707 e 709. A unidade de redução de vetor 706 pode emitir uma matriz [U.S.] reduzida 711 do tamanho M x D e uma matriz [V] reduzida 713 do tamanho (N+1)2 x D. Embora não mostrada para propósitos de facilitar ilustração, a interpolação da matriz [V] 709 pode ocorrer antes da redução da matriz [V] 709 de maneira semelhante àquela descrita mais detalhadamente acima. Ademais, embora não mostrado para propósitos de facilitar ilustração, reordenação da matriz [U.S.] reduzida 711 e/ou da matriz [V] reduzida 712 da maneira descrita mais detalhadamente acima. Consequentemente, as técnicas não devem ser limitadas a esses aspectos (tais como, projeção de erro ou qualquer outro aspecto das técnicas supracitadas descritas acima, porém não mostrados no exemplo da Figura 51). A unidade de codificação psicoacústica 708 representa uma unidade configurada para realizar codificação pseudoacústica em relação à matriz [U.S.] 711 para gerar um fluxo de bits 715. A unidade de redução de coeficiente 710 pode representar uma unidade configurada para reduzir o número de canais da matriz [V] reduzida 713. Em outras palavras, a unidade de redução de coeficiente 710 pode representar uma unidade configurada para eliminar aqueles coeficientes dos vetores V distintos (que formam a matriz [V] reduzida 713) que têm poucas informações direcionais ou não têm informações direcionais. Conforme descrito acima, em alguns exemplos, aqueles coeficientes dos vetores V distintos correspondentes a uma primeira função e a uma função de base de ordem zero (denotada como NBG acima) fornecem poucas informações direcionais, portanto, podem ser removidos dos vetores V distintos (através do quê é denominado de "redução de ordem” acima). Nesse exemplo, uma melhor flexibilidade pode ser fornecida não apenas para identificar esses coeficientes que correspondem a NBG, porém para identificar canais de HOA adicionais (que podem ser denotados pelo TotalOfAddAmbHOAChan variável) a partir de conjunto de [(NBG +1)2+1, (N+1)2]. A unidade de análise 702 pode analisar os SHC 701 para determinar BGTOT, o que pode identificar não apenas (NBG+1)2, porém o TotalOfAddAmbHOAChan. A unidade de redução de coeficiente 710 pode, então, remover esses coeficientes correspondentes ao (NBG+1)2 e ao TotalOfAddAmbHOAChan a partir da matriz [V] reduzida 713 para gerar uma matriz [V] pequena 717 do tamanho ((N+1)2 - (BGTOT) X D.
[1313] A unidade de compressão 712 pode realizar, em seguida, a quantização escalar verificar acima e/ou codificação de Huffman para comprimir a matriz [V] pequena 717, emitir a matriz [V] pequena comprimida 717 como informações de canal auxiliar 719 (“info de canal auxiliar 719”). A unidade de compressão 712 pode emitir as informações de canal auxiliar 719 de maneira semelhante àquela mostrada no exemplo das Figuras 10 a 100(ii). Em alguns exemplos, uma unidade de geração de fluxo de bits semelhante àquela descrita acima pode incorporar as informações de canal auxiliar 719 no fluxo de bits 715. Ademais, embora denominado como de fluxo de bits 715, o dispositivo de codificação de áudio 700 A pode incluir, conforme verificado acima, um caminho de processamento de componente de segundo plano que resulta em outro fluxo de bits, em que uma unidade de geração de fluxo de bits semelhante àquelas descritas acima pode gerar um fluxo de bits similar ao fluxo de bits 17 descrita acima que inclui o fluxo de bits 715 e a emissão de fluxo de bits através do caminho de processamento de componente de segundo plano.
[1314] Em conformidade com as técnicas descritas na presente revelação, a unidade de análise 702 pode ser configurada para determinar um primeiro conjunto diferente de zero de coeficientes de um vetor, isto é, os vetores da matriz [V] reduzida 713 nesse exemplo, a ser usado para representar o componente distinto do campo sonoro. Em alguns exemplos, a unidade de análise 702 pode determinar que todos os coeficientes de cada vetor que forma a matriz [V] reduzida 713 devem ser incluídos nas informações de canal auxiliar 719. Portanto, a unidade de análise 702 pode definir o BGTOT igual a zero.
[1315] Então, o dispositivo de codificação de áudio 700A pode atuar de maneira eficaz de maneira recíproca àquela descrita em relação à tabela denotada como "vetores decodificados”. Além disso, o dispositivo de codificação de áudio 700A pode especificar um elemento de sintaxe em um cabeçalho de uma unidade de acesso (que pode incluir um ou mais quadros dentre pluralidade quadros) qual dentre a pluralidade de modos de configuração foi selecionado. Embora descrito como sendo especificado em uma base por unidade de acesso, a unidade de análise 702 pode especificar esse elemento de sintaxe em uma base por quadro em qualquer outra base periódica ou base não periódica (tal como, uma vez para todo o fluxo de bits). De qualquer modo, esse elemento de sintaxe pode compreender dois bits que indica quais dentre os quatro modos de configuração foram selecionados para especificar o conjunto diferente de zero de coeficientes da matriz [V] reduzida 713 para representar os aspectos direcionais desse componente distinto. O elemento de sintaxe pode ser denotado como "codedVVecLength”. Dessa maneira, o dispositivo de codificação de áudio 700A pode sinalizar ou, de outro modo, especificar no fluxo de bits quais dentre os quatro modos de configuração foram usados para especificar a pequena matriz [V] 717 no fluxo de bits. Embora descrito em relação a quatro modos de configuração, as técnicas não devem ser limitadas a quatro modos de configuração, porém a qualquer número de modos de configuração, incluindo um único modo de configuração ou uma pluralidade de modos de configuração.
[1316] Portanto, vários aspectos das técnicas podem possibilitar que o dispositivo de codificação de áudio 700A seja configurado para operar em conformidade com as cláusulas a seguir.
[1317] Cláusula 133149-1F. Um dispositivo que compreende: um ou mais processadores configurados para selecionar um ou mais dentre uma pluralidade de modos de configuração através do qual deve ser especificado um conjunto diferente de zero de coeficientes de um vetor, sendo que o vetor foi decomposto a partir de pluralidade de coeficientes harmônicos esféricos que descrevem um campo sonoro e representam um componente distinto do campo sonoro, e especificado o conjunto diferente de zero dos coeficientes do vetor com base no modo selecionado dentre a pluralidade de modos de configuração.
[1318] Cláusula 133149-2F. O dispositivo da cláusula 133149-1F, em que o modo dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui todos os coeficientes.
[1319] Cláusula 133149-3F. O dispositivo da cláusula 133149-1F, em que o modo dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero de coeficientes inclui aqueles dentre os coeficientes correspondentes a uma ordem maior do que uma ordem de uma função de base à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos correspondem.
[1320] Cláusula 133149-4F. O dispositivo da cláusula 133149-1F, em que o modo dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui aqueles dentre os coeficientes correspondentes a uma ordem maior do que uma ordem de uma função de base à qual um dentre a pluralidade de coeficientes harmônicos esféricos corresponde e exclui pelo menos um dentre os coeficientes correspondentes a uma ordem maior do que a ordem da função de base à qual os um ou mais dentre a pluralidade de coeficientes harmônicos esféricos correspondem.
[1321] Cláusula 133149-5F. O dispositivo da cláusula 133149-1F, em que o modo dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero de coeficientes include todos os coeficientes, com exceção de pelo menos um dentre os coeficientes.
[1322] Cláusula 133149-6F. O dispositivo da cláusula 133149-1F, em que os um ou mais processadores são configurados adicionalmente para especificar o modo selecionado dentre a pluralidade de modos de configuração em um fluxo de bits.
[1323] Cláusula 133149-1G. Um dispositivo que compreende: um ou mais processadores configurados para determinar um dentre uma pluralidade de modos de configuração através do qual deve ser extraído um conjunto diferente de zero de coeficientes de um vetor em conformidade com um dentre uma pluralidade de modos de configuração, sendo que o vetor foi decomposto a partir de pluralidade de coeficientes harmônicos esféricos que descrevem um campo sonoro e que representam um componente distinto do campo sonoro, e extraído o conjunto diferente de zero dos coeficientes do vetor com base no modo obtido dentre a pluralidade de modos de configuração.
[1324] Cláusula 133149-2G. O dispositivo da cláusula 133149-1G, em que o modo dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui todos os coeficientes.
[1325] Cláusula 133149-3G. O dispositivo da cláusula 133149-1G, em que o modo dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero de coeficientes inclui aqueles dentre os coeficientes correspondentes a uma ordem maior do que uma ordem de uma função de base à qual um ou mais dentre a pluralidade de coeficientes harmônicos esféricos correspondem.
[1326] Cláusula 133149-4G. O dispositivo da cláusula 133149-1F, em que o modo dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui aqueles dentre os coeficientes correspondentes a uma ordem maior do que uma ordem de uma função de base à qual um dentre a pluralidade de coeficientes harmônicos esféricos corresponde e exclui pelo menos um dentre os coeficientes correspondentes a uma ordem maior do que a ordem da função de base à qual os um ou mais dentre a pluralidade de coeficientes harmônicos esféricos correspondem.
[1327] Cláusula 133149-5G. O dispositivo da cláusula 133149-1G, em que o modo dentre a pluralidade de modos de configuração indica que o conjunto diferente de zero de coeficientes include todos os coeficientes, com exceção de pelo menos um dentre os coeficientes.
[1328] Cláusula 133149-6G. O dispositivo da cláusula 133149-1G, em que os um ou mais processadores são configurados adicionalmente para determinar, durante a determinação do modo dentre a pluralidade de modos de configuração, o modo dentre a pluralidade de modos de configuração com base em um valor sinalizado em um fluxo de bits.
[1329] A Figura 52 é um diagrama de blocos que ilustra outro exemplo de um dispositivo de decodificação de áudio 750A que pode implantar vários aspectos das técnicas descritas na presente revelação a fim de reconstruir, ou quase reconstruir, os SHC 701. No exemplo da Figura 52, o dispositivo de decodificação de áudio 750A é semelhante ao dispositivo de decodificação de áudio 540D mostrado no exemplo da Figura 4 ID, com exceção de que a unidade de extração 542 recebe fluxo de bits 715’ (que é semelhante ao fluxo de bits 715 descrito acima em relação ao exemplo da Figura 51, com exceção de que o fluxo de bits 715’ também inclui versão codificada em áudio de SHCBG 752) e as informações de canal auxiliar 719. Por essa razão, a unidade de extração é denotada como "unidade de extração 542’”.
[1330] Ademais, a unidade de extração 542’ difere da unidade de extração 542 pelo fato de que a unidade de extração 542’ inclui uma forma modificada da unidade de descompressão V 555 (que é mostrada como "unidade de descompressão V 555”‘ no exemplo da Figura 52). A unidade de descompressão V 555’ recebe as informações de canal auxiliar 719 e o elemento de sintaxe denotado codedVVecLength 754. A unidade de extração 542’ analisa o codedVVecLength 754 a partir do fluxo de bits 715’ (e, em um exemplo, a partir da unidade de acesso cabeçalho incluída no fluxo de bits 715’). A unidade de descompressão V 555’ inclui uma unidade de configuração de modo 756 (“unidade de config. de modo 756”) e uma unidade de análise 758 configurável para operar em conformidade com qualquer um dentre os modos de configuração descritos acima 760.
[1331] A unidade de configuração de modo 756 recebe o elemento de sintaxe 754 e seleciona um dentre os modos de configuração 760. A unidade de configuração de modo 756 configura, em seguida, a unidade de análise 758 com o modo selecionado dentre os modos de configuração 760. A unidade de análise 758 representa uma unidade configurada para operar em conformidade com qualquer um dentre os modos de configuração 760 para analisar uma forma comprimida de vetores pequenos [V] 717 das informações de canal auxiliar 719. A unidade de análise 758 pode operar em conformidade com o comando de comutação apresentado na tabela a seguir. TABELA— VETORES DECODIFICADOS
Figure img0076
Figure img0077
Figure img0078
[1332] Nesse aspecto, o dispositivo de decodificação de áudio 750A pode operar em conformidade com as técnicas descritas na presente revelação para determinar um primeiro conjunto diferente de zero de coeficientes de um vetor que representa um componente distinto do campo sonoro, sendo que o vetor foi decomposto a partir de pluralidade de coeficientes harmônicos esféricos que descreve um campo sonoro.
[1333] Ademais, o dispositivo de decodificação de áudio 750A pode ser configurado para operar em conformidade com as técnicas descritas na presente revelação para determinar um dentre uma pluralidade de modos de configuração através do qual deve ser extraído um conjunto diferente de zero de coeficientes de um vetor em conformidade com uma pluralidade de modos de configuração, sendo que o vetor foi decomposto a partir de pluralidade de coeficientes harmônicos esféricos que descrevem um campo sonoro e representam um componente distinto do campo sonoro, e extraído o conjunto diferente de zero dos coeficientes do vetor com base no modo obtido dentre a pluralidade de modos de configuração.
[1334] A Figura 53 é um diagrama de blocos que ilustra outro exemplo de um dispositivo de codificação de áudio 570 que pode realizar vários aspectos das técnicas descritas na presente revelação. No exemplo da Figura 53, o dispositivo de codificação de áudio 570 pode ser semelhante a um ou mais dentre os dispositivos de codificação de áudio 510A a 510J (em que pressupõe-se que a unidade de redução de ordem 528A deve estar incluída na unidade de extração de componente de campo sonoro 20, porém não é mostrada para propósito de facilitar a ilustração). No entanto, o dispositivo de codificação de áudio 570 pode incluir uma unidade de transformação mais geral 572 que pode compreender a unidade de decomposição 518 em alguns exemplos.
[1335] A Figura 54 é um diagrama de blocos que ilustra, mais detalhadamente, uma implantação exemplificativa do dispositivo de codificação de áudio 570 mostrado no exemplo da Figura 53. Conforme ilustrado no exemplo da Figura 54, a unidade de transformada 572 do dispositivo de codificação de áudio 570 inclui uma unidade de rotação 654. A unidade de extração de componente de campo sonoro 520 do dispositivo de codificação de áudio 570 inclui uma unidade de análise espacial 650, uma unidade de análise de característica de conteúdo 652, uma unidade de extração de componente coerente 656, e uma unidade de extração de componentes difusos 658. A unidade de codificação de áudio 514 do dispositivo de codificação de áudio 570 inclui um mecanismo de codificação por AAC 660 e um mecanismo de codificação por AAC 162. A unidade de geração de fluxo de bits 516 do dispositivo de codificação de áudio 570 inclui um multiplexador (MUX) 164.
[1336] A largura de banda - em termos de bits/segundo - exigida para representar dados de áudio 3D na forma de SHC pode tornar os mesos proibitivos em termos de uso pelo consumidor. Por exemplo, durante o uso de uma taxa de amostragem de 48 kHz, e com uma mesma resolução de 32 bits - uma quarta representação de SHC de ordem representa uma largura de banda de 36 Mbits/segundo (25x48000x32 bps). Quando comparado à codificação de áudio do estado da técnica para sinais estéreos, que é tipicamente cerca de 100 kbits/segundo, isso é uma grande figura. As técnicas implantadas no exemplo da Figura 54 pode reduzir a largura de banda de representações de áudio 3D.
[1337] A unidade de análise espacial 650, a unidade de análise de característica de conteúdo 652 e a unidade de rotação 654 podem receber os SHC 511. Conforme descrito em outro parágrafo na presente revelação, os SHC 511 podem ser representativos de um campo sonoro. No exemplo da Figura 54, a unidade de análise espacial 650, a unidade de análise de característica de conteúdo 652 e a unidade de rotação 654 podem receber vinte e cinco SHC para uma quarta representação de quarta ordem (n=4) do campo sonoro.
[1338] A unidade de análise espacial 650 pode analisar o campo sonoro representado pelos SHC 511 para identificar componentes distintos do campo sonoro e componentes difusos do campo sonoro. Os componentes distintos do campo sonoro são sons que são percebidos como originados de uma direção identificável ou que são, de outro modo, distintos do de componentes de segundo plano ou difusos do campo sonoro. Por exemplo, o som gerado por um instrumento musical individual pode ser percebido como originado de uma direção identificável. Em contrapartida, componentes difusos de segundo plano do campo sonoro são percebidos como originados de uma direção identificável. Por exemplo, o som do vento a através de uma floresta pode ser um componente difuso de um campo sonoro.
[1339] A unidade de análise espacial 650 pode identificar um ou mais componentes distintos que tentam identificar um ângulo ideal através do qual deve ser girado o campo sonoro de modo a alinhar aqueles componentes distintos que têm mais energia com os eixos geométricos verticais e/ou horizontais (em relação a um microfone presumido que gravou esse campo sonoro). A unidade de análise espacial 650 pode identificar esse ângulo ideal de modo que o campo sonoro possa ser girado de modo que esses componentes distintos se alinhem melhor às funções de base esférica subjacentes mostradas nos exemplos das Figuras 1 e 2.
[1340] Em alguns exemplos, a unidade de análise espacial 650 pode representar uma unidade configurada para realizar uma forma de análise de difusão para identificar uma porcentagem do campo sonoro representado pelos SHC 511 que inclui sons difusos (o que pode se referir a sons que têm baixos níveis de direção ou SHC de ordem inferior, o que significa que aqueles SHC 511 que têm uma ordem menor ou igual a um). Como um exemplo, uma unidade de análise espacial 650 pode realizar análise de difusão de maneira semelhante àquela descrita em uma dissertação por Ville Pulkki, intitulada "Spatial Sound Reproduction with Directional Audio Coding”, publicada em J. Audio Eng. Soc, Volume 55, no 6, datada de junho de 2007. Em alguns exemplos, a unidade de análise espacial 650 pode analisar apenas um subconjunto diferente de zero dos coeficientes de HO A, por exemplo, os coeficientes zero e de primeira ordem dentre os SHC 511, durante a realização da análise de difusão para determinar a porcentagem de difusão.
[1341] A unidade de análise de característica de conteúdo 652 pode determinar, com base pelo menos parcialmente nos SHC 511, se os SHC 511 foram gerados por meio de uma gravação natural de um campo sonoro ou produzido artificialmente (isto é, sinteticamente), por exemplo, a partir de um objeto de áudio, por exemplo, um objeto de PCM. Adicionalmente, a unidade de análise de característica de conteúdo 652 pode, em seguida, determinar, com base pelo menos parcialmente em se os dos SHC 511 foram gerados por meio de uma real gravação de um campo sonoro ou a partir de um objeto de áudio artificial, o número total de canais a ser incluído no fluxo de bits 517. Por exemplo, a unidade de análise de característica de conteúdo 652 pode determinar, com base pelo menos parcialmente em se os SHC 511 foram gerados a partir de gravação de um real campo sonoro ou a partir de um objeto de áudio artificial, de que o fluxo de bits 517 deve ser incluído em dezesseis canais. Cada um dentre os canais pode ser um canal mono. A unidade de análise de característica de conteúdo 652 pode realizar adicionalmente a determinação do número total de canais a serem incluídos no fluxo de bits 517 com base em uma taxa de bits de saída do fluxo de bits 517, por exemplo, 1,2 Mbps.
[1342] Além disso, a unidade de análise de característica de conteúdo 652 pode determinar, com base pelo menos parcialmente em se os SHC 511 foram gerados a partir de uma gravação de um real campo sonoro ou a partir de um objeto de áudio artificial, quantos dentre os canais devem ser alocados a componentes coerentes ou, em outras palavras, a componentes distintos do campo sonoro e quantos dentre os canais devem, ser alocados a componentes difusos ou, em outras palavras, componentes de segundo plano do campo sonoro. Por exemplo, quando os SHC 511 foram gerados a partir de gravação de um real campo sonoro com o uso de, por exemplo, um Eigenmic, a unidade de análise de característica de conteúdo 652 pode alocar três dentre os canais a componentes coerentes do campo sonoro e pode alocar os canais restantes a componentes difusos do campo sonoro. Nesse exemplo, quando os SHC 511 foram gerados a partir de um objeto de áudio artificial, a unidade de análise de característica de conteúdo 652 pode alocar cinco dentre os canais aos componentes coerentes do campo sonoro e podem alocar os canais restantes aos componentes difusos do campo sonoro. Dessa maneira, o bloco de análise de conteúdo (isto é, unidade de análise de característica de conteúdo 652) pode determinar o tipo de campo sonoro (por exemplo, difuso/direcional, etc.) e, por sua vez, determinar o número de difusos coerentes/difusos a serem extraídos.
[1343] A taxa-alvo de bits pode influenciar o número de componentes e a taxa de bits dos mecanismos de codificação por AAC individuais (por exemplo, AAC mecanismos de codificação 660, 662). Em outras palavras, a unidade de análise de característica de conteúdo 652 pode realizar adicionalmente a determinação de quantos canais devem ser alocados aos componentes coerentes e quantos devem ser alocados a componentes difusos com base em uma taxa de bits de saída do fluxo de bits 517, por exemplo, 1,2 Mbps.
[1344] Em alguns exemplos, os canais alocados aos componentes coerentes do campo sonoro podem ter taxas de bits maiores que os canais alocados aos componentes difusos do campo sonoro. Por exemplo, uma taxa de bits máxima do fluxo de bits 517 pode ser 1,2 Mb/segundo. Nesse exemplo, pode haver quatro canais alocados aos componentes coerentes e 16 canais alocados aos componentes difusos. Adicionalmente, nesse exemplo, cada um dentre os canais alocados aos componentes coerentes pode ter uma taxa de bits máxima de 64 kb/segundo. Nesse exemplo, cada um dentre os canais alocados aos componentes difusos pode ter uma taxa de bits máxima de 48 kb/segundo.
[1345] Conforme indicado acima, a unidade de análise de característica de conteúdo 652 pode determinar se os SHC 511 foram gerados a partir de uma gravação de um real campo sonoro ou a partir de um objeto de áudio artificial. A unidade de análise de característica de conteúdo 652 pode fazer essa determinação de várias maneiras. Por exemplo, o dispositivo de codificação de áudio 570 pode usar os SHC de 4a ordem. Nesse exemplo, a unidade de análise de característica de conteúdo 652 pode codificar 24 canais e prever um 25o canal (que pode ser representado como um vetor). A unidade de análise de característica de conteúdo 652 pode aplicar escalares a pelo menos alguns dentre os 24 canais e somar os valores resultantes para determinar o 25o vetor. Adicionalmente, nesse exemplo, a unidade de análise de característica de conteúdo 652 pode determinar uma precisão do 25o canal predito. Nesse exemplo, caso a precisão do 25o canal seja relativamente alta (por exemplo, a precisão excede um limiar particular), os SHC 511 são propensos a serem gerados a partir de um objeto de áudio sintético. Em contrapartida, caso a precisão do 25o canal predito seja relativamente baixa (por exemplo, a precisão está abaixo do limiar particular), os SHC 511 estão mais propensos a representar um campo sonoro gravado. Nesse exemplo, caso uma relação sinal-ruído (SNR) do 25o canal seja maior do que 100 decibéis (dbs), os SHC 511 estão mais propensos a representarem um campo sonoro gerado a partir de um objeto de áudio sintético. Em contrapartida, a SNR de um campo sonoro gravado com o uso de um microfone eigen pode ser 5 a 20 dbs. Desse modo, pode haver uma demarcação aparente em relações SNR entre o campo sonoro representado pelos SHC 511 gerados a partir de uma gravação direta real e a partir de um objeto de áudio sintético.
[1346] Adicionalmente, a unidade de análise de característica de conteúdo 652 pode selecionar, com base pelo menos parcialmente em se os SHC 511 foram gerados a partir de uma gravação de um real campo sonoro ou a partir de um objeto de áudio artificial, livros de códigos para quantizar o vetor V. Em outras palavras, a unidade de análise de característica de conteúdo 652 pode selecionar diferentes livros de códigos para uso na quantização do vetor V, dependendo de se o campo sonoro representado pelos coeficientes de HO A é gravado ou sintético.
[1347] Em alguns exemplos, a unidade de análise de característica de conteúdo 652 pode determinar, em uma base recorrente, se os SHC 511 foram gerados a partir de uma gravação de um real campo sonoro ou a partir de um objeto de áudio artificial. Em alguns desses exemplos, a base recorrente pode ser a cada quadro. Em outros exemplos, a unidade de análise de característica de conteúdo 652 pode realizar essa determinar uma vez. Adicionalmente, a unidade de análise de característica de conteúdo 652 pode determinar, em uma base recorrente, o número total de canais e a alocação de canais de componente coerentes e canais de componente difuso. Em alguns desses exemplos, a base recorrente pode ser a cada quadro. Em outros exemplos, a unidade de análise de característica de conteúdo 652 pode realizar essa determinar uma vez. Em alguns exemplos, a unidade de análise de característica de conteúdo 652 pode selecionar, em uma base recorrente, livros de códigos para uso na quantização do vetor V. Em alguns desses exemplos, a base recorrente pode ser a cada quadro. Em outros exemplos, a unidade de análise de característica de conteúdo 652 pode realizar essa determinar uma vez.
[1348] A unidade de rotação 654 pode realizar uma operação de rotação dos coeficientes de HOA. Conforme discutido em outro parágrafo na presente revelação (por exemplo, em relação à Figura 55 e 55B), a realização da operação de rotação pode reduzir o número de bits exigidos para representar os SHC 511. Em alguns exemplos, a análise de rotação realizada pela unidade de rotação 652 é um exemplo de uma análise de decomposição de valor único (“SVD”). A análise de componente principal (“PCA”), análise de componente independente (“ICA”), e a Transformada de Karhunen-Loeve (“KLT”) são técnicas relacionadas que podem ser aplicáveis.
[1349] No exemplo da Figura 54, a unidade de extração de componente coerente 656 recebe SHC girados 511 da unidade de rotação 654. Adicionalmente, a unidade de extração de componente coerente 656 extrai, a partir dos SHC girados 511, os SHC girados 511 associados aos componentes coerentes do campo sonoro.
[1350] Além disso, a unidade de extração de componente coerente 656 gera um ou mais canais de componente coerentes. Cada um dentre os canais de componente coerentes pode incluir um subconjunto diferente dos SHC girados 511 associados aos coeficientes coerentes do campo sonoro. No exemplo da Figura 54, a unidade de extração de componente coerente 656 pode gerar a partir de um a 16 canais de componente coerentes. O número de canais de componente coerentes gerados pela unidade de extração de componente coerente 656 podem ser determinados pelo número de canais alocados pela unidade de análise de característica de conteúdo 652 aos componentes coerentes do campo sonoro. As taxas de bits dos canais de componente coerentes gerados pela unidade de extração de componente coerente 656 podem ser determinadas pela unidade de análise de característica de conteúdo 652.
[1351] De modo semelhante, no exemplo da Figura 54, unidade de extração de componentes difusos 658 recebe SHC girados 511 da unidade de rotação 654. Adicionalmente, a unidade de extração de componentes difusos 658 extrai, a partir dos SHC girados 511, os SHC girados 511 associados aos componentes difusos do campo sonoro.
[1352] Além disso, a unidade de extração de componentes difusos 658 gera um ou mais canais de componente difuso. Cada um dos canais de componente difuso pode incluir um subconjunto diferente dos SHC girados 511 associados aos coeficientes do campo sonoro difusos. No exemplo da Figura 54, a unidade de extração de componentes difusos 658 pode gerar a partir de um a 9 canais de componente difuso. O número de canais de componente difusos gerados pela unidade de extração de componentes difusos 658 pode ser determinado pelo número de canais alocados pela unidade de análise de característica de conteúdo 652 aos componentes coerentes do campo sonoro. As taxas de bits dos canais de componente difusos gerados pela unidade de extração de componentes difusos 658 pode ser determinada pela unidade de análise de característica de conteúdo 652.
[1353] No exemplo da Figura 54, a unidade de codificação por ACC 660 pode usar um codec de AAC para codificar os canais de componente coerentes gerados pela unidade de extração de componente coerente 656. De modo semelhante, a unidade de codificação por ACC 662 pode usar um codec de AAC para codificar os canais de componente difuso gerados pela unidade de extração de componentes difusos 658. O multiplexador 664 (“MUX 664”) pode multiplexar os canais de componente coerentes codificados e os canais de componente difuso codificados, junto de dados auxiliares (por exemplo, um ângulo ideal determinado pela unidade de análise espacial 650), para gerar o fluxo de bits 517.
[1354] Dessa maneira, as técnicas podem possibilitar que o dispositivo de codificação de áudio 570 determine se os coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético.
[1355] Em alguns exemplos, o dispositivo de codificação de áudio 570 pode determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, de um subconjunto dos coeficientes harmônicos esféricos representativos de componentes distintos do campo sonoro. Nesse e em outros exemplos, o dispositivo de codificação de áudio 570 pode gerar um fluxo de bits de modo a incluir a o subconjunto dos coeficientes harmônicos esféricos. O dispositivo de codificação de áudio 570 pode, em alguns exemplos, codificar por áudio o subconjunto dos coeficientes harmônicos esféricos e gerar um fluxo de bits de modo a incluir o subconjunto codificado em áudio dos coeficientes harmônicos esféricos.
[1356] Em alguns exemplos, o dispositivo de codificação de áudio 570 pode determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, de um subconjunto dos coeficientes harmônicos esféricos representativos de componentes de segundo plano do campo sonoro. Nesse e em outros exemplos, o dispositivo de codificação de áudio 570 pode gerar um fluxo de bits de modo a incluir a o subconjunto dos coeficientes harmônicos esféricos. Nesse e em outros exemplos, o dispositivo de codificação de áudio 570 pode codificar por áudio o subconjunto dos coeficientes harmônicos esféricos, e gerar um fluxo de bits de modo a incluir o subconjunto codificado em áudio dos coeficientes harmônicos esféricos.
[1357] Em alguns exemplos, os dispositivos de codificação de áudio 570 podem realizar uma análise espacial em relação aos coeficientes harmônicos esféricos para identificar um ângulo através do qual deve ser girado o campo sonoro representado pelos coeficientes harmônicos esféricos e realizada uma operação de rotação para girar o campo sonoro pelo ângulo identificado a fim de gerar coeficientes harmônicos esféricos girados.
[1358] Em alguns exemplos, o dispositivo de codificação de áudio 570 pode determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, de u primeiro subconjunto dos coeficientes harmônicos esféricos representativos de componentes distintos do campo sonoro, e determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, de um segundo subconjunto dos coeficientes harmônicos esféricos representativos de componentes de segundo plano do campo sonoro. Nesse e em outros exemplos, os dispositivos de codificação de áudio 570 podem codificar por áudio o primeiro subconjunto dos coeficientes harmônicos esféricos que têm uma taxa-alvo de bits mais alta que aquela usada para codificar por áudio o segundo subconjunto dos coeficientes harmônicos esféricos.
[1359] Dessa maneira, vários aspectos das técnicas podem possibilitar que o dispositivo de codificação de áudio 570 determine se os SCH 511 são gerados a partir de um objeto de áudio sintético em conformidade com as cláusulas a seguir.
[1360] Cláusula 132512-1. Um dispositivo, como o dispositivo de codificação de áudio 570, que compreende: em que os um ou mais processadores são configurados adicionalmente para determinar se os coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético.
[1361] Cláusula 132512-2. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para, durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, excluir um primeiro vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos representativos do campo sonoro para obter uma matriz reduzida de coeficiente harmônico esférico com quadro.
[1362] Cláusula 132512-3. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para, durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, excluir um primeiro vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos representativos do campo sonoro para obter uma matriz reduzida de coeficiente harmônico esférico com quadro, e predizer um vetor da matriz reduzida de coeficiente harmônico esférico com quadro com base em vetores restantes da matriz reduzida de coeficiente harmônico esférico com quadro.
[1363] Cláusula 132512-4. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para, durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, excluir um primeiro vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos representativos do campo sonoro para obter uma matriz reduzida de coeficiente harmônico esférico com quadro, e predizer um vetor da matriz reduzida de coeficiente harmônico esférico com quadro com base em, pelo menos parcialmente em uma soma dos vetores restantes da matriz reduzida de coeficiente harmônico esférico com quadro.
[1364] Cláusula 132512-5. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para, durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, predizer um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos parcialmente, em uma soma de vetores restantes da matriz de coeficiente harmônico esférico com quadro.
[1365] Cláusula 132512-6. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para, durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, predizer um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos parcialmente, em uma soma de vetores restantes da matriz de coeficiente harmônico esférico com quadro, e computar um erro com base no vetor predito.
[1366] Cláusula 132512-7. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para , durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, predizer um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos parcialmente, em uma soma de vetores restantes da matriz de coeficiente harmônico esférico com quadro, e computar um erro com base no vetor predito e no vetor correspondente da matriz de coeficiente harmônico esférico com quadro.
[1367] Cláusula 132512-8. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para, durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, predizer um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos parcialmente, em uma soma de vetores restantes da matriz de coeficiente harmônico esférico com quadro, e computador um erro com uma soma do valor absoluto da diferença do vetor predito e do vetor correspondente da matriz de coeficiente harmônico esférico com quadro.
[1368] Cláusula 132512-9. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para predizer, durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos parcialmente, em uma soma de vetores restantes da matriz de coeficiente harmônico esférico com quadro, computar um erro com base no vetor predito e no vetor correspondente da matriz de coeficiente harmônico esférico com quadro, computar uma razão com base em uma energia do vetor correspondente da matriz de coeficiente harmônico esférico com quadro e no erro, e comparar a razão a um limiar para determinar se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir de objeto de áudio sintético.
[1369] Cláusula 132512-9. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para predizer, durante a determinação de se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir do objeto de áudio sintético, um vetor de uma matriz de coeficiente harmônico esférico com quadro que armazena pelo menos uma porção dos coeficientes harmônicos esféricos com base, pelo menos parcialmente, em uma soma de vetores restantes da matriz de coeficiente harmônico esférico com quadro, computar um erro com base no vetor predito e no vetor correspondente da matriz de coeficiente harmônico esférico com quadro, computar uma razão com base em uma energia do vetor correspondente da matriz de coeficiente harmônico esférico com quadro e no erro, e comparar a razão a um limiar para determinar se os coeficientes harmônicos esféricos representativos do campo sonoro são gerados a partir de objeto de áudio sintético.
[1370] Cláusula 132512-10. O dispositivo de qualquer uma das reivindicações 4 a 9, em que os um ou mais processadores são configurados adicionalmente para predizer, durante a predição do vetor, um primeiro vetor diferente de zero da matriz de coeficiente harmônico esférico com quadro que armazena pelo menos a porção dos coeficientes harmônicos esféricos.
[1371] Cláusula 132512-11. O dispositivo de qualquer uma das reivindicações 1 a 10, em que os um ou mais processadores são configurados adicionalmente para especificar uma indicação de se os coeficientes harmônicos esféricos são gerados a partir do objeto de áudio sintético em um fluxo de bits que armazena uma versão comprimida dos coeficientes harmônicos esféricos.
[1372] Cláusula 132512-12. O dispositivo da cláusula 132512-11, em que a indicação é um único bit.
[1373] Cláusula 132512-13. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, um subconjunto dos coeficientes harmônicos esféricos representativos de componentes distintos do campo sonoro.
[1374] Cláusula 132512-14. O dispositivo da cláusula 132512-13, em que os um ou mais processadores são configurados adicionalmente para gerar um fluxo de bits para incluir o subconjunto dos coeficientes harmônicos esféricos.
[1375] Cláusula 132512-15. O dispositivo da cláusula 132512-13, em que os um ou mais processadores são configurados adicionalmente para codificar por áudio o subconjunto dos coeficientes harmônicos esféricos, e gerar um fluxo de bits para incluir o subconjunto codificado em áudio dos coeficientes harmônicos esféricos.
[1376] Cláusula 132512-16. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, um subconjunto dos coeficientes harmônicos esféricos representativos de componentes de segundo plano do campo sonoro.
[1377] Cláusula 132512-17. O dispositivo da cláusula 132512-16, em que os um ou mais processadores são configurados adicionalmente para gerar um fluxo de bits para incluir o subconjunto dos coeficientes harmônicos esféricos.
[1378] Cláusula 132512-18. O dispositivo da cláusula 132512-15, em que os um ou mais processadores são configurados adicionalmente para codificar por áudio o subconjunto dos coeficientes harmônicos esféricos, e gerar um fluxo de bits para incluir o subconjunto codificado em áudio dos coeficientes harmônicos esféricos.
[1379] Cláusula 132512-18. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para realizar a análise espacial em relação aos coeficientes harmônicos esféricos para identificar um ângulo através deve ser girado o campo sonoro representado pelos coeficientes harmônicos esféricos, e realizar uma operação de rotação para girar o campo sonoro pelo ângulo identificado para gerar coeficientes harmônicos esféricos girados.
[1380] Cláusula 132512-20. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, um primeiro subconjunto dos coeficientes harmônicos esféricos representativos de componentes distintos do campo sonoro, e para determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, um segundo subconjunto dos coeficientes harmônicos esféricos representativos de componentes de segundo plano do campo sonoro.
[1381] cláusula 132512-20, em que os um ou mais processadores são configurados adicionalmente para codificar por áudio o primeiro subconjunto dos coeficientes harmônicos esféricos que têm uma taxa-alvo de bits mais alta que aquela usada para codificar por áudio o segundo subconjunto dos coeficientes harmônicos esféricos.
[1382] Cláusula 132512-22. O dispositivo da cláusula 132512-1, em que os um ou mais processadores são configurados adicionalmente para realizar uma decomposição de valor único em relação aos coeficientes harmônicos esféricos para gerar uma matriz U representativa de vetores esquerdos singulares da pluralidade de coeficientes harmônicos esféricos, uma matriz S representativa de valores singulares da pluralidade de coeficientes harmônicos esféricos e uma matriz V representativa de vetores direitos singulares da pluralidade de coeficientes harmônicos esféricos.
[1383] Cláusula 132512-23. O dispositivo da cláusula 132512-22, em que os um ou mais processadores são configurados adicionalmente para determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, essas porções de uma ou mais dentre a matriz U, a matriz S e a matriz V representativa de componentes distintos do campo sonoro.
[1384] Cláusula 132512-24. O dispositivo da cláusula 132512-22, em que os um ou mais processadores são configurados adicionalmente para determinar, com base em se os coeficientes harmônicos esféricos são gerados a partir de um objeto de áudio sintético, essas porções de uma ou mais dentre a matriz U, a matriz S e a matriz V representativa de componentes de segundo plano do campo sonoro.
[1385] Cláusula 132512-1C. Um dispositivo, como o dispositivo de codificação de áudio 570, que compreende: um ou mais processadores configurados para determinar se os coeficientes harmônicos esféricos representativos de um campo sonoro são gerados a partir de um objeto de áudio sintético com base em uma razão computada como uma função de, pelo menos, uma energia de um vetor dos coeficientes harmônicos esféricos e um erro derivado com base em uma versão predita do vetor dos coeficientes harmônicos esféricos e do vetor dos coeficientes harmônicos esféricos.
[1386] Em cada um dentre os vários exemplos descritos acima, deve ficar entendido que o dispositivo de codificação de áudio 570 pode realizar um método ou compreende, de outro modo, meios para realizar cada etapa do método que o dispositivo de decodificação de áudio 570 é configurado para realizar, em alguns exemplos, sendo que esses meios podem compreender um ou mais processadores. Em alguns exemplos, os um ou mais processadores pode representar um processador de propósito especial configurado por meio de instruções armazenadas em uma mídia de armazenamento legível por computador não transitória. Em outras palavras, vários aspectos das técnicas em cada um desses conjuntos de exemplos de codificação podem fornecer uma mídia de armazenamento legível por computador não transitória que tem instruções armazenadas na mesma que, quando executadas, fazem com que os um ou mais processadores realizem o método que o dispositivo de codificação de áudio 570 foi configurado para realizar.
[1387] As Figuras 55 e 55B são diagramas que ilustram um exemplo de realização de vários aspectos das técnicas descritas na presente revelação para girar um campo sonoro 640. A Figura 55 é um diagrama que ilustra um campo sonoro 640 antes da rotação em conformidade com os vários aspectos das técnicas descritas na presente revelação. No exemplo da Figura 55, o campo sonoro 640 inclui duas localizações de alta pressão, denotada como localização 642A e 642B. Essas localizações 642A e 642B (“localizações 642”) se encontram ao longo de uma linha 644 que tem um coeficiente angular diferente de zero (que é outra maneira de denominar uma linha que não é horizontal, uma vez que linhas horizontais têm um coeficiente angular igual a zero). Visto que as localizações 642 têm uma coordenada z além das coordenadas x e y, as funções de base esférica de ordem superior podem ser necessárias para representar corretamente esse campo sonoro 640 (uma vez que essas funções de base esférica de ordem superior descrevem as porções não horizontais superior e inferior do campo sonoro. Em vez de reduzir o campo sonoro 640 diretamente aos SHCs 511, o dispositivo de codificação de áudio 570 pode girar o campo sonoro 640 até que a linha 644 que conecta as localizações 642 seja horizontal.
[1388] A Figura 55B é um diagrama que ilustra o campo sonoro 640 após ser girado até que a linha que conecta as localizações 642 seja horizontal. Como resultado da rotação do campo sonoro 640 dessa maneira, os SHC 511 podem ser derivados de modo que os coeficientes de ordem superior dentre os SHC 511 sejam especificados como zero, visto que o campo sonoro girado 640 não mais tem quaisquer localizações de pressão (ou energia) com coordenadas z. Dessa maneira, o dispositivo de codificação de áudio 570 pode girar, traduzir ou, mais em geral, ajustar o campo sonoro 640 de modo a reduzir o número de SHC 511 que tem valores diferentes de zero. Em combinação com vários outros aspectos das técnicas, o dispositivo de codificação de áudio 570 pode, em seguida, em vez de sinalizar um número sinalizado com 32 bits que identifica que esses coeficientes de ordem superior dentre os SHC 511 têm valores iguais a zero, sinalizar em um campo do fluxo de bits 517 que esses coeficientes de ordem superior dentre os SHC 511 não são sinalizados. O dispositivo de codificação de áudio 570 também pode especificar informações de rotação no fluxo de bits 517 que indica como o campo sonoro 640 foi girado, frequentemente, por exemplo de expressão de um azimute e de uma elevação da maneira descrita acima. Um dispositivo de extração, como o dispositivo de codificação de áudio, pode, em seguida, implicar que esses coeficientes não sinalizados dentre os SHC 511 têm um valor igual a zero e realizar, durante a reprodução do campo sonoro 640 com base em SHC 511, a rotação a fim de girar o campo sonoro 640 de modo que o campo sonoro 640 se assemelhe ao campo sonoro 640 mostrado no exemplo da Figura 55. Dessa maneira, o dispositivo de codificação de áudio 570 pode reduzir o número de SHC 511 cuja especificação é exigida no fluxo de bits 517, em conformidade com as técnicas descritas na presente revelação.
[1389] Um algoritmo de ‘compactação espacial’ pode ser usado para determinar a rotação ideal do campo sonoro. Em uma modalidade, o dispositivo de codificação de áudio 570 pode aplicar o algoritmo de modo iterar através de todas as possíveis combinações de azimute e elevação (isto é, combinações de 1024x512 no exemplo acima), girando o campo sonoro para cada combinação e calculando o número de SHC 511 que estão acima do valor de limiar. A combinação candidata de azimute/elevação que produz o menor número de SHC 511 acima do valor de limiar pode ser considerada como o que pode ser denominado de "rotação ideal”. Nessa forma girada, o campo sonoro pode exigir o menor número de SHC 511 para representar o campo sonoro e pode, em seguida, ser considerado compactado. Em alguns exemplos, o ajuste pode compreender essa rotação ideal, e as informações de ajuste descritas acima podem incluir essas informações de rotação (que podem ser denominadas de "rotação ideal”) (em termos dos ângulos azimutal e de elevação).
[1390] Em alguns exemplos, em vez de especificar apenas o ângulo azimutal e o ângulo de elevação, o dispositivo de codificação de áudio 570 pode especificar ângulos adicionais na forma de, por exemplo, de ângulos de Euler. Os ângulos de Euler especificam o ângulo de rotação em torno do eixo geométrico z, do eixo geométrico x anterior e do eixo geométrico z anterior. Embora descritas na presente revelação em relação às combinações de ângulos azimutal e de elevação, as técnicas da presente revelação não devem ser limitadas à especificação apenas dos ângulos azimutal e de elevação, porém podem incluir a especificação de qualquer número de ângulos, incluindo os três ângulos de Euler verificados acima. Nesse sentido, o dispositivo de codificação de áudio 570 pode girar o campo sonoro de modo a reduzir um número da pluralidade de elementos hierárquicos que fornecem informações relevantes na descrição do campo sonoro e especificar ângulos de Euler como informações de rotação no fluxo de bits. Os ângulos de Euler, conforme verificado acima, podem descrever como o campo sonoro foi girado. Durante o uso dos ângulos de Euler, o fluxo de bits dispositivo de extração podem analisar o fluxo de bits para determinar informações de rotação que incluem os ângulos de Euler e, durante a reprodução do campo sonoro com base nos elementos dentre a pluralidade de elementos hierárquicos que fornecem informações relevantes na descrição do campo sonoro, a rotação do campo sonoro com base nos ângulos de Euler.
[1391] Ademais, em alguns exemplos, em vez de especificar explicitamente esses ângulos no fluxo de bits 517, o dispositivo de codificação de áudio 570 pode especificar um índice (que pode ser denominado de "índice de rotação”) associado a combinações predefinidas dos um ou mais ângulos que especificam a rotação. Em outras palavras, as informações de rotação podem, em alguns exemplos, incluir o índice de rotação. Nesses exemplos, um determinado valor do índice de rotação, como um valor de zero, pode indicar que não houve rotação realizada. Esse índice de rotação pode ser usado em relação a uma tabela de rotação. Ou seja, o dispositivo de codificação de áudio 570 pode incluir uma tabela de rotação que compreende uma entrada para cada uma dentre as combinações do ângulo azimutal e do ângulo de elevação.
[1392] Alternativamente, uma tabela de rotação pode incluir uma entrada para cada transformada de matriz representativa de cada combinação do ângulo azimutal e do ângulo de elevação. Ou seja, o dispositivo de codificação de áudio 570 pode armazenar uma tabela de rotação que tem uma entrada para cada transformação de matriz para girar o campo sonoro por cada uma dentre as combinações de ângulos azimutal e de elevação. Tipicamente, o dispositivo de codificação de áudio 570 recebe SHC 511 e deriva SHC 511', quando a rotação é realizada, de acordo com a seguinte equação:
Figure img0079
[1393] Na equação acima, os SHC 511’ são computados como uma função de uma matriz de codificação para codificar um campo sonoro em termos de um segundo quadro de referência {EncMat2), uma matriz de inversão para reverter os SHC 511 de volta a um campo sonoro em termos de um primeiro quadro de referência {InvMat1), e SHC 511. EncMat2 tem um tamanho 25x32, ao passo que InvMat2 tem um tamanho 32x25. Tanto o SHC 511’ quanto o SHC 511 têm tamanho 25, em que os SHC 511’ podem ser reduzidos adicionalmente devido à remoção daqueles que não especificam informações salientes de áudio. EncMat2 pode variar para cada combinação de ângulo azimutal e de elevação, ao passo que InvMat1 pode permanecer estático em relação a cada combinação de ângulo azimutal e de elevação. A tabela de rotação pode incluir uma entrada que resulta da multiplicação de cada EncMat2 diferente a InvMat1.
[1394] A Figura 56 é um diagrama que ilustra um exemplo campo sonoro capturado, de acordo com um primeiro quadro de referência que é, em seguida, girado conformidade com as técnicas descritas na presente revelação para expressar o campo sonoro em termos de um segundo quadro de referência. No exemplo da Figura 56, o campo sonoro que cerca um microfone Eigen 646 é capturado assumindo um primeiro quadro de referência, que é denotado pelos eixos geométricos X1, Y1, e no exemplo da Figura 56. Os SHC 511 descrevem o campo sonoro em termos desse primeiro quadro de referência. A InvMat1 transforma os SHC 511 de volta no campo sonoro, o que possibilita que o campo sonoro seja girado em relação ao segundo quadro de referência denotada pelos eixos geométricos X2, Y2 e Z2 no exemplo da Figura 56. A EncMat2 descrita acima pode girar o campo sonoro e gerar os SHC 511’ que descrevem esse campo sonoro girado em termos do segundo quadro de referência.
[1395] De qualquer modo, a equação acima pode ser derivada conforme a seguir. Visto que o campo sonoro é gravado com um determinado sistema de coordenada, de modo que a frente seja considerada como a direção do eixo geométrico x, as 32 posições de microfone de um microfone Eigen (ou outras configurações de microfone) são definidas a partir dessa referência sistema de coordenada. Em seguida, a rotação do campo sonoro pode ser considerada como uma rotação desse quadro de referência. Para o quadro de referência assumido, os SHC 511 podem ser calculados conforme o seguinte:
Figure img0080
[1396] Na equação acima, o
Figure img0081
representa as funções de base esférica na posição (Posj) do iésimo microfone (em que i pode ser 1 a 32 nesse exemplo). O vetor mici denota o sinal de microfone para o iésimo microfone durante um tempo t. As posições (Posi) indicam a posição do microfone no primeiro quadro de referência (isto é, o quadro de referência antes da rotação nesse exemplo).
[1397] A equação acima pode ser expressa alternativamente em termos das expressões matemáticas denotadas acima como:
Figure img0082
[1398] A fim de girar o campo sonoro (ou no segundo quadro de referência), a posição (Posi) é calculada no segundo quadro de referência. Contanto que os sinais microfone originais estejam presentes, o campo sonoro pode ser girado arbitrariamente. No entanto, os sinais microfone originais (mici(t)), frequentemente, não estão disponíveis. O problema pode, então, ser em como recuperar os sinais de microfone (mici(t)) dos SHC 511. Caso um T-modelo seja usado (coo em um microfone 32 microfone Eigen ), a solução para esse problema pode ser alcançada resolvendo-se a seguinte equação:
Figure img0083
[1399]Essa InvMat1 pode especificar as funções de base harmônica esférica computada de acordo com a posição dos microfones conforme especificado em relação ao primeiro quadro de referência. Essa equação também pode , _ ser expressada como
Figure img0084
, conforme verificado acima.
[1400] Uma vez que os sinais de microfone (mici(t)) são recuperados em conformidade com a equação acima, os sinais de microfone (mici(t)) que descrevem o campo sonoro podem ser girados para computar os SHC 511’ correspondentes ao segundo quadro de referência, o que resulta na seguinte equação:
Figure img0085
A EncMat2 especifica as funções de base harmônica esférica de uma posição girada (Posi'). Dessa maneira, a EncMat2 pode especificar de manei eficaz uma combinação do ângulo azimutal e de elevação. Desse modo, quando a tabela de rotação armazena o resultado de
Figure img0086
para cada combinação dos ângulos azimutal e de elevação, a tabela de rotação especifica, de maneira eficaz, cada combinação dos ângulos azimutal e de elevação. A equação acima também pode ser expressa como:
Figure img0087
[1401] em que θ2, (p2 representam um segundo ângulo azimutal e um segundo ângulo de elevação diferente dos primeiros ângulo azimutal e ângulo de elevação representados por 91, ç1. Os 91, <pi correspondem ao primeiro quadro de referência ao passo que os 92, cp2 correspondem ao segundo quadro de referência. Portanto, a InvMat1 pode corresponder a '
Figure img0088
, ao passo que EncMat2 pode corresponder a
Figure img0089
[1402] O supracitado pode representar uma versão mais simplificada da computação que não considere a operação de filtragem, representada acima em várias equações que denotam a derivação dos SHC 511 no domínio de frequência pela função jn(»), que se refere à função esférica de Bessel de ordem n. No domínio de tempo, essa função jn(») representa uma operação de filtragem que é específica a uma ordem particular, n. Com a filtragem , a rotação pode ser realizada por ordem. Para propósito de ilustração, considerar as seguintes equações:
Figure img0090
[1403] A partir dessas equações, os SHC girados 511’ para ordens são feitos separadamente, visto que o bn(t) são diferentes para cada ordem. Como resultado, a equação acima pode ser alterada conforme segue para computar os coeficientes de primeira ordem dentre os SHC girados 511’:
Figure img0091
[1404] Visto que há três coeficientes de primeira ordem dentre os SHC 511, cada um dentre os vetores de SHC 511’ e 511 é do tamanho três na equação acima. De igual modo, para a segunda ordem, a equação a seguir pode ser aplicada:
Figure img0092
-) 1
[1405] Novamente, visto que há cinco coeficientes de segunda ordem dentre os SHC 511, cada um dentre os vetores de SHC 511’ e 511 é de tamanho cinco na equação acima. As equações restantes para as outras ordens, isto é, a terceira e quarta ordens, podem ser semelhantes àquela descrita acima, seguindo o mesmo padrão em relação aos tamanhos das matrizes (em que o número de fileiras de EncMat2, o número de colunas de InvMat1 e os tamanhos dos vetores de SHC 511 e SHC 511’ de terceira e quarta ordem são iguais ao número de subordens (m vezes dois mais 1) de cada uma dentre a funções de base harmônica esférica de terceira e quarta ordem.
[1406] Portanto, o dispositivo de codificação de áudio 570 pode realizar essa operação de rotação em relação cada combinação de ângulo azimutal e de elevação em uma tentativa de identificar a então chamada rotação ideal. O dispositivo de codificação de áudio 570 pode, após executar essa operação de rotação, computar o número de SHC 511’ acima do valor de limiar. Em alguns exemplos, o dispositivo de codificação de áudio 570 pode realizar essa rotação para derivar uma série SHC 511’ que representam o campo sonoro ao longo de uma duração de tempo, por exemplo, um quadro de áudio. Mediante a realização dessa rotação para derivar a série dos SHC 511’ que representam o campo sonoro ao longo dessa duração de tempo, o dispositivo de codificação de áudio 570 pode reduzir o número de operações de rotação que têm de ser executadas em comparação para realizar isso para cada conjunto dos SHC 511 que descrevem o campo sonoro para durações de tempo menores que um quadro ou outra extensão. De qualquer modo, o dispositivo de codificação de áudio 570 pode guardar, ao longo desse processo, os coeficientes dentre os SHC 511’ que têm o menor o número dos SHC 511’ maiores que o valor de limiar.
[1407] No entanto, a realização dessa operação de rotação em relação a cada combinação de ângulo azimutal e de elevação intensa em termos de processador e demorada. Como resultado, o dispositivo de codificação de áudio 570 pode não realizar o que pode ser caracterizado como essa implantação de "força bruta” do algoritmo de rotação. Em vez disso, o dispositivo de codificação de áudio 570 pode fornecer rotações em relação a um subconjunto de combinações de ângulo azimutal e de elevação possivelmente conhecidas (em termos estatísticos) que oferecem uma compactação em geral satisfatória, realizando rotações adicionais em relação às combinações em torno daqueles desse subconjunto que fornece melhor compactação em comparação a outras combinações no subconjunto.
[1408] Alternativamente, o dispositivo de codificação de áudio 570 pode realizar essa rotação em relação apenas ao subconjunto conhecido de combinações. Alternativamente, o dispositivo de codificação de áudio 570 pode seguir uma trajetória (espacialmente) de combinações, realizando as rotações em relação a essa trajetória de combinações. Alternativamente, o dispositivo de codificação de áudio 570 pode especificar um limiar de compactação que define um número máximo de SHC 511’ que têm valores diferentes de zero acima do valor de limiar. Esse limiar de compactação pode definir, de maneira eficaz, um ponto de parada para a pesquisa, de modo que, quando o dispositivo de codificação de áudio 570 realize uma rotação e determine que o número de SHC 511’ que tem um valor acima do limiar definido é menor ou igual (ou menor em alguns exemplos) ao limiar de compactação, o dispositivo de codificação de áudio 570 pare de realizar quaisquer operações de rotação adicionais em relação às combinações restantes. 'Ainda alternativamente, os dispositivos de codificação de áudio 570 podem atravessar uma árvore disposta hierarquicamente (ou outras estruturas de dados) de combinações, realizando as operações de rotação em relação à atual combinação e atravessando a árvore para a direita ou para a esquerda (por exemplo, em relação a árvores binárias) dependendo do número de SHC 511’ que tem um valor diferente de zero maior do que o valor de limiar.
[1409] Nesse sentido, cada uma dessas alternativas envolve executar uma primeira e segunda operações de rotação e comparar o resultado da execução das primeira e segunda operações de rotação a fim de identificar uma dentre a primeira e segunda operações de rotação que resulta no menor número dos SHC 511’ que tem um valor diferente de zero maior do que o valor de limiar. Consequentemente, o dispositivo de codificação de áudio 570 pode executar uma primeira operação de rotação no campo sonoro para girar o campo sonoro em conformidade com um primeiro ângulo azimutal e um primeiro ângulo de elevação e determinar um primeiro número da pluralidade de elementos hierárquicos representativos do campo sonoro girado em conformidade com o primeiro ângulo azimutal e com o primeiro ângulo de elevação que fornecem informações relevantes na descrição do campo sonoro. O dispositivo de codificação de áudio 570 também pode executar uma segunda operação de rotação no campo sonoro para girar o campo sonoro em conformidade com um segundo ângulo azimutal e um segundo ângulo de elevação e determinar um segundo número da pluralidade de elementos hierárquicos representativos do campo sonoro girado em conformidade com o segundo ângulo azimutal e com o segundo ângulo de elevação que fornece informações relevantes na descrição do campo sonoro. Adicionalmente, o dispositivo de codificação de áudio 570 pode selecionar a primeira operação de rotação ou a segunda operação de rotação com base em uma comparação do primeiro número da pluralidade de elementos hierárquicos e do segundo número da pluralidade de elementos hierárquicos.
[1410] Em alguns exemplos, o algoritmo de rotação pode ser aplicado em relação a uma duração de tempo, em que invocações subsequentes do algoritmo de rotação podem executar operações de rotação com base em invocações passadas do algoritmo de rotação. Em outras palavras, o algoritmo de rotação pode ser adaptável com base em informações de rotação passadas determinadas durante a rotação do campo sonoro para uma duração anterior de tempo. Por exemplo, o dispositivo de codificação de áudio 570 pode girar o campo sonoro ao longo de uma primeira duração de tempo, por exemplo, um quadro de áudio, para identificar os SHC 511’ para essa primeira duração de tempo. Os dispositivos de codificação de áudio 570 podem especificar as informações de rotação e os SHC 511’ no fluxo de bits 517 de qualquer maneira dentre as descritas acima. Essas informações de rotação podem ser denominadas como primeiras informações de rotação pelo fato de que descrevem a rotação do campo sonoro para a primeira duração de tempo. O dispositivo de codificação de áudio 570 pode, então, com base em nessas primeiras informações de rotação, girar o campo sonoro ao longo de uma segunda duração de tempo, por exemplo, um segundo quadro de áudio, para identificar SHC 511’ para essa segunda duração de tempo. O dispositivo de codificação de áudio 570 podem utilizar essas primeiras informações de rotação durante a realização da segunda operação de rotação ao longo da segunda duração de tempo para inicializar uma pesquisa por uma combinação "ideal" de ângulos azimutal e de elevação, por exemplo. O dispositivo de codificação de áudio 570 pode então especificar os SHC 511’ e informações correspondentes de rotação para a segunda duração de tempo (que pode ser denominada de "segundas informações de rotação”) no fluxo de bits 517.
[1411] Embora descritas acima em relação a diferentes maneiras de implantar o algoritmo de rotação a fim de reduzir o tempo de processamento e/ou consumo, as técnicas podem ser realizadas em relação a qualquer algoritmo que pode reduzir ou, de outro modo, aumentar agilizar a identificação do que pode ser denominado como a "rotação ideal”. Ademais, as técnicas podem ser realizadas em relação a qualquer algoritmo que identifica rotações não ideais, porém que podem aprimorar o desempenho em outros aspectos, medidos frequentemente em termos de velocidade ou de processador ou outra utilização de recurso.
[1412] As Figuras 57 a 57E são, cada uma, um diagrama que ilustra fluxos de bits 517A a 517E formados, em conformidade com as técnicas descritas na presente revelação. No exemplo da Figura 57A, o fluxo de bits 517A pode representar um exemplo do fluxo de bits 517 mostrado na Figura 53 acima. O fluxo de bits 517A inclui um campo presente de SHC 670 e um campo que armazena SHC 511’ (em que o campo é denotado como "SHC 511’“). O campo presente de SHC 670 pode incluir um bit correspondente a cada um dentre os SHC 511. Os SHC 511’ podem representar os coeficientes dentre os SHC 511 que são especificados no fluxo de bits, que podem ser menores em número do que o número dos SHC 511. Tipicamente, cada um dentre os SHC 511’ são os coeficientes dentre os SHC 511 que têm valores diferentes de zero. Conforme verificado acima, para uma representação de quarta ordem de qualquer campo sonoro determinado, (1+4)2 ou 25 SHC são exigidos. A eliminação de um ou mais dentre esses SHC e a substituição desses SHC com valor igual a zero com um único bit podem guardar 31 bits, que podem ser alocados para expressar outras porções do campo sonoro mais detalhadamente ou, de outro modo, removidos para facilitar utilização de largura de banda eficiente.
[1413] No exemplo da Figura 57B, o fluxo de bits 517B pode representar um exemplo do fluxo de bits 517 mostrado na Figura 53 acima. O fluxo de bits 517B inclui um campo de informações de transformação 672 (“informações de transformação 672”) e um campo que armazena SHC 511’ (em que o campo é denotado "SHC 511 “‘). As informações de transformação 672, conforme verificado acima, pode compreender informações de tradução, informações de rotação e/ou qualquer outra forma de informações que denotam um ajuste em reação a um campo sonoro. Em alguns exemplos, as informações de transformação 672 também podem especificar uma ordem mais superior de SHC 511 que são especificados no fluxo de bits 517B como SHC 511’. Ou seja, as informações de transformação 672 pode indicar uma ordem de três, o que o dispositivo de extração pode entender como uma indicação de que SHC 511’ inclui os coeficientes dentre SHC 511 ou mais e que inclui os coeficientes dentre SHC 511 que têm uma ordem de três. O dispositivo de extração pode então ser configurado para definir os SHC 511 que têm uma ordem de quatro, ou mais alta, a zero, desse modo removendo potencialmente a sinalização explicita de SHC 511 de ordem quatro, ou mais alta, no fluxo de bits.
[1414] No exemplo da Figura 57C, o fluxo de bits 517C pode representar um exemplo do fluxo de bits 517 mostrado na Figura 53 acima. O fluxo de bits 517C inclui o campo de informações de transformação 672 (“informações de transformação 672”), o campo presente de SHC 670 e um campo que armazena SHC 511’ (em que o campo é denotado "SHC 51 “). Em vez de ser configurado de modo a entender qual ordem de SHC 511 não são sinalizadas conforme descrito acima em relação à Figura 57B, o campo presente de SHC 670 pode sinalizar, de maneira explícita, quais dentre os SHC 511 são especificados no fluxo de bits 517C as SHC 511’.
[1415] No exemplo da Figura 57D, o fluxo de bits 517D pode representar um exemplo do fluxo de bits 517 mostrado na Figura 53 acima. O fluxo de bits 517D inclui um campo de ordem 674 (“ordem 60”), o campo presente de SHC 670, um sinalizador de azimute 676 (“AZF 676”), um sinalizador de elevação 678 (“ELF 678”), um campo de ângulo azimutal 680 (“azimute 680”), um ângulo de elevação campo 682 (“elevação 682”) e um campo que armazena SHC 511’ (em que, novamente, o campo é denotado "SHC 511”). O campo de ordem 674 especifica a ordem de SHC 511', isto é, a ordem denotada por n acima para a ordem mais superior da função de base esférica usada para representar o campo sonoro. O campo de ordem 674 é mostrado como sendo um campo de 8 bits, porém pode ter vários outros tamanhos em bits, tais como, três (que é o número de bits exigidos para especificar a quarta ordem). O campo presente de SHC 670 é mostrado como um campo de 25 bits. No entanto, novamente, o campo presente de SHC 670 pode ter vários outros tamanhos em bits. O campo presente de SHC 670 é mostrado como de 25 bits para indicar que o campo presente de SHC 670 pode incluir um bit para cada um dentre os coeficientes harmônicos esféricos correspondentes a uma representação de quarta ordem do campo sonoro.
[1416] O sinalizador de azimute 676 representa um sinalizador de um bit que especifica se o campo azimutal 680 está presente no fluxo de bits 517D. Quando o sinalizador de azimute 676 é definido como um, o campo azimutal 680 para SHC 511’ está presente no fluxo de bits 517D. Quando o sinalizador de azimute 676 é definido como zero, o campo azimutal 680 para SHC 511’ não está presente ou, de outro modo, especificado no fluxo de bits 517D. De igual modo, o sinalizador de elevação 678 representa um sinalizador de um bit que especifica se a elevação campo 682 está presente no fluxo de bits 517D. Quando o sinalizador de elevação 678 é definido como um, a elevação campo 682 para SHC 511’ está presente no fluxo de bits 517D. Quando o sinalizador de elevação 678 é definido como zero, o campo de elevação 682 para SHC 511’ não está presente ou, de outro modo, especificado no fluxo de bits 517D. Embora seja descrito um sinaliza que o campo correspondente está presente e zero sinaliza que o campo correspondente não está presente, a convenção pode ser pode ser revertida de modo que um zero especifique que o campo correspondente seja especificado no fluxo de bits 517D e um especifique que o campo correspondente não é especificado no fluxo de bits 517D. Portanto, as técnicas descritas na presente revelação não devem ser limitadas a esse aspecto.
[1417] O campo azimutal 680 representa um campo de 10 bits que especifica, quando presente no fluxo de bits 517D, o ângulo azimutal. Embora mostrado como um campo de 10 bits, o campo azimutal 680 pode ter outros tamanhos em bits. O campo de elevação 682 representa um campo de 9 bits que especifica, quando presente no fluxo de bits 517D, o ângulo de elevação. O ângulo azimutal e o ângulo de elevação especificado nos campos 680 e 682, respectivamente, podem representar, em combinação com os sinalizadores 676 e 678, as informações de rotação descritas acima. Essas informações de rotação podem ser usadas para girar o campo sonoro de modo a recuperar os SHC 511 no quadro de referência original.
[1418] O campo de SHC 511’ é mostrado como um campo variável que tem um tamanho X. O campo de SHC 511’ pode variar devido ao número de SHC 511’ especificado no fluxo de bits conforme denotado pelo campo presente de SHC 670. O tamanho X pode ser derivado como uma função do número de uns no campo presente de SHC 670 vezes 32 bits (que é o tamanho de cada SHC 511’).
[1419] No exemplo da Figura 57E, o fluxo de bits 517E pode representar outro exemplo do fluxo de bits 517 mostrado na Figura 53 acima. O fluxo de bits 517E inclui um campo de ordem 674 (“ordem 60”), um campo presente de SHC 670 e um campo de índice de rotação 684, e um campo que armazena SHC 511’ (em que, novamente, o campo é denotado "SHC 511’“). O campo de ordem 674, o campo presente de SHC 670 e o campo de SHC 511’ podem ser substancialmente semelhantes àqueles descritos acima. O campo de índice de rotação 684 pode representar um campo de 20 bits usado para especificar uma dentre 1024x512 combinações (ou, em outras palavras, 524288) dos ângulos azimutal e de elevação. Em alguns exemplos, apenas 19 bits podem ser usados para especificar esse campo de índice de rotação 684, e o dispositivo de codificação de áudio 570 pode especificar um sinalizador adicional no fluxo de bits para indicar se uma operação de rotação foi executada (portanto, se o campo de índice de rotação 684 está presente no fluxo de bits). Esse campo de índice de rotação 684 especifica o índice de rotação verificado acima, que pode se referir a uma entrada em uma tabela de rotação comum tanto para o dispositivo de codificação de áudio 570 quanto para o fluxo de bits dispositivo de extração. Essa tabela de rotação pode armazenar, em alguns exemplos, as diferentes combinações dos ângulos azimutal e de elevação. Alternativamente, a tabela de rotação pode armazenar a matriz descrita acima, que armazena de maneira eficaz as diferentes combinações dos ângulos azimutal e de elevação em forma de matriz.
[1420] A Figura 58 é um fluxograma que ilustra uma operação exemplificativa do dispositivo de codificação de áudio 570 mostrado no exemplo da Figura 53 na implantação da rotação aspectos das técnicas descritas na presente revelação. Incialmente, o dispositivo de codificação de áudio 570 pode selecionar uma combinação de ângulo azimutal e um ângulo de elevação em conformidade com um ou mais dentre os vários algoritmos de rotação descritos acima (800). O dispositivo de codificação de áudio 570 pode girar, em seguida, o campo sonoro de acordo com o ângulo azimutal e de elevação selecionado (802). Conforme descrito acima, o dispositivo de codificação de áudio 570 pode derivar primeiramente o campo sonoro a partir dos SHC 511 com o uso do InvMat1 verificado acima. O dispositivo de codificação de áudio 570 também pode determinar os SHC 511’ que representam o campo sonoro girado (804). Embora descrito como sendo etapas ou operações separadas, o dispositivo de codificação de áudio 570 pode aplicar uma transformada (que pode representar o [EncMat2][//?v at;]) que representa a seleção da combinação do ângulo azimutal e do ângulo de elevação, derivando o campo sonoro do SHC 511, girando o campo sonoro e determinado os SHC 511’ que representam o campo sonoro girado.
[1421] De qualquer modo, o dispositivo de codificação de áudio 570 pode, em seguida, computar um número dos SHC 511’ determinados que são maiores que um valor de limiar, em comparação desse número a um número comutado para uma iteração anterior em relação a uma combinação anterior de ângulo azimutal e de ângulo de elevação (806, 808). Na primeira iteração em relação à primeira combinação de ângulo azimutal e de ângulo de elevação, essa comparação pode ser a um número anterior predeterminado (que pode ser definido como zero). De qualquer modo, caso o número determinado dos SHC 511’ seja menor do que os números anteriores (“SIM” 808), o dispositivo de codificação de áudio 570 armazena os SHC 51, o ângulo azimutal e o ângulo de elevação, que substituem frequentemente os SHC 511' anteriores, o ângulo azimutal e o ângulo de elevação armazenados a partir de uma iteração anterior do algoritmo de rotação (810).
[1422] Caso o número determinado dos SHC 511’ não seja menor do que o número anterior (“NÃO” 808) ou após armazenar os SHC 511’, o ângulo azimutal e o ângulo de elevação no lugar dos SHC 51 armazenados anteriormente, o ângulo azimutal and ângulo de elevação, o dispositivo de codificação de áudio 570 podem determinar se o algoritmo de rotação terminou. Ou seja, o dispositivo de codificação de áudio 570 pode, por exemplo, determinar se toda a combinação disponível de ângulo azimutal e de ângulo de elevação foi avaliada. Em outros exemplos, o dispositivo de codificação de áudio 570 pode determinar se outros critérios são satisfeitos (por exemplo, se todos dentre um subconjunto definido de combinação foram realizados, se uma determinada foi atravessada, se uma árvore hierárquica foi atravessada para um nó de folha, etc.) de modo que o dispositivo de codificação de áudio 570 tenham terminado de aplicar o algoritmo de rotação. Caso não tenha terminado (“Não” 812), o dispositivo de codificação de áudio 570 pode realizar o processo acima em relação a outra combinação selecionada (800 a 812) . Caso tenha terminado ("SIM" 812), o dispositivo de codificação de áudio 570 pode especificar os SHC armazenados 51, o ângulo azimutal e o ângulo de elevação no fluxo de bits 517 de uma dentre várias maneiras descritas acima (814).
[1423] A Figura 59 é um fluxograma que ilustra uma operação exemplificativa do dispositivo de codificação de áudio 570 mostrado no exemplo da Figura 53 na realização dos aspectos de transformação das técnicas descritas na presente revelação. Inicialmente, o dispositivo de codificação de áudio 570 pode selecionar uma matriz que representa uma transformada invertível linear (820). Um exemplo de uma matriz que representa uma transformada invertível linear pode ser a matriz mostrada acima que é o resultado de [EncMatf\[IncMatf\. O dispositivo de codificação de áudio 570 pode, em seguida, aplicar a matriz ao campo sonoro para transformar o campo sonoro (822). O dispositivo de codificação de áudio 570 também pode determinar os SHC 511’ que representam o campo sonoro girado (824). Embora descrito como tendo etapas ou operações separadas, o dispositivo de codificação de áudio 570 pode aplicar uma transformada (que representa o resultado de [EncMat2][//?v at;]), derivando o campo sonoro dos SHC 511, pode transformar o campo sonoro e determinar o SHC 511’ que representa o campo sonoro de transformada.
[1424] De qualquer modo, o dispositivo de codificação de áudio 570 pode, em seguida, computar um número dos SHC 511’ determinados que são maiores que um valor de limiar, que compreende esse número a um número computado para uma iteração anterior em relação a uma aplicação anterior de uma matriz de transformada (826, 828). Caso o número determinado dos SHC 511’ seja menor do que o número anterior (“Sim” 828), o dispositivo de codificação de áudio 570 armazena os SHC 511’ e a matriz (ou alguma derivada da mesma, por exemplo, um índice associado à matriz), substituindo frequentemente os SHC 511’ anteriores e a matriz (ou uma derivada da mesma) armazenados a partir de uma iteração anterior do algoritmo de rotação (830).
[1425] Caso número dos SHC 511’ não seja menor do que o número anterior (“Não” 828) ou após armazenar os SHC 511’ e a matriz no lugar dos SHC 511’ e da matriz armazenados anteriormente, o dispositivo de codificação de áudio 570 pode determinar se o algoritmo de transformada está terminado (832). Ou seja, o dispositivo de codificação de áudio 570 pode determinar, por exemplo, se todas as matrizes de transformadas foram avaliadas. Em outros exemplos, o dispositivo de codificação de áudio 570 pode determinar se outros critérios são satisfeitos (por exemplo, se todos dentre um subconjunto definido de combinação foram realizados, se uma determinada foi atravessada, se uma árvore hierárquica foi atravessada para um nó de folha, etc.) de modo que o dispositivo de codificação de áudio 570 tenham terminado de aplicar o algoritmo de transformada. Caso não esteja terminado (“Não” 832), o dispositivo de codificação de áudio 570 pode realizar o processo acima em relação a outra matriz de transformada selecionada (820 a 832). Caso esteja terminado (“Sim” 832), o dispositivo de codificação de áudio 570 pode especificar os SHC 511’ e a matriz armazenados no fluxo de bits 517 de uma dentre as várias maneiras descritas acima (834).
[1426] Em alguns exemplos, o algoritmo de transformada pode realizar uma única iteração, avaliando uma única de transformada. Ou seja, a matriz de transformada pode compreender qualquer matriz que representa uma transformada invertível linear. Em alguns exemplos, a transformada invertível linear pode transformar o campo sonoro do domínio espacial no domínio de frequência. Os exemplos de tal transformada invertível linear podem incluir uma transformada de Fourier discreta (DFT). Aplicação da DFT pode envolver apenas uma única iteração, portanto, não necessariamente inclui as etapas de determinar se o algoritmo de transformada está determinado. Consequentemente, as técnicas não devem ser limitadas ao exemplo da Figura 59.
[1427] Em outras palavras, um exemplo de uma transformada invertível linear é uma transformada de Fourier discreta (DFT). Os vinte e cinco SHC 511’ podem ser operados pela DFT de modo a formar um conjunto de vinte e cinco coeficientes complexos. O dispositivo de codificação de áudio 570 também pode preencher de zero os vinte e cinco SHC 511’ de modo a serem um número interior múltiplo de 2, de modo a aumentar potencialmente a resolução do tamanho de compartimento da DFT e, potencialmente, ter uma implantação mais eficiente da DFT, por exemplo, através da aplicação de uma transformada de Fourier rápida (FFT). Em alguns exemplos, o aumento da resolução da DFT além de 25 pontos não é necessariamente exigido. No domínio de transformada, o dispositivo de codificação de áudio 570 pode aplicar um limiar para determinar se há qualquer energia espectral em um compartimento particular. O dispositivo de codificação de áudio 570, nesse contexto, pode descartar, em seguida, ou zerar energia de coeficiente espectral que está abaixo desse limiar, e o dispositivo de codificação de áudio 570 pode aplicar uma transformada inversa para recuperar os SHC 511’ que têm um ou mais dos SHC 511’ descartados ou zerados. Ou seja, após a transformada inversa ser aplicada, os coeficientes abaixo do limiar não estão presentes e, como resultado, menos bits podem ser usados para codificar o campo sonoro.
[1428] Em um ou mais exemplos, as funções descritas podem ser implantadas em hardware, software, firmware ou qualquer combinação dos mesmos. Caso implantado em software, as funções podem ser armazenadas em, ou transmitidas sobre, como uma ou mais instruções ou código em um meio legível por computador e executadas por uma unidade de processamento com base em hardware. As mídias legíveis por computador podem incluir mídias de armazenamento legíveis por computador, que correspondem a uma mídia tangível como mídias de armazenamento de dados ou mídias de comunicação que incluem qualquer mídia que facilite a transferência de um programa de computador proveniente de um lugar para outro, por exemplo, de acordo com um protocolo de comunicação. Dessa maneira, mídias legíveis por computador podem corresponder, em geral, a (1) mídias de armazenamento legíveis por computador tangíveis que são não transitórias (2) uma mídia de comunicação, por exemplo, uma onda de sinal ou de transportadora. As mídias de armazenamento de dados podem ser quaisquer mídias disponíveis que possam ser acessadas por um ou mais computadores ou um ou mais processadores para recuperar instruções, estruturas de código e/ou dados para a implantação das técnicas descritas na presente revelação. Um produto de programa de computador pode incluir uma mídia legível por computador.
[1429] A título de exemplo, e não de limitação, tais mídias de armazenamento legíveis por computador podem compreender RAM, ROM, EEPROM, CD-ROM ou outro armazenamento de disco óptico, armazenamento de disco magnético ou outros dispositivos de armazenamento magnético, ou qualquer outro meio que possa ser usado para armazenar o código de programa desejado na forma de instruções ou estruturas de dados e que possa ser acessado por um computador. Também, qualquer conexão é propriamente denominada de uma mídia legível por computador. Por exemplo, se as instruções forem transmitidas a partir de um sítio da web, servidor ou outra fonte remota com o uso de um cabo coaxial, cabo de fibra óptica, par trançado, linha de inscrição digital (DSL) ou tecnologias sem fio como infravermelho, rádio e micro-onda, então, o cabo coaxial, o cabo de fibra óptica, o par trançado, a DSL ou as tecnologias sem fio como infravermelho, rádio e micro-onda estão incluídos na definição de mídia. Deve ser entendido, entretanto, que as mídias de armazenamento legíveis por computador e as mídias de armazenamento de dados não incluem conexões, ondas transportadoras, sinais ou outras mídias transitórias, mas são, em vez disso, direcionadas para mídias não transitórias e tangíveis. Disco magnético e disco óptico, conforme usado no presente documento, incluem disco compacto (CD), disco laser, disco ótico, disco versátil digital (DVD), disquete e disco blu-ray, em que os discos magnéticos normalmente reproduzem os dados de modo magnético, enquanto os discos ópticos reproduzem os dados de modo óptico com lasers. As combinações dos supracitados também devem ser abrangidas pelo escopo de meios legíveis por computador.
[1430] As instruções podem ser executadas por um ou mais processadores, como um ou mais processadores de sinal digital (DSPs), microprocessadores para propósitos gerais, circuitos integrados de aplicação específica (ASICs), matrizes lógicas programáveis por campo (FPGAs) ou outro conjunto de circuitos lógicos equivalentes integrados ou discretos. Portanto, o termo "processador," conforme usado no presente documento pode se referir a qualquer uma das estruturas supracitadas ou qualquer outra estrutura adequada para a implantação das técnicas descritas no presente documento. Adicionalmente, em alguns aspectos, a funcionalidade descrita no presente documento pode ser fornecida dentro de módulos dedicados de hardware e/ou software configurados para cifrar e decodificar ou incorporados em um codec combinado. Também, as técnicas podem ser totalmente implantadas em um ou mais circuitos ou elementos lógicos.
[1431] As técnicas a presente revelação podem ser implantadas em uma ampla variedade de dispositivos ou aparelhos, incluindo um monofone, um circuito integrado (IC) ou um conjunto de ICs (por exemplo, um conjunto de chips). Vários componentes, módulos ou unidades são descritos na presente revelação para enfatizar os aspectos funcionais dos dispositivos configurados para realizar as técnicas reveladas, mas não exigem necessariamente a realização por diferentes unidades de hardware. Em vez disso, conforme descrito acima, várias unidades podem ser combinadas em uma unidade de hardware de codec ou fornecidas por uma coleção de unidades de hardware interoperativos, incluindo um ou mais processadores conforme descrito acima, em conjunto com software e/ou firmware adequados.
[1432] Várias modalidades das técnicas foram descritas. Esses e outros aspectos das técnicas estão dentro do escopo das reivindicações a seguir.

Claims (15)

1. Método caracterizado por compreender: obter um primeiro conjunto diferente de zero de coeficientes de um vetor (717) representativo de um componente de primeiro plano de um campo sonoro, sendo que o vetor foi decomposto linearmente a partir de uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro; obter um de uma pluralidade de modos de configuração (760) através do qual deve ser extraído o conjunto diferente de zero de coeficientes do vetor em conformidade com o um modo da pluralidade de modos de configuração, em que o um modo da pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui todos os coeficientes; e extrair o conjunto diferente de zero dos coeficientes do vetor (717) com base no um modo obtido da pluralidade de modos de configuração.
2. Método, de acordo com a reivindicação 1, caracterizado por compreender adicionalmente extrair o primeiro conjunto diferente de zero dos coeficientes como uma primeira porção do vetor.
3. Método, de acordo com a reivindicação 1, caracterizado por compreender adicionalmente: extrair o primeiro conjunto diferente de zero do vetor (717) a partir de informações de canal auxiliar; e obter uma versão recomposta da pluralidade de coeficientes harmônicos esféricos com base no primeiro conjunto diferente de zero dos coeficientes do vetor (717).
4. Método, de acordo com a reivindicação 1, caracterizado pelo vetor (717) compreender um vetor decomposto linearmente a partir da pluralidade de coeficientes harmônicos esféricos utilizando uma decomposição linear.
5. Método, de acordo com a reivindicação 4, caracterizado pela decomposição linear compreender decomposição de valor único.
6. Método, de acordo com a reivindicação 1, caracterizado pela obtenção do um modo da pluralidade de modos de configuração (760) compreender obter o um modo da pluralidade de modos de configuração com base em um valor sinalizado em um fluxo de bits.
7. Dispositivo caracterizado por compreender: um ou mais processadores configurados para: obter um primeiro conjunto diferente de zero de coeficientes de um vetor (717) representativo de um componente de primeiro plano de um campo sonoro, sendo que o vetor foi decomposto linearmente a partir de uma pluralidade de coeficientes harmônicos esféricos que descrevem o campo sonoro; obter um de uma pluralidade de modos de configuração (760) através do qual deve ser extraído o conjunto diferente de zero de coeficientes do vetor em conformidade com o um modo da pluralidade de modos de configuração, em que o um modo da pluralidade de modos de configuração indica que o conjunto diferente de zero dos coeficientes inclui todos os coeficientes; e extrair o conjunto diferente de zero dos coeficientes do vetor (717) com base no um modo obtido da pluralidade de modos de configuração.
8. Dispositivo, de acordo com a reivindicação 7, caracterizado pelos um ou mais processadores serem configurados adicionalmente para extrair o primeiro conjunto diferente de zero dos coeficientes como uma primeira porção do vetor (717).
9. Dispositivo, de acordo com a reivindicação 7, caracterizado pelos um ou mais processadores serem configurados adicionalmente de modo a extrair o primeiro conjunto diferente de zero do vetor (717) a partir de informações de canal auxiliar, e de modo a obter uma versão recomposta da pluralidade de coeficientes harmônicos esféricos com base no primeiro conjunto diferente de zero dos coeficientes do vetor (717).
10. Dispositivo, de acordo com a reivindicação 7, caracterizado pelo vetor (717) compreender um vetor decomposto linearmente a partir da pluralidade de coeficientes harmônicos esféricos utilizando uma decomposição linear.
11. Dispositivo, de acordo com a reivindicação 10, caracterizado pela decomposição linear compreender decomposição de valor único.
12. Dispositivo, de acordo com a reivindicação 7, caracterizado pelos um ou mais processadores serem configurados para determinar o um modo da pluralidade de modos de configuração (760) com base em um valor sinalizado em um fluxo de bits.
13. Dispositivo, de acordo com a reivindicação 12, caracterizado pelo valor com base no qual o um ou mais processadores são configurados para determinar o um modo da pluralidade de modos de configuração (760) ser sinalizado uma vez no fluxo de bits.
14. Dispositivo, de acordo com a reivindicação 12, caracterizado pelo valor com base no qual o um ou mais processadores são configurados para determinar o um modo da pluralidade de modos de configuração (760) ser sinalizado no fluxo de bits em uma base de unidade por acesso ou por quadro.
15. Memória legível por computador caracterizada por compreender instruções armazenadas na mesma que, quando executadas, fazem com que um ou mais processadores realizem um método conforme definido em qualquer uma das reivindicações 1 a 6.
BR112015030102-9A 2013-05-29 2014-05-29 Compressão de representações decompostas de campo sonoro BR112015030102B1 (pt)

Applications Claiming Priority (39)

Application Number Priority Date Filing Date Title
US201361828615P 2013-05-29 2013-05-29
US201361828445P 2013-05-29 2013-05-29
US61/828,445 2013-05-29
US61/828,615 2013-05-29
US201361829174P 2013-05-30 2013-05-30
US201361829155P 2013-05-30 2013-05-30
US201361829182P 2013-05-30 2013-05-30
US61/829,155 2013-05-30
US61/829,182 2013-05-30
US61/829,174 2013-05-30
US201361829791P 2013-05-31 2013-05-31
US201361829846P 2013-05-31 2013-05-31
US61/829,846 2013-05-31
US61/829,791 2013-05-31
US201361886605P 2013-10-03 2013-10-03
US201361886617P 2013-10-03 2013-10-03
US61/886,605 2013-10-03
US61/886,617 2013-10-03
US201361899041P 2013-11-01 2013-11-01
US201361899034P 2013-11-01 2013-11-01
US61/899,041 2013-11-01
US61/899,034 2013-11-01
US201461925158P 2014-01-08 2014-01-08
US201461925074P 2014-01-08 2014-01-08
US201461925112P 2014-01-08 2014-01-08
US201461925126P 2014-01-08 2014-01-08
US61/925,126 2014-01-08
US61/925,158 2014-01-08
US61/925,112 2014-01-08
US61/925,074 2014-01-08
US201461933706P 2014-01-30 2014-01-30
US201461933721P 2014-01-30 2014-01-30
US61/933,706 2014-01-30
US61/933,721 2014-01-30
US201462003515P 2014-05-27 2014-05-27
US62/003,515 2014-05-27
US14/289,551 US9502044B2 (en) 2013-05-29 2014-05-28 Compression of decomposed representations of a sound field
US14/289,551 2014-05-28
PCT/US2014/040025 WO2014194090A1 (en) 2013-05-29 2014-05-29 Compression of decomposed representations of a sound field

Publications (2)

Publication Number Publication Date
BR112015030102A2 BR112015030102A2 (pt) 2020-07-14
BR112015030102B1 true BR112015030102B1 (pt) 2022-08-23

Family

ID=51985123

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015030102-9A BR112015030102B1 (pt) 2013-05-29 2014-05-29 Compressão de representações decompostas de campo sonoro

Country Status (20)

Country Link
US (15) US9883312B2 (pt)
EP (8) EP3005360B1 (pt)
JP (6) JP6121625B2 (pt)
KR (11) KR102407554B1 (pt)
CN (7) CN105264598B (pt)
AU (1) AU2014274076B2 (pt)
BR (1) BR112015030102B1 (pt)
CA (1) CA2912810C (pt)
ES (4) ES2764384T3 (pt)
HK (1) HK1215752A1 (pt)
HU (3) HUE033545T2 (pt)
IL (1) IL242648B (pt)
MY (1) MY174865A (pt)
PH (1) PH12015502634B1 (pt)
RU (1) RU2668059C2 (pt)
SG (1) SG11201509462VA (pt)
TW (2) TW201509200A (pt)
UA (1) UA116140C2 (pt)
WO (12) WO2014194106A1 (pt)
ZA (1) ZA201509227B (pt)

Families Citing this family (117)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9913064B2 (en) 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US10178489B2 (en) 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US9883310B2 (en) 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US9691406B2 (en) * 2013-06-05 2017-06-27 Dolby Laboratories Licensing Corporation Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US20150243292A1 (en) 2014-02-25 2015-08-27 Qualcomm Incorporated Order format signaling for higher-order ambisonic audio data
US10412522B2 (en) 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
EP2922057A1 (en) * 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9959876B2 (en) 2014-05-16 2018-05-01 Qualcomm Incorporated Closed loop quantization of higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10134403B2 (en) 2014-05-16 2018-11-20 Qualcomm Incorporated Crossfading between higher order ambisonic signals
US20150332682A1 (en) 2014-05-16 2015-11-19 Qualcomm Incorporated Spatial relation coding for higher order ambisonic coefficients
US9847087B2 (en) 2014-05-16 2017-12-19 Qualcomm Incorporated Higher order ambisonics signal compression
US20150347392A1 (en) * 2014-05-29 2015-12-03 International Business Machines Corporation Real-time filtering of massive time series sets for social media trends
CN106465029B (zh) 2014-05-30 2018-05-08 高通股份有限公司 用于渲染高阶立体混响系数及产生位流的装置和方法
EP2960903A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
US9838819B2 (en) 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
US9536531B2 (en) * 2014-08-01 2017-01-03 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9847088B2 (en) 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data
US20160093308A1 (en) 2014-09-26 2016-03-31 Qualcomm Incorporated Predictive vector quantization techniques in a higher order ambisonics (hoa) framework
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US9875745B2 (en) 2014-10-07 2018-01-23 Qualcomm Incorporated Normalization of ambient higher order ambisonic audio data
US9940937B2 (en) 2014-10-10 2018-04-10 Qualcomm Incorporated Screen related adaptation of HOA content
US10140996B2 (en) 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US9984693B2 (en) 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
CN113242448B (zh) * 2015-06-02 2023-07-14 索尼公司 发送装置和方法、媒体处理装置和方法以及接收装置
US10468037B2 (en) 2015-07-30 2019-11-05 Dolby Laboratories Licensing Corporation Method and apparatus for generating from an HOA signal representation a mezzanine HOA signal representation
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
US10693936B2 (en) * 2015-08-25 2020-06-23 Qualcomm Incorporated Transporting coded audio data
US20170098452A1 (en) * 2015-10-02 2017-04-06 Dts, Inc. Method and system for audio processing of dialog, music, effect and height objects
US10249312B2 (en) 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
IL276591B2 (en) 2015-10-08 2023-09-01 Dolby Int Ab Layered coding for voice or compressed sound field representations
US9961475B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
MX2018004166A (es) 2015-10-08 2018-08-01 Dolby Int Ab Codificacion en capas y estructuras de datos para representaciones comprimidas, ambisonicas de mayor orden de sonido o campo de sonido.
US9961467B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US9959880B2 (en) 2015-10-14 2018-05-01 Qualcomm Incorporated Coding higher-order ambisonic coefficients during multiple transitions
US10070094B2 (en) 2015-10-14 2018-09-04 Qualcomm Incorporated Screen related adaptation of higher order ambisonic (HOA) content
US10600425B2 (en) * 2015-11-17 2020-03-24 Dolby Laboratories Licensing Corporation Method and apparatus for converting a channel-based 3D audio signal to an HOA audio signal
EP3174316B1 (en) * 2015-11-27 2020-02-26 Nokia Technologies Oy Intelligent audio rendering
EP3188504B1 (en) 2016-01-04 2020-07-29 Harman Becker Automotive Systems GmbH Multi-media reproduction for a multiplicity of recipients
WO2017119318A1 (ja) * 2016-01-08 2017-07-13 ソニー株式会社 音声処理装置および方法、並びにプログラム
BR112018007276A2 (pt) 2016-03-15 2018-10-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. aparelho, método ou programa de computador para gerar uma descrição de campo de som
CN109526234B (zh) * 2016-06-30 2023-09-01 杜塞尔多夫华为技术有限公司 对多声道音频信号进行编码和解码的装置和方法
KR102561371B1 (ko) * 2016-07-11 2023-08-01 삼성전자주식회사 디스플레이장치와, 기록매체
WO2018064528A1 (en) * 2016-09-29 2018-04-05 The Trustees Of Princeton University Ambisonic navigation of sound fields from an array of microphones
CN107945810B (zh) * 2016-10-13 2021-12-14 杭州米谟科技有限公司 用于编码和解码hoa或多声道数据的方法和装置
US20180107926A1 (en) * 2016-10-19 2018-04-19 Samsung Electronics Co., Ltd. Method and apparatus for neural network quantization
US11321609B2 (en) 2016-10-19 2022-05-03 Samsung Electronics Co., Ltd Method and apparatus for neural network quantization
US20180124540A1 (en) * 2016-10-31 2018-05-03 Google Llc Projection-based audio coding
CN108206021B (zh) * 2016-12-16 2020-12-18 南京青衿信息科技有限公司 一种后向兼容式三维声编码器、解码器及其编解码方法
KR20190118212A (ko) * 2017-01-24 2019-10-18 주식회사 알티스트 차량 상태 모니터링 시스템 및 방법
US10455321B2 (en) 2017-04-28 2019-10-22 Qualcomm Incorporated Microphone configurations
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US11277705B2 (en) 2017-05-15 2022-03-15 Dolby Laboratories Licensing Corporation Methods, systems and apparatus for conversion of spatial audio format(s) to speaker signals
US10390166B2 (en) * 2017-05-31 2019-08-20 Qualcomm Incorporated System and method for mixing and adjusting multi-input ambisonics
AU2018298874C1 (en) 2017-07-14 2023-10-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
WO2019012133A1 (en) 2017-07-14 2019-01-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. CONCEPT OF GENERATING AN ENHANCED AUDIO FIELD DESCRIPTION OR A MODIFIED AUDIO FIELD DESCRIPTION USING A MULTILAYER DESCRIPTION
KR102568365B1 (ko) 2017-07-14 2023-08-18 프라운 호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 깊이-확장형 DirAC 기술 또는 기타 기술을 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
US10075802B1 (en) 2017-08-08 2018-09-11 Qualcomm Incorporated Bitrate allocation for higher order ambisonic audio data
US10674301B2 (en) * 2017-08-25 2020-06-02 Google Llc Fast and memory efficient encoding of sound objects using spherical harmonic symmetries
US10764684B1 (en) 2017-09-29 2020-09-01 Katherine A. Franco Binaural audio using an arbitrarily shaped microphone array
US10972851B2 (en) * 2017-10-05 2021-04-06 Qualcomm Incorporated Spatial relation coding of higher order ambisonic coefficients
CN111164679B (zh) 2017-10-05 2024-04-09 索尼公司 编码装置和方法、解码装置和方法以及程序
SG11202004389VA (en) * 2017-11-17 2020-06-29 Fraunhofer Ges Forschung Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding
US10595146B2 (en) 2017-12-21 2020-03-17 Verizon Patent And Licensing Inc. Methods and systems for extracting location-diffused ambient sound from a real-world scene
EP3506080B1 (en) * 2017-12-27 2023-06-07 Nokia Technologies Oy Audio scene processing
US11409923B1 (en) * 2018-01-22 2022-08-09 Ansys, Inc Systems and methods for generating reduced order models
FR3079706B1 (fr) * 2018-03-29 2021-06-04 Inst Mines Telecom Procede et systeme de diffusion d'un flux audio multicanal a des terminaux de spectateurs assistant a un evenement sportif
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
US10672405B2 (en) * 2018-05-07 2020-06-02 Google Llc Objective quality metrics for ambisonic spatial audio
CN108831494B (zh) * 2018-05-29 2022-07-19 平安科技(深圳)有限公司 语音增强方法、装置、计算机设备及存储介质
GB2574873A (en) * 2018-06-21 2019-12-25 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
US10999693B2 (en) 2018-06-25 2021-05-04 Qualcomm Incorporated Rendering different portions of audio data using different renderers
US11798569B2 (en) 2018-10-02 2023-10-24 Qualcomm Incorporated Flexible rendering of audio data
WO2020084170A1 (en) * 2018-10-26 2020-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Directional loudness map based audio processing
JP7213364B2 (ja) 2018-10-31 2023-01-26 ノキア テクノロジーズ オーユー 空間オーディオパラメータの符号化及び対応する復号の決定
GB2578625A (en) * 2018-11-01 2020-05-20 Nokia Technologies Oy Apparatus, methods and computer programs for encoding spatial metadata
JP7311602B2 (ja) * 2018-12-07 2023-07-19 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 低次、中次、高次成分生成器を用いたDirACベースの空間音声符号化に関する符号化、復号化、シーン処理および他の手順を行う装置、方法およびコンピュータプログラム
FR3090179B1 (fr) * 2018-12-14 2021-04-09 Fond B Com Procédé d’interpolation d’un champ sonore, produit programme d’ordinateur et dispositif correspondants.
AU2019409705B2 (en) * 2018-12-19 2023-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source
KR102277952B1 (ko) * 2019-01-11 2021-07-19 브레인소프트주식회사 디제이 변환에 의한 주파수 추출 방법
EP3706119A1 (fr) * 2019-03-05 2020-09-09 Orange Codage audio spatialisé avec interpolation et quantification de rotations
GB2582748A (en) * 2019-03-27 2020-10-07 Nokia Technologies Oy Sound field related rendering
RU2722223C1 (ru) * 2019-04-16 2020-05-28 Вадим Иванович Филиппов Способ сжатия многомерных образов путем приближения элементов пространств Lp{ (0, 1]m} , p больше или равно 1 и меньше бесконечности, по системам сжатий и сдвигов одной функции рядами типа Фурье с целыми коэффциентами и целочисленное разложение элементов многомодулярных пространств
US11538489B2 (en) * 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
US20200402523A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Psychoacoustic audio coding of ambisonic audio data
GB2586214A (en) * 2019-07-31 2021-02-17 Nokia Technologies Oy Quantization of spatial audio direction parameters
JP7270836B2 (ja) 2019-08-08 2023-05-10 ブームクラウド 360 インコーポレイテッド 音響心理学的周波数範囲拡張のための非線形適応フィルタバンク
CN114303392A (zh) * 2019-08-30 2022-04-08 杜比实验室特许公司 多声道音频信号的声道标识
GB2587196A (en) * 2019-09-13 2021-03-24 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
CN110708647B (zh) * 2019-10-29 2020-12-25 扆亮海 一种球面分配引导的数据匹配立体声场重构方法
US11636866B2 (en) * 2020-03-24 2023-04-25 Qualcomm Incorporated Transform ambisonic coefficients using an adaptive network
CN113593585A (zh) * 2020-04-30 2021-11-02 华为技术有限公司 音频信号的比特分配方法和装置
GB2595871A (en) * 2020-06-09 2021-12-15 Nokia Technologies Oy The reduction of spatial audio parameters
KR20230003546A (ko) * 2020-08-28 2023-01-06 구글 엘엘씨 오디오 코덱의 감각 불협화음 및 사운드 정위 큐의 불변성 유지
FR3113993B1 (fr) * 2020-09-09 2023-02-24 Arkamys Procédé de spatialisation sonore
WO2022066313A1 (en) * 2020-09-25 2022-03-31 Apple Inc. Higher order ambisonics encoding and decoding
CN112327398B (zh) * 2020-11-20 2022-03-08 中国科学院上海光学精密机械研究所 一种矢量补偿体布拉格光栅角度偏转器的制备方法
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
US11521623B2 (en) 2021-01-11 2022-12-06 Bank Of America Corporation System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording
CN113518299B (zh) * 2021-04-30 2022-06-03 电子科技大学 一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质
CN113345448B (zh) * 2021-05-12 2022-08-05 北京大学 一种基于独立成分分析的hoa信号压缩方法
CN115376527A (zh) * 2021-05-17 2022-11-22 华为技术有限公司 三维音频信号编码方法、装置和编码器
CN113378063B (zh) * 2021-07-09 2023-07-28 小红书科技有限公司 一种基于滑动谱分解确定内容多样性的方法和内容排序方法
WO2023008831A1 (ko) * 2021-07-27 2023-02-02 브레인소프트 주식회사 해석적 방법에 기반한 디제이 변환 주파수 추출 방법
US20230051841A1 (en) * 2021-07-30 2023-02-16 Qualcomm Incorporated Xr rendering for 3d audio content and audio codec
CN113647978B (zh) * 2021-08-18 2023-11-21 重庆大学 一种带有截断因子的高鲁棒性符号相干系数超声成像方法

Family Cites Families (209)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1159034B (it) 1983-06-10 1987-02-25 Cselt Centro Studi Lab Telecom Sintetizzatore vocale
US4972344A (en) 1986-05-30 1990-11-20 Finial Technology, Inc. Dual beam optical turntable
US5012518A (en) 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5363050A (en) 1990-08-31 1994-11-08 Guo Wendy W Quantitative dielectric imaging system
US5583962A (en) 1991-01-08 1996-12-10 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5757927A (en) 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
JP2626492B2 (ja) 1993-09-13 1997-07-02 日本電気株式会社 ベクトル量子化装置
US5790759A (en) 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
US5819215A (en) 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
JP3707116B2 (ja) 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3849210B2 (ja) 1996-09-24 2006-11-22 ヤマハ株式会社 音声符号化復号方式
US5821887A (en) 1996-11-12 1998-10-13 Intel Corporation Method and apparatus for decoding variable length codes
US6167375A (en) 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
US6072878A (en) 1997-09-24 2000-06-06 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics
US6263312B1 (en) 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
JP3211762B2 (ja) 1997-12-12 2001-09-25 日本電気株式会社 音声及び音楽符号化方式
AUPP272698A0 (en) 1998-03-31 1998-04-23 Lake Dsp Pty Limited Soundfield playback from a single speaker system
EP1018840A3 (en) 1998-12-08 2005-12-21 Canon Kabushiki Kaisha Digital receiving apparatus and method
US6418408B1 (en) 1999-04-05 2002-07-09 Hughes Electronics Corporation Frequency domain interpolative speech codec system
US6370502B1 (en) 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US20020049586A1 (en) * 2000-09-11 2002-04-25 Kousuke Nishio Audio encoder, audio decoder, and broadcasting system
JP2002094989A (ja) 2000-09-14 2002-03-29 Pioneer Electronic Corp ビデオ信号符号化装置及びビデオ信号符号化方法
US7660424B2 (en) 2001-02-07 2010-02-09 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US20020169735A1 (en) 2001-03-07 2002-11-14 David Kil Automatic mapping from data to preprocessing algorithms
GB2379147B (en) 2001-04-18 2003-10-22 Univ York Sound processing
US20030147539A1 (en) 2002-01-11 2003-08-07 Mh Acoustics, Llc, A Delaware Corporation Audio system based on at least second-order eigenbeams
US7031894B2 (en) 2002-01-16 2006-04-18 Timbre Technologies, Inc. Generating a library of simulated-diffraction signals and hypothetical profiles of periodic gratings
US7262770B2 (en) 2002-03-21 2007-08-28 Microsoft Corporation Graphics image rendering with radiance self-transfer for low-frequency lighting environments
US20030223603A1 (en) * 2002-05-28 2003-12-04 Beckman Kenneth Oren Sound space replication
US8160269B2 (en) 2003-08-27 2012-04-17 Sony Computer Entertainment Inc. Methods and apparatuses for adjusting a listening area for capturing sounds
EP2282310B1 (en) 2002-09-04 2012-01-25 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
FR2844894B1 (fr) * 2002-09-23 2004-12-17 Remy Henri Denis Bruno Procede et systeme de traitement d'une representation d'un champ acoustique
US7330812B2 (en) * 2002-10-04 2008-02-12 National Research Council Of Canada Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel
FR2847376B1 (fr) 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
US6961696B2 (en) 2003-02-07 2005-11-01 Motorola, Inc. Class quantization for distributed speech recognition
FI115324B (fi) 2003-03-14 2005-04-15 Elekta Neuromag Oy Menetelmä ja järjestelmä monikanavaisen mittaussignaalin käsittelemiseksi
US7558393B2 (en) 2003-03-18 2009-07-07 Miller Iii Robert E System and method for compatible 2D/3D (full sphere with height) surround sound reproduction
US7920709B1 (en) 2003-03-25 2011-04-05 Robert Hickling Vector sound-intensity probes operating in a half-space
JP2005086486A (ja) 2003-09-09 2005-03-31 Alpine Electronics Inc オーディオ装置およびオーディオ処理方法
US7433815B2 (en) 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
KR100556911B1 (ko) 2003-12-05 2006-03-03 엘지전자 주식회사 무선 동영상 스트리밍 서비스를 위한 동영상 데이터의 구조
KR100629997B1 (ko) 2004-02-26 2006-09-27 엘지전자 주식회사 오디오 신호의 인코딩 방법
US7283634B2 (en) 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
US7630902B2 (en) 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
FR2880755A1 (fr) 2005-01-10 2006-07-14 France Telecom Procede et dispositif d'individualisation de hrtfs par modelisation
KR100636229B1 (ko) 2005-01-14 2006-10-19 학교법인 성균관대학 신축형 부호화를 위한 적응적 엔트로피 부호화 및 복호화방법과 그 장치
JP5012504B2 (ja) 2005-03-30 2012-08-29 アイシン・エィ・ダブリュ株式会社 車両用ナビゲーションシステム
WO2006122146A2 (en) 2005-05-10 2006-11-16 William Marsh Rice University Method and apparatus for distributed compressed sensing
JP2008542816A (ja) * 2005-05-26 2008-11-27 エルジー エレクトロニクス インコーポレイティド オーディオ信号の符号化及び復号化方法
ATE378793T1 (de) 2005-06-23 2007-11-15 Akg Acoustics Gmbh Methode zur modellierung eines mikrofons
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
EP1943642A4 (en) 2005-09-27 2009-07-01 Lg Electronics Inc METHOD AND DEVICE FOR CODING / DECODING A MULTI-CHANNEL AUDIO SIGNAL
US8510105B2 (en) 2005-10-21 2013-08-13 Nokia Corporation Compression and decompression of data vectors
WO2007048900A1 (fr) * 2005-10-27 2007-05-03 France Telecom Individualisation de hrtfs utilisant une modelisation par elements finis couplee a un modele correctif
US8190425B2 (en) 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
CN101385077B (zh) 2006-02-07 2012-04-11 Lg电子株式会社 用于编码/解码信号的装置和方法
EP1853092B1 (en) 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
US8712061B2 (en) 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US8345899B2 (en) 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
US7877253B2 (en) 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
DE102006053919A1 (de) 2006-10-11 2008-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert
US7966175B2 (en) 2006-10-18 2011-06-21 Polycom, Inc. Fast lattice vector quantization
WO2008063035A1 (en) 2006-11-24 2008-05-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
CA2670864C (en) * 2006-12-07 2015-09-29 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US7663623B2 (en) 2006-12-18 2010-02-16 Microsoft Corporation Spherical harmonics scaling
JP2008227946A (ja) 2007-03-13 2008-09-25 Toshiba Corp 画像復号装置
US8290167B2 (en) 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US8908873B2 (en) 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US9015051B2 (en) 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
JP5686594B2 (ja) 2007-04-12 2015-03-18 トムソン ライセンシングThomson Licensing スケーラブル・ビデオ符号化のためのビデオ・ユーザビリティ情報(vui)用の方法及び装置
US8180062B2 (en) 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US20080298610A1 (en) * 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
JP5291096B2 (ja) * 2007-06-08 2013-09-18 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
WO2009007639A1 (fr) 2007-07-03 2009-01-15 France Telecom Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe
ATE479182T1 (de) 2007-07-30 2010-09-15 Global Ip Solutions Gips Ab Audiodekoder mit geringer verzögerung
US8463615B2 (en) 2007-07-30 2013-06-11 Google Inc. Low-delay audio coder
WO2009033288A1 (en) 2007-09-11 2009-03-19 Voiceage Corporation Method and device for fast algebraic codebook search in speech and audio coding
CN101884065B (zh) 2007-10-03 2013-07-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成的方法
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
WO2009067741A1 (en) 2007-11-27 2009-06-04 Acouity Pty Ltd Bandwidth compression of parametric soundfield representations for transmission and storage
WO2009090876A1 (ja) 2008-01-16 2009-07-23 Panasonic Corporation ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
EP2094032A1 (en) 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
AU2009220321B2 (en) 2008-03-03 2011-09-22 Intellectual Discovery Co., Ltd. Method and apparatus for processing audio signal
EP2296145B1 (en) 2008-03-10 2019-05-22 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Device and method for manipulating an audio signal having a transient event
US8219409B2 (en) 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
CN102077108B (zh) 2008-04-28 2015-02-25 康奈尔大学 分子mri中的磁敏度精确量化
US8184298B2 (en) 2008-05-21 2012-05-22 The Board Of Trustees Of The University Of Illinois Spatial light interference microscopy and fourier transform light scattering for cell and tissue characterization
JP5383676B2 (ja) 2008-05-30 2014-01-08 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US8848481B2 (en) 2008-07-08 2014-09-30 Bruel & Kjaer Sound & Vibration Measurement A/S Reconstructing an acoustic field
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
JP5697301B2 (ja) 2008-10-01 2015-04-08 株式会社Nttドコモ 動画像符号化装置、動画像復号装置、動画像符号化方法、動画像復号方法、動画像符号化プログラム、動画像復号プログラム、及び動画像符号化・復号システム
GB0817950D0 (en) 2008-10-01 2008-11-05 Univ Southampton Apparatus and method for sound reproduction
US8207890B2 (en) 2008-10-08 2012-06-26 Qualcomm Atheros, Inc. Providing ephemeris data and clock corrections to a satellite navigation system receiver
US8391500B2 (en) 2008-10-17 2013-03-05 University Of Kentucky Research Foundation Method and system for creating three-dimensional spatial audio
FR2938688A1 (fr) 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
ES2733878T3 (es) 2008-12-15 2019-12-03 Orange Codificación mejorada de señales de audio digitales multicanales
WO2010076460A1 (fr) 2008-12-15 2010-07-08 France Telecom Codage perfectionne de signaux audionumériques multicanaux
US8332229B2 (en) 2008-12-30 2012-12-11 Stmicroelectronics Asia Pacific Pte. Ltd. Low complexity MPEG encoding for surround sound recordings
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
WO2010086342A1 (en) 2009-01-28 2010-08-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding an input audio information, method for decoding an input audio information and computer program using improved coding tables
GB2467534B (en) 2009-02-04 2014-12-24 Richard Furse Sound system
JP5163545B2 (ja) 2009-03-05 2013-03-13 富士通株式会社 オーディオ復号装置及びオーディオ復号方法
EP2237270B1 (en) 2009-03-30 2012-07-04 Nuance Communications, Inc. A method for determining a noise reference signal for noise compensation and/or noise reduction
GB0906269D0 (en) 2009-04-09 2009-05-20 Ntnu Technology Transfer As Optimal modal beamformer for sensor arrays
US8629600B2 (en) 2009-05-08 2014-01-14 University Of Utah Research Foundation Annular thermoacoustic energy converter
US8570291B2 (en) 2009-05-21 2013-10-29 Panasonic Corporation Tactile processing device
ES2524428T3 (es) * 2009-06-24 2014-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio
EP2285139B1 (en) 2009-06-25 2018-08-08 Harpex Ltd. Device and method for converting spatial audio signal
EP2486561B1 (en) 2009-10-07 2016-03-30 The University Of Sydney Reconstruction of a recorded sound field
AU2009353896B2 (en) 2009-10-15 2013-05-23 Widex A/S Hearing aid with audio codec and method
JP5746974B2 (ja) 2009-11-13 2015-07-08 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置およびこれらの方法
JP5427565B2 (ja) * 2009-11-24 2014-02-26 株式会社日立製作所 Mri装置用磁場調整
EP2510515B1 (en) 2009-12-07 2014-03-19 Dolby Laboratories Licensing Corporation Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
CN102104452B (zh) 2009-12-22 2013-09-11 华为技术有限公司 信道状态信息反馈方法、信道状态信息获得方法及设备
TWI443646B (zh) 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
US9058803B2 (en) 2010-02-26 2015-06-16 Orange Multichannel audio stream compression
ES2461183T3 (es) 2010-03-10 2014-05-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Decodificador de señales de audio, codificador de señales de audio, procedimiento para decodificar una señal de audio, método para codificar una señal de audio y programa de ordenador que utilizan una adaptación dependiente de la frecuencia de un contexto de codificación
ES2472456T3 (es) 2010-03-26 2014-07-01 Thomson Licensing Método y dispositivo para decodificar una representación de un campo ac�stico de audio para reproducción de audio
EP2375410B1 (en) 2010-03-29 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
TW201214415A (en) 2010-05-28 2012-04-01 Fraunhofer Ges Forschung Low-delay unified speech and audio codec
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US9357229B2 (en) 2010-07-28 2016-05-31 Qualcomm Incorporated Coding motion vectors in video coding
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
NZ587483A (en) 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
WO2012025580A1 (en) * 2010-08-27 2012-03-01 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
CN101977349A (zh) 2010-09-29 2011-02-16 华南理工大学 Ambisonic声重发系统解码的优化改进方法
US20120093323A1 (en) 2010-10-14 2012-04-19 Samsung Electronics Co., Ltd. Audio system and method of down mixing audio signals using the same
US9084049B2 (en) 2010-10-14 2015-07-14 Dolby Laboratories Licensing Corporation Automatic equalization using adaptive frequency-domain filtering and dynamic fast convolution
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
EP2450880A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2451196A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three
KR101401775B1 (ko) 2010-11-10 2014-05-30 한국전자통신연구원 스피커 어레이 기반 음장 합성을 이용한 음장 재생 장치 및 방법
US9448289B2 (en) 2010-11-23 2016-09-20 Cornell University Background field removal method for MRI using projection onto dipole fields
ES2643163T3 (es) 2010-12-03 2017-11-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para codificación de audio espacial basada en geometría
EP2464145A1 (en) * 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a downmixer
EP2469741A1 (en) 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
US20120163622A1 (en) 2010-12-28 2012-06-28 Stmicroelectronics Asia Pacific Pte Ltd Noise detection and reduction in audio devices
CA2823907A1 (en) 2011-01-06 2012-07-12 Hank Risan Synthetic simulation of a media recording
US9008176B2 (en) 2011-01-22 2015-04-14 Qualcomm Incorporated Combined reference picture list construction for video coding
US20120189052A1 (en) 2011-01-24 2012-07-26 Qualcomm Incorporated Signaling quantization parameter changes for coded units in high efficiency video coding (hevc)
CN103339670B (zh) * 2011-02-03 2015-09-09 瑞典爱立信有限公司 确定多通道音频信号的通道间时间差
US9165558B2 (en) 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
MX2013012301A (es) 2011-04-21 2013-12-06 Samsung Electronics Co Ltd Aparato para cuantificar coeficientes de codificacion predictiva lineal, aparato de codificacion de sonido, aparato para decuantificar coeficientes de codificacion predictiva lineal, aparato de decodificacion de sonido y dispositivo electronico para los mismos.
EP2541547A1 (en) 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
TWI651005B (zh) * 2011-07-01 2019-02-11 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US9641951B2 (en) 2011-08-10 2017-05-02 The Johns Hopkins University System and method for fast binaural rendering of complex acoustic scenes
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
EP2592845A1 (en) 2011-11-11 2013-05-15 Thomson Licensing Method and Apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
EP2592846A1 (en) 2011-11-11 2013-05-15 Thomson Licensing Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
EP2600343A1 (en) 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
KR101590332B1 (ko) 2012-01-09 2016-02-18 삼성전자주식회사 영상장치 및 그 제어방법
RU2014133903A (ru) 2012-01-19 2016-03-20 Конинклейке Филипс Н.В. Пространственные рендеризация и кодирование аудиосигнала
EP2637427A1 (en) 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2645748A1 (en) 2012-03-28 2013-10-02 Thomson Licensing Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal
WO2013156818A1 (en) * 2012-04-19 2013-10-24 Nokia Corporation An audio scene apparatus
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US20140086416A1 (en) * 2012-07-15 2014-03-27 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
KR102079680B1 (ko) 2012-07-16 2020-02-20 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
TWI590234B (zh) 2012-07-19 2017-07-01 杜比國際公司 編碼聲訊資料之方法和裝置,以及解碼已編碼聲訊資料之方法和裝置
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
JP5967571B2 (ja) 2012-07-26 2016-08-10 本田技研工業株式会社 音響信号処理装置、音響信号処理方法、及び音響信号処理プログラム
PL2915166T3 (pl) * 2012-10-30 2019-04-30 Nokia Technologies Oy Sposób i urządzenie do kwantyzacji odpornego wektora
US9336771B2 (en) 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9913064B2 (en) 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
EP2765791A1 (en) 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
US9883310B2 (en) * 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US10178489B2 (en) 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US9338420B2 (en) 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
CN104010265A (zh) * 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
US9685163B2 (en) 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients
MY179136A (en) 2013-03-05 2020-10-28 Fraunhofer Ges Forschung Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
US9197962B2 (en) 2013-03-15 2015-11-24 Mh Acoustics Llc Polyhedral audio system based on at least second-order eigenbeams
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
CN105191354B (zh) 2013-05-16 2018-07-24 皇家飞利浦有限公司 音频处理装置及其方法
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9384741B2 (en) 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US9691406B2 (en) * 2013-06-05 2017-06-27 Dolby Laboratories Licensing Corporation Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals
EP3017446B1 (en) * 2013-07-05 2021-08-25 Dolby International AB Enhanced soundfield coding using parametric component generation
TWI673707B (zh) 2013-07-19 2019-10-01 瑞典商杜比國際公司 將以L<sub>1</sub>個頻道為基礎之輸入聲音訊號產生至L<sub>2</sub>個揚聲器頻道之方法及裝置,以及得到一能量保留混音矩陣之方法及裝置,用以將以輸入頻道為基礎之聲音訊號混音以用於L<sub>1</sub>個聲音頻道至L<sub>2</sub>個揚聲器頻道
US20150127354A1 (en) 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US20150243292A1 (en) * 2014-02-25 2015-08-27 Qualcomm Incorporated Order format signaling for higher-order ambisonic audio data
US20150264483A1 (en) 2014-03-14 2015-09-17 Qualcomm Incorporated Low frequency rendering of higher-order ambisonic audio data
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9959876B2 (en) * 2014-05-16 2018-05-01 Qualcomm Incorporated Closed loop quantization of higher order ambisonic coefficients
US20150332682A1 (en) * 2014-05-16 2015-11-19 Qualcomm Incorporated Spatial relation coding for higher order ambisonic coefficients
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US10142642B2 (en) 2014-06-04 2018-11-27 Qualcomm Incorporated Block adaptive color-space conversion coding
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US20160093308A1 (en) 2014-09-26 2016-03-31 Qualcomm Incorporated Predictive vector quantization techniques in a higher order ambisonics (hoa) framework

Also Published As

Publication number Publication date
KR20160015264A (ko) 2016-02-12
US9980074B2 (en) 2018-05-22
WO2014194084A1 (en) 2014-12-04
EP3107093A1 (en) 2016-12-21
EP3107094B1 (en) 2018-07-04
CN105284131A (zh) 2016-01-27
US9749768B2 (en) 2017-08-29
US20140355771A1 (en) 2014-12-04
UA116140C2 (uk) 2018-02-12
KR20160016877A (ko) 2016-02-15
JP2017199013A (ja) 2017-11-02
KR20160013133A (ko) 2016-02-03
CN105340009B (zh) 2019-08-09
JP6449256B2 (ja) 2019-01-09
US9769586B2 (en) 2017-09-19
US20140355770A1 (en) 2014-12-04
JP6185159B2 (ja) 2017-08-23
US20220030372A1 (en) 2022-01-27
RU2015151021A (ru) 2017-07-04
US11146903B2 (en) 2021-10-12
US20140358562A1 (en) 2014-12-04
KR101795900B1 (ko) 2017-11-08
WO2014194080A1 (en) 2014-12-04
EP3107095A1 (en) 2016-12-21
IL242648B (en) 2018-12-31
US10499176B2 (en) 2019-12-03
PH12015502634A1 (en) 2016-03-07
WO2014194090A9 (en) 2015-03-26
US9774977B2 (en) 2017-09-26
US20140358564A1 (en) 2014-12-04
EP3005361A1 (en) 2016-04-13
CA2912810A1 (en) 2014-12-04
WO2014194075A1 (en) 2014-12-04
CN105917407A (zh) 2016-08-31
KR20160016881A (ko) 2016-02-15
US20140358565A1 (en) 2014-12-04
US9502044B2 (en) 2016-11-22
CN105580072B (zh) 2019-10-22
HK1215752A1 (zh) 2016-09-09
ES2641175T3 (es) 2017-11-08
HUE039457T2 (hu) 2019-01-28
ES2689566T3 (es) 2018-11-14
JP2017142520A (ja) 2017-08-17
US9495968B2 (en) 2016-11-15
EP3005359B1 (en) 2017-05-10
JP2016524727A (ja) 2016-08-18
ES2635327T3 (es) 2017-10-03
EP3005358B1 (en) 2017-06-28
EP3005360A1 (en) 2016-04-13
PH12015502634B1 (en) 2016-03-07
MY174865A (en) 2020-05-19
CN105284132A (zh) 2016-01-27
WO2014194106A1 (en) 2014-12-04
EP3107095B1 (en) 2019-10-02
KR20210094128A (ko) 2021-07-28
CN105917407B (zh) 2020-04-24
WO2014194116A1 (en) 2014-12-04
WO2014194115A1 (en) 2014-12-04
WO2014194099A1 (en) 2014-12-04
JP6121625B2 (ja) 2017-04-26
KR101877605B1 (ko) 2018-07-12
EP3107094A1 (en) 2016-12-21
US9883312B2 (en) 2018-01-30
EP3005358A1 (en) 2016-04-13
CN105284132B (zh) 2018-02-02
SG11201509462VA (en) 2015-12-30
US9854377B2 (en) 2017-12-26
JP6345771B2 (ja) 2018-06-20
HUE046520T2 (hu) 2020-03-30
US20140358560A1 (en) 2014-12-04
TW201511583A (zh) 2015-03-16
CN110767242A (zh) 2020-02-07
US9763019B2 (en) 2017-09-12
AU2014274076B2 (en) 2019-11-21
US11962990B2 (en) 2024-04-16
KR20160013125A (ko) 2016-02-03
TWI645723B (zh) 2018-12-21
KR101929092B1 (ko) 2018-12-13
HUE033545T2 (hu) 2017-12-28
US20140358266A1 (en) 2014-12-04
TW201509200A (zh) 2015-03-01
KR101961986B1 (ko) 2019-03-25
KR20160013132A (ko) 2016-02-03
WO2014194090A1 (en) 2014-12-04
KR20160016878A (ko) 2016-02-15
JP2016523468A (ja) 2016-08-08
CA2912810C (en) 2021-12-28
CN105284131B (zh) 2018-09-18
KR102407554B1 (ko) 2022-06-13
WO2014194107A1 (en) 2014-12-04
EP3005360B1 (en) 2017-05-03
WO2014194110A1 (en) 2014-12-04
ES2764384T3 (es) 2020-06-03
RU2668059C2 (ru) 2018-09-25
US20140358561A1 (en) 2014-12-04
US20140355769A1 (en) 2014-12-04
US20140358563A1 (en) 2014-12-04
JP6199519B2 (ja) 2017-09-20
CN105264598A (zh) 2016-01-20
JP6290498B2 (ja) 2018-03-07
EP3005359A1 (en) 2016-04-13
KR20160016885A (ko) 2016-02-15
EP3282448A2 (en) 2018-02-14
BR112015030102A2 (pt) 2020-07-14
AU2014274076A1 (en) 2015-12-24
WO2014194109A1 (en) 2014-12-04
US20140358558A1 (en) 2014-12-04
CN105580072A (zh) 2016-05-11
CN105264598B (zh) 2018-12-18
EP3282448A3 (en) 2018-04-11
JP2016523376A (ja) 2016-08-08
US20160366530A1 (en) 2016-12-15
EP3005361B1 (en) 2017-06-21
US20160381482A1 (en) 2016-12-29
ZA201509227B (en) 2022-01-26
KR20160016879A (ko) 2016-02-15
CN110767242B (zh) 2024-05-24
KR20160016883A (ko) 2016-02-15
WO2014194105A1 (en) 2014-12-04
US9716959B2 (en) 2017-07-25
US20140358559A1 (en) 2014-12-04
CN105340009A (zh) 2016-02-17
JP2016526189A (ja) 2016-09-01
KR102190201B1 (ko) 2020-12-11

Similar Documents

Publication Publication Date Title
US11962990B2 (en) Reordering of foreground audio objects in the ambisonics domain
US20150127354A1 (en) Near field compensation for decomposed representations of a sound field
BR112015030103B1 (pt) Compressão de representações decomposta de campo sonoro

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 29/05/2014, OBSERVADAS AS CONDICOES LEGAIS