BR122020017110B1 - METHOD AND APPARATUS FOR DECOMPRESSING A HIGHER ORDER (AOS) AMBISSONIC SIGNAL COMPRESSED AND COMPUTER READABLE IN A NON-TRANIOUS MEDIUM - Google Patents

METHOD AND APPARATUS FOR DECOMPRESSING A HIGHER ORDER (AOS) AMBISSONIC SIGNAL COMPRESSED AND COMPUTER READABLE IN A NON-TRANIOUS MEDIUM Download PDF

Info

Publication number
BR122020017110B1
BR122020017110B1 BR122020017110-3A BR122020017110A BR122020017110B1 BR 122020017110 B1 BR122020017110 B1 BR 122020017110B1 BR 122020017110 A BR122020017110 A BR 122020017110A BR 122020017110 B1 BR122020017110 B1 BR 122020017110B1
Authority
BR
Brazil
Prior art keywords
aos
signal
environmental
order
representation
Prior art date
Application number
BR122020017110-3A
Other languages
Portuguese (pt)
Inventor
Alexander Krüger
Sven Kordon
Johannes Boehm
Johann-Markus Batke
Original Assignee
Dolby International Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International Ab filed Critical Dolby International Ab
Publication of BR122020017110B1 publication Critical patent/BR122020017110B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other

Abstract

Ambisonics de Ordem Superior (AOS) representa um campo sonoro completo nas proximidades de um ponto perfeito, independente da configuração de alto-falante. A resolução espacial elevada requer um número elevado de coeficientes de AOS. Na invenção, direções sonoras dominantes são estimadas e a representação do sinal de AOS é decomposta em sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e um componente ambiental no domínio da AOS, seguido pela compressão do componente ambiental através da redução de sua ordem. O componente ambiental de ordem reduzida é transformado para o domínio espacial, e é codificado perceptivamente junto com os sinais direcionais. No lado do receptor, os sinais direcionais codificados e o componente ambiental codificado de ordem reduzida são perceptivamente descomprimidos, os sinais ambientais perceptivamente descomprimidos são transformados para uma representação do domínio da AOS de ordem reduzida, seguido pela extensão da ordem. A representação de AOS total é recomposta a partir dos sinais direcionais, das informações direcionais correspondentes, e do componente de AOS ambiental de ordem original.Higher Order Ambisonics (AOS) represents a complete sound field in the vicinity of a sweet spot, regardless of speaker configuration. High spatial resolution requires a high number of AOS coefficients. In the invention, dominant sound directions are estimated and the representation of the AOS signal is decomposed into dominant directional signals in the time domain and related directional information, and an environmental component in the AOS domain, followed by compressing the environmental component by reducing its order. The reduced-order environmental component is transformed to the spatial domain, and is perceptually encoded along with the directional signals. At the receiver side, the encoded directional signals and the reduced-order encoded environmental component are perceptually decompressed, the perceptually decompressed environmental signals are transformed to a reduced-order AOS domain representation, followed by order extension. The total AOS representation is recomposed from the directional signals, the corresponding directional information, and the original order environmental AOS component.

Description

Pedido dividido do BR112014028439-3, depositado em 06.05.2013.Split application for BR112014028439-3, filed on 05/06/2013.

[001]A invenção se refere a um método e a um aparelho para comprimir e descomprimir uma representação de sinal Ambissônico de Ordem Superior, em que componentes direcionais e ambientais são processados de maneira diferente.[001] The invention relates to a method and apparatus for compressing and decompressing a Higher Order Ambisonic signal representation, in which directional and environmental components are processed differently.

AntecedentesBackground

[002]Ambissônico de Ordem Superior (AOS) oferece a vantagem de capturar um campo sonoro completo nas proximidades de um local específico no espaço tridimensional, sendo esse local denominado “ponto perfeito” (sweet spot). Essa representação AOS independe de uma configuração de alto-falante específica, contrariamente às técnicas baseadas em canal, como estéreo ou surround. Mas esta flexibilidade ocorre à custa de um processo de decodificação necessário para reproduzir a representação AOS em uma configuração de alto-falante particular.[002] Higher Order Ambisonic (AOS) offers the advantage of capturing a complete sound field in the vicinity of a specific location in three-dimensional space, this location being called the “sweet spot”. This AOS representation is independent of a specific speaker configuration, unlike channel-based techniques such as stereo or surround. But this flexibility comes at the expense of a decoding process necessary to reproduce the AOS representation in a particular speaker configuration.

[003]AOS se baseia na descrição de amplitudes complexas da pressão do ar para números de onda angular individual k para as posições x nas proximidades de uma posição do ouvinte desejado, o qual, sem perda da generalidade, pode ser presumido como sendo a origem de um sistema esférico de coordenadas, utilizando uma expansão truncada da Harmônica Esférica (HE). A resolução espacial desta representação aumenta com uma ordem máxima crescente N da expansão. Infelizmente, o número de coeficientes de expansão 0 cresce quadraticamente com a ordem N, isto é, 0 = (N + 1)2. Por exemplo, representações AOS típicas que utilizam a ordem N = 4 requerem coeficientes AOS 0 = 25. Dada uma taxa de amostragem desejada fs e o número Nb de bits por amostra, a taxa de bit total para a transmissão de uma representação do sinal AOS é determinada por 0.fs.Nb, e a transmissão de uma representação do sinal AOS de ordem N = 4 com uma taxa de amostragem de fs=48kHz empregando Nb = 16 bits por amostra está resultando em uma taxa de bit de 19,2 MBits/s. Desse modo, a compressão das representações do sinal AOS é altamente desejável.[003] AOS is based on the description of complex air pressure amplitudes for individual angular wavenumbers k for positions x in the vicinity of a desired listener position, which, without loss of generality, can be assumed to be the origin of a spherical coordinate system, using a truncated expansion of the Spherical Harmonic (HE). The spatial resolution of this representation increases with an increasing maximum order N of the expansion. Unfortunately, the number of expansion coefficients 0 grows quadratically with order N, that is, 0 = (N + 1)2. For example, typical AOS representations using order N = 4 require AOS coefficients 0 = 25. Given a desired sampling rate fs and the number Nb of bits per sample, the total bit rate for transmitting an AOS signal representation is determined by 0.fs.Nb, and transmitting a representation of the AOS signal of order N = 4 with a sampling rate of fs=48kHz employing Nb = 16 bits per sample is resulting in a bit rate of 19.2 MBits/s. Therefore, compression of AOS signal representations is highly desirable.

[004]Um panorama das abordagens de compressão de áudio espacial existente pode ser encontrado no pedido de patente EP 10306472.1 ou em I. Elfitri, B. Günel, A.M. Kondoz, "Multichannel Audio Coding Based on Analysis by Synthesis", Proceedings of the IEEE, vol.99, no.4, pp.657-670, Abril de 2011.[004] An overview of existing spatial audio compression approaches can be found in patent application EP 10306472.1 or in I. Elfitri, B. Günel, A. M. Kondoz, "Multichannel Audio Coding Based on Analysis by Synthesis", Proceedings of the IEEE , vol.99, no.4, pp.657-670, April 2011.

[005]As técnicas a seguir são mais relevantes em relação à invenção.[005] The following techniques are most relevant in relation to the invention.

[006]Sinais de formato B, que são equivalentes às representações Ambissônico de primeira ordem, podem ser comprimido utilizando a Codificação de Áudio Direcional (DirAC) conforme descrito in V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Journal of Audio Eng. Society, vol.55 (6), pp.503-516, 2007. Em uma versão sugerida para aplicações em teleconferência, o sinal no formato B é codificado em um único sinal omnidirecional, bem como informações laterais na forma de uma única direção e de um parâmetro de redundância por banda de frequência. No entanto, a redução drástica da taxa de dados resultante implica em menor qualidade do sinal obtido na reprodução. Ademais, a DirAC é limitada à compressão das representações Ambissônico de primeira ordem, que sofrem com a baixíssima resolução espacial.[006] Format B signals, which are equivalent to first-order Ambisonic representations, can be compressed using Directional Audio Coding (DirAC) as described in V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Journal of Audio Eng. Society, vol.55 (6), pp.503-516, 2007. In a version suggested for teleconferencing applications, the B-format signal is encoded into a single omnidirectional signal, as well as side information in the form of a single direction and a redundancy parameter per frequency band. However, the resulting drastic reduction in data rate implies a lower quality of the signal obtained during reproduction. Furthermore, DirAC is limited to the compression of first-order Ambisonic representations, which suffer from very low spatial resolution.

[007]Os métodos conhecidos para a compressão das representações AOS com N>1 são raríssimos. Um deles realiza a codificação direta de sequências de coeficiente AOS individuais empregando o codec perceptivo Codificação de Áudio Avançada (AAC), de acordo com E. Hellerud, I. Burnett, A. Solvang, U. Peter Svensson, "Encoding High Order Ambissônico with AAC", 124th AES Convention, Amsterdam, 2008. No entanto, o problema inerente com tal abordagem é a codificação perceptiva dos sinais que jamais são ouvidos. Os sinais de reprodução reconstruídos são normalmente obtidos por uma soma ponderada das sequências de coeficiente AOS. Por essa razão é grande a probabilidade de desmascaramento do ruído de codificação perceptiva quando a representação AOS descomprimida é fornecida em uma configuração de alto-falante particular. Em termos mais técnicos, o principal problema para o desmascaramento do ruído de codificação perceptiva são as correlações cruzadas altas entre as sequências de coeficientes AOS individuais. Como os sinais de ruído codificados nas sequências de coeficiente AOS individuais normalmente não são correlacionadas entre si, pode ocorrer uma sobreposição construtiva do ruído de codificação perceptiva, enquanto, ao mesmo tempo, as sequências de coeficiente AOS livres de ruído são canceladas na sobreposição. Outro problema é que as correlações cruzadas mencionadas levam à eficiência reduzida dos codificadores perceptivos.[007] Known methods for compressing AOS representations with N>1 are very rare. One of them performs direct encoding of individual AOS coefficient sequences employing the Advanced Audio Coding (AAC) perceptual codec, according to E. Hellerud, I. Burnett, A. Solvang, U. Peter Svensson, "Encoding High Order Ambisonic with AAC", 124th AES Convention, Amsterdam, 2008. However, the inherent problem with such an approach is the perceptual encoding of signals that are never heard. The reconstructed playback signals are typically obtained by a weighted sum of the AOS coefficient sequences. For this reason, the probability of unmasking perceptual coding noise is high when the uncompressed AOS representation is provided in a particular speaker configuration. In more technical terms, the main problem for unmasking perceptual coding noise is the high cross-correlations between individual AOS coefficient sequences. Since the noise signals encoded in the individual AOS coefficient sequences are typically uncorrelated with each other, a constructive overlap of the perceptual coding noise can occur, while at the same time the noise-free AOS coefficient sequences are canceled in the overlap. Another problem is that the aforementioned cross-correlations lead to reduced efficiency of perceptual encoders.

[008]A fim de minimizar a extensão destes efeitos, o documento EP 10306472.1 sugere transformar a representação AOS em uma representação equivalente no domínio espacial antes da codificação perceptiva. Os sinais do domínio espacial correspondem aos sinais direcionais convencionais, e corresponderiam aos sinais de alto-falante se os alto-falantes estivessem posicionados exatamente nas mesmas direções que aquelas assumidas para a transformada do domínio espacial.[008] In order to minimize the extent of these effects, document EP 10306472.1 suggests transforming the AOS representation into an equivalent representation in the spatial domain before perceptual encoding. The spatial domain signals correspond to conventional directional signals, and would correspond to the speaker signals if the speakers were positioned in exactly the same directions as those assumed for the spatial domain transform.

[009]A transformada para o domínio espacial reduz as correlações cruzadas entre os sinais do domínio espacial individuais. Entretanto, as correlações cruzadas não são completamente eliminadas. Um exemplo para as correlações cruzadas relativamente altas é um sinal direcional, cuja direção recai entre as direções adjacentes cobertas pelos sinais do domínio espacial.[009] The transform for the spatial domain reduces cross-correlations between individual spatial domain signals. However, cross-correlations are not completely eliminated. An example for relatively high cross-correlations is a directional signal, whose direction falls between the adjacent directions covered by the spatial domain signals.

[010]Outra desvantagem do documento EP 10306472.1 e no citado artigo de Hellerud et al. é que o número de sinais codificados perceptivamente é (N + 1)2, onde N é a ordem da representação AOS. Portanto, a taxa de dados para a representação AOS comprimida cresce quadraticamente com a ordem de Ambissônico.[010] Another disadvantage of document EP 10306472.1 and the aforementioned article by Hellerud et al. is that the number of perceptually encoded signals is (N + 1)2, where N is the order of the AOS representation. Therefore, the data rate for the compressed AOS representation grows quadratically with the order of Ambisonic.

[011]O processamento de compressão da invenção executa uma decomposição de uma representação do campo sonoro AOS em um componente direcional e em um componente ambiental. Em particular, para a computação do componente direcional do campo do som, descreve-se abaixo um novo processamento para a estimativa de diversas direções sonoras dominantes.[011] The compression processing of the invention performs a decomposition of a representation of the AOS sound field into a directional component and an environmental component. In particular, for computing the directional component of the sound field, new processing for estimating several dominant sound directions is described below.

[012]Quanto aos métodos existentes para estimativa de direção baseados em Ambissônico, o artigo de Pulkki já mencionado descreve um método associado à codificação DirAC para a estimativa da direção, com base na representação do campo do som no formato B. A direção é obtida do vetor de intensidade média, que aponta para a direção do fluxo de energia do campo sonoro. Uma alternativa baseada no formato B é sugerida em D. Levin, S. Gannot, E.A.P. Habets, "Direction-of-Arrival Estimation using Acoustic Vector Sensors in the Presence of Noise", IEEE Proc. d ICASSP, pp.105-108, 2011. A estimativa de direção é realizada iterativamente buscando a direção que fornece a energia máxima de um sinal de saída formador de feixe dirigido para aquela direção.[012] As for existing methods for direction estimation based on Ambisonic, the aforementioned article by Pulkki describes a method associated with DirAC coding for direction estimation, based on the representation of the sound field in format B. The direction is obtained of the average intensity vector, which points to the direction of energy flow in the sound field. An alternative based on format B is suggested in D. Levin, S. Gannot, E.A.P. Habets, “Direction-of-Arrival Estimation using Acoustic Vector Sensors in the Presence of Noise,” IEEE Proc. d ICASSP, pp.105-108, 2011. Direction estimation is performed iteratively by searching for the direction that provides the maximum energy of a beamforming output signal directed in that direction.

[013]No entanto, ambas as abordagens são limitadas ao formato B para a estimativa de direção, que sofre com uma resolução espacial relativamente baixa. Uma desvantagem adicional é que a estimativa está restrita a uma única direção dominante.[013] However, both approaches are limited to format B for direction estimation, which suffers from relatively low spatial resolution. An additional disadvantage is that the estimate is restricted to a single dominant direction.

[014]As representações AOS oferecem uma resolução espacial aprimorada e, portanto, permite uma melhor estimativa das diversas direções dominantes. Os métodos existentes que realizam uma estimativa das diversas direções com base nas representações do campo sonoro AOS são bastante raros. Uma abordagem baseada na percepção compressiva é sugerida em N. Epain, C. Jin, A. van Schaik, "The Application of Compressive Amostragem to the Analysis and Synthesis of Spatial Sound Fields", 127th Convention of the Audio Eng. Soc, Nova York, 2009, em in A. Wabnitz, N. Epain, A. van Schaik, C Jin, "Time Domain Reconstruction of Spatial Sound Fields Using Compressed Sensing", IEEE Proc. of the ICASSP, pp.465-468, 2011. A ideia principal é assumir que o campo sonoro é espacialmente esparso, isto é, consistir apenas de um pequeno número de sinais direcionais. Em seguida à alocação de um número elevado de direções de teste sobre a esfera, um algoritmo de otimização é utilizado a fim de encontrar o menor número possível de direções de teste junto com os sinais direcionais correspondentes, de modo que são bem descritos pela representação AOS dada. Este método fornece uma resolução espacial em relação à que é efetivamente fornecida pela dada representação AOS, já que evita a dispersão espacial resultante de uma ordem limitada da representação AOS dada. No entanto, o desempenho do algoritmo depende intensamente de a presunção de dispersão ser satisfeita. Em particular, a abordagem falha, se o campo sonoro contiver quaisquer componentes ambientais menores adicionais, ou se a representação AOS for afetada pelo ruído que ocorrerá quando computado de gravações em múltiplos canais.[014] AOS representations offer improved spatial resolution and therefore allow for better estimation of the various dominant directions. Existing methods that estimate different directions based on representations of the AOS sound field are quite rare. An approach based on compressive perception is suggested in N. Epain, C. Jin, A. van Schaik, "The Application of Compressive Sampling to the Analysis and Synthesis of Spatial Sound Fields", 127th Convention of the Audio Eng. Soc, New York , 2009, in in A. Wabnitz, N. Epain, A. van Schaik, C Jin, "Time Domain Reconstruction of Spatial Sound Fields Using Compressed Sensing", IEEE Proc. of the ICASSP, pp.465-468, 2011. The main idea is to assume that the sound field is spatially sparse, that is, consisting of only a small number of directional signals. After allocating a high number of test directions on the sphere, an optimization algorithm is used in order to find the smallest possible number of test directions together with the corresponding directional signals, such that they are well described by the AOS representation. given. This method provides a spatial resolution relative to that actually provided by the given AOS representation, as it avoids the spatial scatter resulting from a limited order of the given AOS representation. However, the performance of the algorithm heavily depends on whether the dispersion assumption is satisfied. In particular, the approach fails if the sound field contains any additional minor environmental components, or if the AOS representation is affected by the noise that will occur when computed from multi-channel recordings.

[015]Ademais, um método especialmente intuitivo é transformar a representação AOS dada para o domínio espacial conforme descrito em B. Rafaely, "Plane-wave decomposition of the sound Field on a sphere by spherical convolution", J. Acoust. Soc. Am., vol.4, no.116, pp.2149-2157, Outubro de 2004, e em seguida buscar a máxima nas energias direcionais. A desvantagem desta abordagem é que a presença de componentes ambientais prejudica a distribuição da energia direcional e a um deslocamento da máxima das energias direcionais em comparação à ausência de qualquer componente ambiental.[015] Furthermore, an especially intuitive method is to transform the given AOS representation to the spatial domain as described in B. Rafaely, "Plane-wave decomposition of the sound Field on a sphere by spherical convolution", J. Acoust. Soc. Am., vol.4, no.116, pp.2149-2157, October 2004, and then seek the maximum in directional energies. The disadvantage of this approach is that the presence of environmental components impairs the distribution of directional energy and a displacement of the maximum directional energies compared to the absence of any environmental component.

InvençãoInvention

[016]Um problema a ser solucionado pela invenção é fornecer uma compressão para os sinais AOS através da qual a resolução espacial elevada da representação do sinal AOS ainda é mantida. Este problema é solucionado pelos métodos revelados nas reivindicações 1 e 2. Os aparelhos que utilizam estes métodos são revelados nas reivindicações 3 e 4.[016] A problem to be solved by the invention is to provide a compression for the AOS signals through which the high spatial resolution of the AOS signal representation is still maintained. This problem is solved by the methods disclosed in claims 1 and 2. Apparatus using these methods are disclosed in claims 3 and 4.

[017]A invenção aborda a compressão das representações AOS Ambissônico de Ordem Superior dos campos sonoros. No presente relatório descritivo, o termo 'AOS' denota a representação Ambissônico de Ordem Superior em tal condição, bem como um sinal de áudio correspondentemente codificado ou representado. As direções sonoras dominantes são estimadas e a representação do sinal AOS é decomposta em diversos sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e em um componente ambiental no domínio da AOS, seguido pela compressão do componente ambiental através da redução de sua ordem. Depois dessa decomposição, o componente AOS ambiental de ordem reduzida é transformado para o domínio espacial, e é codificado perceptivamente junto com os sinais direcionais.[017] The invention addresses the compression of Higher Order Ambisonic AOS representations of sound fields. In the present specification, the term 'AOS' denotes the Higher Order Ambisonic representation in such condition, as well as a correspondingly encoded or represented audio signal. Dominant sound directions are estimated and the representation of the AOS signal is decomposed into several dominant directional signals in the time domain and related directional information, and an environmental component in the AOS domain, followed by compression of the environmental component by reducing its order. . After this decomposition, the reduced-order environmental AOS component is transformed to the spatial domain, and is perceptually encoded along with the directional signals.

[018]No lado do receptor ou do decodificador, os sinais direcionais codificados e o componente ambiental codificado de ordem reduzida são perceptivamente descomprimidos. Os sinais ambientais perceptivamente descomprimidos são transformados para uma representação do domínio da AOS de ordem reduzida, seguido pela extensão da ordem. A representação AOS total é recomposta a partir dos sinais direcionais e das informações direcionais correspondentes e do componente AOS ambiental de ordem original.[018] On the receiver or decoder side, the encoded directional signals and the reduced-order encoded environmental component are perceptually decompressed. Perceptually decompressed environmental signals are transformed to a reduced-order AOS domain representation, followed by order extension. The total AOS representation is recomposed from the directional signals and corresponding directional information and the original order environmental AOS component.

[019]Em termos de vantagens, o componente do campo sonoro ambiental pode ser representado com exatidão suficiente por uma representação AOS com uma ordem inferior à ordem original, e a extração dos sinais direcionais dominantes garante que, após a compressão e descompressão, ainda se obtém uma elevada resolução espacial.[019] In terms of advantages, the environmental sound field component can be represented with sufficient accuracy by an AOS representation with a lower order than the original order, and the extraction of the dominant directional signals ensures that, after compression and decompression, it is still achieves high spatial resolution.

[020]Em princípio, o método da invenção é adequado para comprimir uma representação do sinal Ambissônico de Ordem Superior AOS, sendo que o dito método inclui as etapas de:- estimar as direções dominantes, em que a dita estimativa de direção dominante depende de uma distribuição da energia direcional dos componentes AOS energeticamente dominantes;- decompor ou decodificar a representação do sinal AOS em diversos sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e um componente ambiental residual no domínio da AOS, em que o dito componente ambiental residual representa a diferença entre a dita representação do sinal AOS e uma representação dos ditos sinais direcionais dominantes;- comprimir o dito componente ambiental residual reduzindo sua ordem em relação à sua ordem original;- transformar o dito componente AOS ambiental residual de ordem reduzida para o domínio espacial; - codificar perceptivamente os ditos sinais direcionais dominantes e o dito componente AOS ambiental residual transformado.[020] In principle, the method of the invention is suitable for compressing a representation of the Higher Order Ambisonic signal AOS, said method including the steps of: - estimating the dominant directions, wherein said dominant direction estimate depends on a distribution of the directional energy of the energetically dominant AOS components; - decomposing or decoding the representation of the AOS signal into several dominant directional signals in the time domain and related directional information, and a residual environmental component in the AOS domain, wherein said environmental component residual represents the difference between said representation of the AOS signal and a representation of said dominant directional signals;- compressing said residual environmental component by reducing its order with respect to its original order;- transforming said residual environmental AOS component from reduced order to the spatial domain; - perceptually encoding said dominant directional signals and said transformed residual environmental AOS component.

[021]Em princípio, o método da invenção é adequado para descomprimir uma representação do sinal Ambissônico de Ordem Superior AOS que foi comprimido pelas etapas de:- estimar as direções dominantes, em que a dita estimativa de direção dominante depende de uma distribuição da energia direcional dos componentes AOS energeticamente dominantes;- decompor ou decodificar a representação do sinal AOS em diversos sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e um componente ambiental residual no domínio da AOS, em que o dito componente ambiental residual representa a diferença entre a dita representação do sinal AOS e uma representação dos ditos sinais direcionais dominantes; - comprimir o dito componente ambiental residual reduzindo sua ordem em relação à sua ordem original; - transformar o dito componente AOS ambiental residual de ordem reduzida para o domínio espacial; - codificar perceptivamente os ditos sinais direcionais dominantes e o dito componente AOS ambiental residual transformado, sendo que o método inclui as etapas de: - decodificar perceptivamente os ditos sinais direcionais dominantes codificados perceptivamente e o dito componente AOS ambiental residual transformado codificado perceptivamente; - submeter à transformada inversa o dito componente AOS ambiental residual transformado decodificado perceptivamente de modo a obter uma representação do domínio da AOS; - executar uma extensão da ordem do dito componente AOS ambiental residual submetido à transformada inversa de modo a estabelecer um componente AOS ambiental de ordem original; - compor os ditos sinais direcionais dominantes decodificados perceptivamente, a dita informação de direção e o dito componente AOS ambiental estendido de ordem original de modo a obter uma representação do sinal AOS.[021] In principle, the method of the invention is suitable for decompressing a representation of the Higher Order Ambisonic signal AOS that has been compressed by the steps of: - estimating the dominant directions, wherein said dominant direction estimate depends on a distribution of the energy of the energetically dominant AOS components; - decomposing or decoding the representation of the AOS signal into several dominant directional signals in the time domain and related directional information, and a residual environmental component in the AOS domain, wherein said residual environmental component represents the difference between said representation of the AOS signal and a representation of said dominant directional signals; - compress said residual environmental component by reducing its order in relation to its original order; - transform said residual environmental AOS component from reduced order to the spatial domain; - perceptually encoding said dominant directional signals and said transformed residual environmental AOS component, the method including the steps of: - perceptually decoding said perceptually encoded dominant directional signals and said perceptually encoded transformed residual environmental AOS component; - subjecting said perceptually decoded transformed residual environmental AOS component to inverse transformation in order to obtain a representation of the AOS domain; - carrying out an extension of the order of said residual environmental AOS component subjected to the inverse transform in order to establish an environmental AOS component of original order; - composing said perceptually decoded dominant directional signals, said direction information and said original order extended environmental AOS component so as to obtain a representation of the AOS signal.

[022]Em princípio, o aparelho da invenção é adequado para comprimir uma representação do sinal Ambissônico de Ordem Superior AOS, sendo que o aparelho inclui: - meio que é adaptado para estimar as direções dominantes, em que a dita estimativa de direção dominante depende de uma distribuição da energia direcional dos componentes AOS energeticamente dominantes; - meio que é adaptado para decompor ou decodificar a representação do sinal AOS em diversos sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e um componente ambiental residual no domínio da AOS, em que o dito componente ambiental residual representa a diferença entre a dita representação do sinal AOS e uma representação dos ditos sinais direcionais dominantes; - meio que é adaptado para comprimir o dito componente ambiental residual reduzindo sua ordem em relação à sua ordem original; - meio que é adaptado para transformar o dito componente AOS ambiental residual de ordem reduzida para o domínio espacial; - meio que é adaptado para codificar perceptivamente os ditos sinais direcionais dominantes e o dito componente AOS ambiental transformado residual.[022] In principle, the apparatus of the invention is suitable for compressing a representation of the Higher Order Ambisonic signal AOS, the apparatus including: - means that are adapted to estimate the dominant directions, on which said dominant direction estimate depends of a directional energy distribution of the energetically dominant AOS components; - means that is adapted to decompose or decode the representation of the AOS signal into several dominant directional signals in the time domain and related directional information, and a residual environmental component in the AOS domain, wherein said residual environmental component represents the difference between the said representation of the AOS signal and a representation of said dominant directional signals; - means that are adapted to compress said residual environmental component by reducing its order in relation to its original order; - means that is adapted to transform said reduced-order residual environmental AOS component to the spatial domain; - means that is adapted to perceptually encode said dominant directional signals and said residual transformed environmental AOS component.

[023]Em princípio o aparelho da invenção é adequado para descomprimir uma representação do sinal Ambissônico de Ordem Superior AOS que foi comprimido pelas etapas de: - estimar as direções dominantes, em que a dita estimativa de direção dominante depende de uma distribuição da energia direcional dos componentes AOS energeticamente dominantes; - decompor ou decodificar a representação do sinal AOS em diversos sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e um componente ambiental residual no domínio da AOS, em que o dito componente ambiental residual representa a diferença entre a dita representação do sinal AOS e uma representação dos ditos sinais direcionais dominantes; - comprimir o dito componente ambiental residual reduzindo sua ordem em relação à sua ordem original; - transformar o dito componente AOS ambiental residual de ordem reduzida para o domínio espacial; - codificar perceptivamente os ditos sinais direcionais dominantes e o dito componente AOS ambiental residual transformado, sendo que o aparelho inclui: - meio que é adaptado para decodificar perceptivamente os ditos sinais direcionais dominantes codificados perceptivamente e o dito componente AOS ambiental residual transformado codificado perceptivamente; - meio que é adaptado para submeter à transformada inversa o dito componente AOS ambiental residual transformado decodificado perceptivamente de modo a obter uma representação do domínio da AOS; - meio que é adaptado para executar uma extensão da ordem do dito componente AOS ambiental residual submetido à transformada inversa de modo a estabelecer um componente AOS ambiental de ordem original; - meio que é adaptado para compor os ditos sinais direcionais dominantes decodificados perceptivamente, a dita informação de direção e o dito componente AOS ambiental estendido de ordem original de modo a obter uma representação do sinal AOS.[023] In principle, the apparatus of the invention is suitable for decompressing a representation of the Higher Order Ambisonic signal AOS that has been compressed by the steps of: - estimating the dominant directions, wherein said dominant direction estimate depends on a distribution of directional energy of the energetically dominant AOS components; - decomposing or decoding the representation of the AOS signal into several dominant directional signals in the time domain and related directional information, and a residual environmental component in the domain of the AOS, wherein said residual environmental component represents the difference between said representation of the AOS signal and a representation of said dominant directional signals; - compress said residual environmental component by reducing its order in relation to its original order; - transform said residual environmental AOS component from reduced order to the spatial domain; - perceptually encoding said dominant directional signals and said transformed residual environmental AOS component, the apparatus including: - means that is adapted to perceptually decode said perceptually encoded dominant directional signals and said perceptually encoded transformed residual environmental AOS component; - means that is adapted to subject said perceptually decoded transformed residual environmental AOS component to inverse transformation in order to obtain a representation of the AOS domain; - means that is adapted to perform an extension of the order of said residual environmental AOS component subjected to inverse transformation in order to establish an environmental AOS component of original order; - means which is adapted to compose said perceptually decoded dominant directional signals, said direction information and said original order extended environmental AOS component so as to obtain a representation of the AOS signal.

[024]Outras modalidades vantajosas da invenção são reveladas nas respectivas reivindicações dependentes.[024] Other advantageous embodiments of the invention are disclosed in the respective dependent claims.

DesenhosDesigns

[025]Modalidades exemplificativas da invenção são descritas fazendo referência aos desenhos em anexo, que mostram na:[025] Exemplary embodiments of the invention are described with reference to the attached drawings, which show:

[026]Figura 1 - Função de dispersão normalizadapara diferentes ordens Ambissônico N e para os ângulos [026]Figure 1 - Normalized dispersion function for different orders Ambisonic N and for the angles

[027]Figura 2 - Diagrama de bloco do processamento de compressão de acordo com a invenção;[027] Figure 2 - Block diagram of compression processing according to the invention;

[028]Figura 3 - Diagrama de bloco do processamento de descompressão de acordo com a invenção.[028] Figure 3 - Block diagram of decompression processing according to the invention.

Modalidades exemplificativasExemplary modalities

[029]Os sinais Ambissônico descrevem os campos sonoros em áreas livres de fonte utilizando a expansão da Harmônica Esférica (HS). A viabilidade desta descrição pode ser atribuída à propriedade física em que o comportamento temporal e espacial da pressão sonora é essencialmente determinado pela equação da onda.[029] Ambisonic signals describe sound fields in source-free areas using Spherical Harmonic (HS) expansion. The viability of this description can be attributed to the physical property in which the temporal and spatial behavior of sound pressure is essentially determined by the wave equation.

Equação da onda e expansão da Harmônica EsféricaWave equation and expansion of the Spherical Harmonic

[030]Para uma descrição mais detalhada de Ambissônico, a seguir assume- se um sistema esférico de coordenadas, onde um ponto no espaço é representado por um raio r > 0 (isto é, a distância até a origem da coordenada), um ângulo de inclinação medido a partir do eixo polar z, e um ângulo do azimute medido no plano x=y a partir do eixo x. Neste sistema esférico de coordenadas, a equação da onda para a pressão sonora p(t, x) em uma área livre de fonte conectada, onde t denota tempo, é dada pelo livro de Earl G. Williams, "Fourier Acoustics", vol.93 of Applied Mathematical Sciences, Academic Press, 1999:[030] For a more detailed description of Ambisonic, below a spherical coordinate system is assumed, where a point in space is represented by a radius r > 0 (i.e. the distance to the coordinate origin), an inclination angle measured from the polar axis z, and an azimuth angle measured in the x=ya plane from the x axis. In this spherical coordinate system, the wave equation for sound pressure p(t, x) in a connected source-free area, where t denotes time, is given by Earl G. Williams, "Fourier Acoustics", vol. 93 of Applied Mathematical Sciences, Academic Press, 1999:

[031] com cs indicando a velocidade do som. Em consequência disso, a transformada de Fourier da pressão sonora em relação ao tempo onde i denota a unidade imaginária, pode ser expandida na série de HS de acordo com o livro de Williams: [031] with cs indicating the speed of sound. As a result, the Fourier transform of sound pressure in relation to time where i denotes the imaginary unit, can be expanded into the HS series according to Williams' book:

[032]Cabe notar que esta expansão é válida para todos os pontos x em uma área livre de fonte conectada, que corresponde à região de convergência da série.[032] It is worth noting that this expansion is valid for all points x in an area free of a connected source, which corresponds to the convergence region of the series.

[033]Na equação (4), k denota o número da onda angular definido pore indica os coeficientes de expansão HS, que dependem somente do produto kr.[033] In equation (4), k denotes the angular wave number defined by It is indicates the HS expansion coefficients, which depend only on the product kr.

[034]Ademais,são as funções de HS de ordem n e o grau m: onde denotam as funções de Legendre associadas e (•)! indica o fatorial.[034] Furthermore, are the HS functions of order neo degree m: where denote the associated Legendre functions and (•)! indicates the factorial.

[035]As funções de Legendre associadas para índices de grau não negativo m são definidas pelas polinomiais de Legendre Pn(x) por [035] The associated Legendre functions for indices of non-negative degree m are defined by the Legendre polynomials Pn(x) by

[036]Para índices de grau negativo, isto é, m < 0, as funções de Legendre associadas são definidas por [036] For negative degree indices, that is, m < 0, the associated Legendre functions are defined by

[037]As polinomiais de Legendre Pn(x) (n> 0), por sua vez, podem ser definidas utilizando a Fórmula de Rodrigues como [037] The Legendre polynomials Pn(x) (n> 0), in turn, can be defined using the Rodrigues Formula as

[038]Na técnica anterior, por exemplo, em M. Poletti, "Unified Description of Ambissônico using Real and Complex Spherical Harmonics", Proceedings of the Ambissônico Symposium 2009, 25-27 junho de 2009, Graz, Áustria, também existem definições das funções de HS que divergem daquelas na equação (6) por um fator de (-1)m para os índices de grau negativo m.[038] In the prior art, for example in M. Poletti, "Unified Description of Ambisonic using Real and Complex Spherical Harmonics", Proceedings of the Ambisonic Symposium 2009, 25-27 June 2009, Graz, Austria, there are also definitions of the HS functions that diverge from those in equation (6) by a factor of (-1)m for the negative degree indices m.

[039]Como alternativa, a transformada de Fourier da pressão sonora em relação ao tempo pode ser expressa utilizando funções reais de HS como [039] Alternatively, the Fourier transform of sound pressure in relation to time can be expressed using real HS functions as

[040]Na literatura, existem várias definições de funções reais de HS (vide, por exemplo, o artigo de Poletti citado). Uma possível definição, que é aplicada em todo este documento, é dada poronde (•)* denota uma conjugação complexa. Uma expressão alternativa é obtida inserido-se a equação (6 na equação (11): com [040] In the literature, there are several definitions of real HS functions (see, for example, the article by Poletti cited). A possible definition, which is applied throughout this document, is given by where (•)* denotes a complex conjugation. An alternative expression is obtained by inserting equation (6 into equation (11): with

[041]Embora as funções reais de HS sejam de valor real por definição, isso não se reproduz para os coeficientes de expansão correspondentesem geral.[041] Although real HS functions are real-valued by definition, this does not hold true for the corresponding expansion coefficients in general.

[042]As funções de HS complexas estão relacionadas às funções reais de HS como segue: [042] Complex HS functions are related to real HS functions as follows:

[043]As funções complexas de HSbem como as funções reais de HS com o vetor de direção formam uma base ortonormal para as funções de valor complexo do quadrado integrável na esfera unitária S2 no espaço tridimensional e, portanto, obedece as condiçõesonde denota a função delta de Kronecker. O segundo resultado pode ser deriado utilizando a equação (15) e a definição de harmônicas esféricas reais na equação (11).[043] The complex functions of HS as well as the actual functions of HS with the direction vector form an orthonormal basis for the square-integrable complex-valued functions on the unit sphere S2 in three-dimensional space and therefore obey the conditions where denotes the Kronecker delta function. The second result can be derived using equation (15) and the definition of real spherical harmonics in equation (11).

Problema interno e os coeficientes AmbissônicoInternal problem and Ambisonic coefficients

[044]O propósito do Ambissônico é uma representação de um campo sonoro nas proximidades da origem da coordenada. Sem perda da generalidade, esta região de interesse é aqui assumida como sendo uma bola de raio R centralizado na origem da coordenada, o que é especificado pelo conjunto. Uma assunção essencial para a representação é que esta bola supostamente não contém fontes sonoras. Descobrir a representação do campo sonoro no interior desta bola denomina- se “problema interno”, cf. o livro de Williams já mencionado.[044] The purpose of Ambisonic is a representation of a sound field close to the origin of the coordinate. Without loss of generality, this region of interest is here assumed to be a ball of radius R centered at the origin of the coordinate, which is specified by the set . An essential assumption for the representation is that this ball supposedly contains no sound sources. Discovering the representation of the sound field inside this ball is called an “internal problem”, cf. the aforementioned Williams book.

[045]Pode-se mostrar que, para o problema interno, os coeficientes de expansão das funções de HS podem ser expressas comoonde jn(.) denotam as funções esféricas de Bessel de primeira ordem. A partir da equação (17) ocorre que a informação completa sobre o campo sonoro está contida nos coeficientes denominados coeficientes Ambissônico.[045] It can be shown that, for the internal problem, the expansion coefficients of the HS functions can be expressed as where jn(.) denote first-order spherical Bessel functions. From equation (17) it appears that complete information about the sound field is contained in the coefficients called Ambisonic coefficients.

[046]Do mesmo moco, os coeficientes da expansão das funções reais de HS podem ser fatorados comoonde os coeficientes são denominados coeficientes Ambissônico em relação à expansão utilizando as funções de HS de valor real. Eles estão relacionados a através de: [046] Likewise, the expansion coefficients of real HS functions can be factored as where the coefficients are called Ambisonic coefficients in relation to the expansion using the real-valued HS functions. They are related to across:

Decomposição da onda planaPlane wave decomposition

[047]O campo sonoro no interior de uma bola livre de fonte sonora centralizada na origem da coordenada pode ser expresso por uma sobreposição de um número infinito de ondas planas de diferentes números da onda angular k, que colidem na a partir de todas as direções possíveis, cf. o já citado artigo de Rafaely "Plane-wave decomposition...". Assumindo que a amplitude complexa de uma onda plana com número da onda angular k a partir da direção Qo seja dada por é possível mostrar de modo similar com o uso da equação (11) e da equação (19) que os coeficientes Ambissônico correspondentes em relação à expansão das funções reais de HS são dados por [047] The sound field inside a sound source-free ball centered at the origin of the coordinate can be expressed by a superposition of an infinite number of plane waves of different angular wave numbers k, which collide in from all directions possible, cf. the already mentioned article by Rafaely "Plane-wave decomposition...". Assuming that the complex amplitude of a plane wave with angular wave number ka from the direction Qo is given by it is possible to show in a similar way using equation (11) and equation (19) that the corresponding Ambisonic coefficients in relation to the expansion of the real HS functions are given by

[048]Consequentemente, os coeficientes Ambissônico para o campo sonoro resultante da sobreposição de um número infinito de ondas planas do número da onda angular k são obtidos pela integração da equação (20) em todas as direções possíveis [048] Consequently, the Ambisonic coefficients for the sound field resulting from the superposition of an infinite number of plane waves of angular wave number k are obtained by integrating equation (20) in all possible directions

[049]A funçãoé denominada “densidade de amplitude” e é assumida como sendo o quadrado integrável sobre a esfera unitária S2. É possível expandi-la na série de funções reais de HS comoonde os coeficientes de expansão são iguais à integral que ocorre na eqação (22), isto é, [049]The function It is called “amplitude density” and is assumed to be the square integrable over the unitary sphere S2. It is possible to expand it into the series of real HS functions as where the expansion coefficients are equal to the integral that occurs in equation (22), that is,

[050]Inserindo a equação (24) na equação (22) pode-se observar que os coeficientes Ambissônicosão uma versão escalonada dos coeficientes de expansão isto é, [050] Inserting equation (24) into equation (22) it can be seen that the Ambisonic coefficients are a scaled version of the expansion coefficients that is,

[051]Ao aplicar a transformada inversa de Fourier em relação ao tempo aos coeficientes Ambissônico escalonadose à função da densidade de amplitude as quantidades de domínio do tempo correspondentssão obtidas. Então, no domínio do tempo, a equação (24) pode ser formulada como [051] When applying the inverse Fourier transform with respect to time to the scaled Ambisonic coefficients and the amplitude density function the corresponding time domain quantities are obtained. Then, in the time domain, equation (24) can be formulated as

[052]O sinal direcional do domínio do tempopode ser representado por uma expansão da função de HS real de acordo com [052] The time domain directional signal can be represented by an expansion of the real HS function according to

[053]Usando o fato de que as funções de HSsão de valor real, seu conjugado complexo pode ser expresso por [053]Using the fact that HS functions are of real value, their complex conjugate can be expressed by

[054]Assumindo the sinal do domínio do temposeja de valor real, isto é, a partir da comparação da equação (29) com a equação (30) os coeficientes são de valor real naquele caso, isto é, [054]Assuming the time domain signal is of real value, that is, from the comparison of equation (29) with equation (30) the coefficients are of real value in that case, that is,

[055]Os coeficientes serão denominados a seguir como coeficientes Ambissônico do domínio do tempo escalonados.[055] The coefficients they will be referred to below as scaled time-domain Ambisonic coefficients.

[056]A seguir, assume-se ainda que a representação do campo sonoro é dada por esses coeficientes, que serão descritos mais detalhadamente na seção abaixo que trata da compressão.[056] Next, it is also assumed that the representation of the sound field is given by these coefficients, which will be described in more detail in the section below that deals with compression.

[057]Observa-se que a representação AOS do domínio do tempo pelos coeficientes utilizados para o processamento de acordo com a invenção é equivalente a uma representação AOS de domínio de frequência correspondente Portanto, a compressão e descompressão descritas podem ser realizadas equivalentemente no domínio de frequência com as respectivas modificações mínimas das equações.[057] It is observed that the AOS representation of the time domain by the coefficients used for processing according to the invention is equivalent to a corresponding frequency domain AOS representation Therefore, the described compression and decompression can be performed equivalently in the frequency domain with the respective minimal modifications of the equations.

Resolução espacial com ordem finitaSpatial resolution with finite order

[058]Na prática, o campo sonoro nas proximidades da origem da coordenada é descrito utilizando apenas um número finito de coeficientes Ambissônicode ordem . Computar a função da densidade de amplitude a partir da série truncada de funções de HS de acordo comintroduz um tipo de dispersão espacial comparada à função da densidade de amplitude verdadeira , cf. o já citado artigo "Plane-wave decomposition...". Isso pode ser realizado computando a função da densidade de amplitude para uma única onda plana a partir da direção Qo com o uso da equação (31): com onde denota o ângulo entre os dois vetores que apontam para as direções satisfazendo a propriedade [058] In practice, the sound field in the vicinity of the coordinate origin is described using only a finite number of Ambisonic coefficients of order . Compute the amplitude density function from the truncated series of HS functions according to introduces a type of spatial dispersion compared to the true amplitude density function , cf. the already mentioned article "Plane-wave decomposition...". This can be accomplished by computing the amplitude density function for a single plane wave from the Qo direction using equation (31): with where denotes the angle between the two vectors pointing in the directions satisfying the property

[059]Na equação (34), são empregados os coeficientes Ambissônico para uma onda plana dada na equação (20), enquanto nas equações (35) e (36) alguns teoremas matemáticos são explorados, cf. o já mencionado artigo "Plane-wave decomposition...". A propriedade na equação (33) pode ser mostrada utilizando a equação (14).[059] In equation (34), the Ambisonic coefficients for a plane wave given in equation (20) are used, while in equations (35) and (36) some mathematical theorems are explored, cf. the aforementioned article "Plane-wave decomposition...". The property in equation (33) can be shown using equation (14).

[060]Comparando equação (37) à função da densidade de amplitude verdadeiraonde denota a função delta Dirac, a dispersão espacial torna-se óbvia a partir da substituição da função delta Dirac escalonada pela função de dispersão que, depois de normalizada por seu valor máximo, é ilustrada na Figura 1 para diferentes ordens Ambissônico N e ângulos [060] Comparing equation (37) to the true amplitude density function where denotes the Dirac delta function, the spatial dispersion becomes obvious from replacing the scaled Dirac delta function with the dispersion function which, after normalized by its maximum value, is illustrated in Figure 1 for different Ambisonic N orders and angles

[061]Como o primeiro zero deestá localizado aproximadamente a para (vide o já mencionado artigo "Plane-wave decomposition..."), o efeito da dispersão é reduzido (e, desse modo, a resolução espacial é aprimorada) com ordem de Ambissônico crescente N.[061] As the first zero of is located approximately for (see the aforementioned article "Plane-wave decomposition..."), the dispersion effect is reduced (and thus the spatial resolution is improved) with increasing Ambisonic order N.

[062]Para a função de dispersão converge para a função delta Dirac escalonada. Isso pode ser observado se a relação de completude para as polinomiais de Legendrefor utilizada junto com a equação (35) para expressar o limite de para como [062]To the scatter function converges to the scaled Dirac delta function. This can be observed if the completeness relation for Legendre polynomials is used together with equation (35) to express the limit of for as

[063]Ao definir o vetor das funções reais de HS da ordempor onde 0 = (N + 1)2 e onde denota transposição, a comparação a equação (37) com a equação (33) mostra que a função de dispersão pode ser expressa através do produto escalar de dois vetores de HS reais como [063] When defining the vector of real HS functions of the order per where 0 = (N + 1)2 and where denotes transposition, comparing equation (37) with equation (33) shows that the dispersion function can be expressed through the dot product of two real HS vectors as

[064]A dispersão pode ser equivalentemente expressa no domínio do tempo como [064] Dispersion can be equivalently expressed in the time domain as

AmostragemSampling

[065]Para algumas aplicações é desejável determinar os coeficientes Ambissônico do domínio do tempo escalonadosa partir das amostras da função da densidade de amplitude do domínio do tempo em um número finito J de direções discretas A integral na equação (28) é então aproximada por uma soma finita de acordo com B. Rafaely, "Analysis and Design of Spherical Microphone Arrays", IEEE Transactions on Speech and Audio Processing, vol.13, n° 1, pp.135143, Janeiro de 2005:onde gj denotam alguns pesos de amostragem corretamente escolhidos. Em oposição ao artigo "Analysis and Design...", a aproximação (50) se refere a uma representação do domínio do tempo que usa funções reais de HS invés de uma representação do domínio de frequência utilizando funções de HS complexas. Uma condição necessária para que a aproximação (50) seja exata é que a densidade de amplitude seja da ordem harmônica limitada N, significando que [065] For some applications it is desirable to determine the staggered time domain Ambisonic coefficients from time domain amplitude density function samples in a finite number J of discrete directions The integral in equation (28) is then approximated by a finite sum according to B. Rafaely, "Analysis and Design of Spherical Microphone Arrays", IEEE Transactions on Speech and Audio Processing, vol.13, no. 1, pp.135143 , January 2005: where gj denote some correctly chosen sampling weights. In contrast to the "Analysis and Design..." article, approximation (50) refers to a time domain representation using real HS functions rather than a frequency domain representation using complex HS functions. A necessary condition for approximation (50) to be accurate is that the amplitude density is of the limited harmonic order N, meaning that

[066]Se esta condição não for satisfeita, a aproximação (50) sofre de erros de aliasing espacial, cf. B. Rafaely, "Spatial Aliasing in Spherical Microphone Arrays",IEEE Transactions on Signal Processing, vol.55, n° 3, pp.1003-1010, Março de 2007. Uma segunda condição necessária requer que os pontos de amostragem e os pesos correspondentes satisfaçam as condições correspondentes dados no artigo "Analysis and Design...": [066] If this condition is not satisfied, approximation (50) suffers from spatial aliasing errors, cf. B. Rafaely, "Spatial Aliasing in Spherical Microphone Arrays", IEEE Transactions on Signal Processing, vol.55, no. 3, pp.1003-1010, March 2007. A second necessary condition requires that the sampling points and weights corresponding conditions satisfy the corresponding conditions given in the article "Analysis and Design...":

[067]As condições (51) e (52) em conjunto são suficientes para a amostragem exata.[067] Conditions (51) and (52) together are sufficient for accurate sampling.

[068]A condição da amostragem (52) consiste em um conjunto de equações lineares, que podem ser formuladas compactamente utilizando uma única equação de matriz como onde indica a matriz de modo definida por e G denota a matriz com os pesos em sua diagonal, isto é, [068] The sampling condition (52) consists of a set of linear equations, which can be formulated compactly using a single matrix equation as where indicates the mode matrix defined by and G denotes the matrix with the weights on its diagonal, that is,

[069]A partir da equação (53) pode-se observar que uma condição necessária para que a equação (52) se mantenha é que o número J de pontos de amostragem satisfaça Coletando os valores da densidade de amplitude do domínio do tempo nos pontos de amostragem -/ no vetor e definindo o vetor dos coeficientes Ambissônico do domínio do tempo escalonados por ambos os vetores são relacionados através da expansão das funções de HS (29). Esta relação fornece o seguinte sistema de equações lineares: [069] From equation (53) it can be seen that a necessary condition for equation (52) to hold is that the number J of sampling points satisfies Collecting the time domain amplitude density values at the sampling points -/ in the vector and defining the vector of time domain Ambisonic coefficients scaled by both vectors are related through the expansion of HS functions (29). This relationship provides the following system of linear equations:

[070]Utilizando a notação do vetor introduzido, a computação dos coeficientes Ambissônico do domínio do tempo escalonados a partir dos valores das amostras da função da densidade de amplitude do domínio do tempo pode ser redigida como [070] Using the introduced vector notation, the computation of the time-domain Ambisonic coefficients scaled from the sample values of the time-domain amplitude density function can be written as

[071]Dada uma ordem de Ambissônico fixa N, em geral não é possível computar um númerode pontos de amostragem e os pesos correspondentes, de modo que a equação (52) da condição de amostragem se mantém. No entanto, se os pontos de amostragem forem selecionados de modo que a condição da amostragem esteja bem aproximada, então a classe da matriz de modo é 0 e seu número de condição é baixo. Neste caso, a pseudoinversa da matriz de modo existe e uma aproximação razoável do vetor do coeficiente Ambissônico do domínio do tempo escalonado c(t) a partir do vetor das amostras da função da densidade de amplitude do domínio do tempo amostras é dada por [071] Given a fixed Ambisonic order N, it is generally not possible to compute a number of sampling points and the corresponding weights, so that equation (52) of the sampling condition holds. However, if the sampling points are selected so that the sampling condition is closely approximated, then the mode matrix class is 0 and its condition number is low. In this case, the pseudoinverse of the mode matrix exists and a reasonable approximation of the scaled time domain Ambisonic coefficient vector c(t) from the samples vector of the time domain amplitude density function samples is given by

[072]Se, e a classe da matriz de modo for 0, então sua pseudoinversa coincide com sua inversa desde [072]If , and the class of the mode matrix is 0, then its pseudoinverse coincides with its inverse since

[073]Se adicionalmente a equação da condição de amostragem (52) for satisfeita, então(63) se mantém e ambas as aproximações (59) e (61) são equivalentes e exatas.[073] If the sampling condition equation (52) is additionally satisfied, then (63) holds and both approximations (59) and (61) are equivalent and exact.

[074]O vetor w(t) pode ser interpretado como um vetor dos sinais do domínio do tempo espacial. A transformada do domínio da AOS para o domínio espacial pode ser realizada, por exemplo, utilizando a equação (58). Este tipo de transformada é denominada “Transformada Harmônica Esférica” (THE) no presente relatório descritivo e é utilizada quando o componente AOS ambiental de ordem reduzida é transformado para o domínio espacial. Assume-se implicitamente que os pontos de amostragem espaciais para a THE satisfazem aproximadamente a condição de amostragem na equação (52) com [074] The vector w(t) can be interpreted as a vector of spatial time domain signals. The transformation from the AOS domain to the spatial domain can be performed, for example, using equation (58). This type of transform is called “Spherical Harmonic Transform” (THE) in this specification and is used when the reduced-order environmental AOS component is transformed to the spatial domain. It is implicitly assumed that the spatial sampling points for THE approximately satisfy the sampling condition in equation (52) with

[075]Sob essas assunções, a matriz da THE satisfaz. Caso o escalonamento absoluto para a THE não seja importante, a constante — pode ser negligenciada.[075]Under these assumptions, the THE matrix satisfies . If the absolute scaling for THE is not important, the constant — can be neglected.

CompressãoCompression

[076]Esta invenção está relacionada à compressão de uma dada representação do sinal AOS. Como mencionado acima, a representação AOS é decomposta em um número previamente definido de sinais direcionais dominantes no domínio do tempo e em um componente ambiental no domínio da AOS, seguido pela compressão da representação AOS do componente ambiental através da redução de sua ordem. Esta operação explora a assunção, que é sustentada pelos testes de audição, de que o componente do campo sonoro ambiental pode ser representado com exatidão suficiente por uma representação AOS com uma ordem inferior. A extração dos sinais direcionais dominantes garante que, após essa compressão e uma descompressão correspondente, uma elevada resolução espacial é obtida.[076] This invention is related to the compression of a given representation of the AOS signal. As mentioned above, the AOS representation is decomposed into a predefined number of dominant directional signals in the time domain and an environmental component in the AOS domain, followed by compressing the AOS representation of the environmental component by reducing its order. This operation exploits the assumption, which is supported by the listening tests, that the environmental sound field component can be represented with sufficient accuracy by a lower-order AOS representation. The extraction of the dominant directional signals ensures that, after this compression and a corresponding decompression, a high spatial resolution is obtained.

[077]Depois da decomposição, o componente AOS ambiental de ordem reduzida é transformado para o domínio espacial, e é codificado perceptivamente junto com os sinais direcionais conforme descrito na seção de Modalidades exemplificativas do pedido de patente EP 10306472.1.[077] After decomposition, the reduced-order environmental AOS component is transformed to the spatial domain, and is perceptually encoded together with the directional signals as described in the Exemplary embodiments section of patent application EP 10306472.1.

[078]O processamento de compressão inclui duas etapas sucessivas, que são representadas na Figura 2. As definições exatas dos sinais individuais estão descritas na seção que se segue intitulada Detalhes da compressão.[078] Compression processing includes two successive steps, which are represented in Figure 2. The exact definitions of the individual signals are described in the following section entitled Compression Details.

[079]Na primeira etapa ou estágio mostrada na Figura 2a, em um estimador da direção dominante 22 as direções dominantes são estimadas e é realizada a decomposição do sinal Ambissônico C(l) em um componente direcional e um componente residual ou ambiental, onde I denota o índice do quadro. O componente direcional é calculado em uma etapa ou estágio de computação do sinal direcional 23, e assim a representação Ambissônico é convertida nos sinais do domínio do tempo representados por um conjunto de D sinais direcionais convencionais X(l) com direções correspondents. O componente ambiental residual é calculado em uma etapa ou estágio de computação do componente AOS ambiental 24, e é representado pelos coeficientes de domínio da AOS CA(l).[079] In the first step or stage shown in Figure 2a, in a dominant direction estimator 22 the dominant directions are estimated and the Ambisonic signal C(l) is decomposed into a directional component and a residual or environmental component, where I denotes the frame index. The directional component is calculated in a step or stage of computing the directional signal 23, and thus the Ambisonic representation is converted into the time domain signals represented by a set of D conventional directional signals X(l) with corresponding directions . The residual environmental component is calculated in a computation step or stage of the environmental AOS component 24, and is represented by the AOS domain coefficients CA(l).

[080]Na segunda etapa mostrada na Figura 2b, uma codificação perceptiva dos sinais direcionais X(l) e do componente AOS ambiental CA(V) é realizada da seguinte maneira:- Os sinais direcionais do domínio do tempo convencionais X(l) podem ser comprimidos individualmente em um codificador perceptivo 27 utilizando qualquer técnica de compressão perceptiva conhecida. - A compressão do componente do domínio da AOS ambiental CA(l) é realizada em duas subetapas ou estágios.[080] In the second step shown in Figure 2b, a perceptual encoding of the directional signals be individually compressed in a perceptual encoder 27 using any known perceptual compression technique. - Compression of the CA(l) environmental AOS domain component is performed in two substeps or stages.

[081]A primeira subetapa ou estágio 25 realiza a redução da ordem original de Ambissônico N para NRED, por exemplo, NRED = 2, resultando no componente AOS ambiental CA,RED(l). Aqui, é explorada a assunção de que o componente do campo sonoro ambiental pode ser representado com exatidão por AOS com uma ordem inferior. A segunda subetapa ou estágio 26 baseia-se na compressão descrita no pedido de patente EP 10306472.1. Os 0RED: = (NRED + 1)2 AOS sinais CA,RED(l) do componente do campo sonoro ambiental, que foram computados na subetapa/estágio 25, são transformados em ORED sinais equivalentes WA,RED(l) no domínio espacial através da aplicação de uma Transformada Harmônica Esférica, resultando em sinais de domínio do tempo convencionais que podem ser inseridos em um banco de codecs perceptivos paralelos 27. Qualquer codificação perceptiva ou compressão técnica conhecida pode ser aplicada. Os sinais direcionais codificadose os sinais do domínio espacial codificados de ordem reduzida são emitidos e podem ser transmitidos ou armazenados.[081] The first substep or stage 25 performs the reduction of the original order from Ambisonic N to NRED, for example, NRED = 2, resulting in the environmental AOS component CA,RED(l). Here, the assumption that the environmental sound field component can be accurately represented by AOS with a lower order is explored. The second substep or stage 26 is based on the compression described in patent application EP 10306472.1. The 0RED: = (NRED + 1)2 AOS signals CA,RED(l) of the environmental sound field component, which were computed in substep/stage 25, are transformed into ORED equivalent signals WA,RED(l) in the spatial domain through of applying a Spherical Harmonic Transform, resulting in conventional time domain signals that can be input into a bank of parallel perceptual codecs 27. Any known perceptual coding or compression technique can be applied. Coded directional signals and reduced-order encoded spatial domain signals are emitted and can be transmitted or stored.

[082]Como vantagem, a compressão perceptiva de todos os sinais do domínio do tempo X(l) e WA,RED(l) pode ser executada conjuntamente em um codificador perceptivo 27 a fim de aprimorar a eficiência geral da codificação explorando as correlações intercanais potencialmente remanescentes.[082] As an advantage, perceptual compression of all time domain signals potentially remaining.

DescompressãoDecompression

[083]O processamento de descompressão para um sinal recebido ou reproduzido é representado na Figura 3. Assim como o processamento de compressão, inclui duas etapas sucessivas.[083] Decompression processing for a received or reproduced signal is represented in Figure 3. Like compression processing, it includes two successive steps.

[084]Na primeira etapa ou estágio mostrado na Figura 3a, em uma decodificação perceptiva 31, realiza-se uma decodificação ou descompressão perceptiva dos sinais direcionais codificados e dos sinais do domínio espacial codificados de ordem reduzida onde representa o componente e representa o componente AOS ambiental. Os sinais do domínio espacial decodificados ou descomprimidos perceptivamente são transformados em um transformador inverso da harmônica esférica 32 em uma representação do domínio da AOS dada ordem NRED por meio de uma transformada inversa da Harmônica Esférica. Depois disso, em uma etapa ou estágio de extensão da ordem 33, uma representação apropriada AOS da ordem N é estimada a partir de por extensão da ordem.[084] In the first step or stage shown in Figure 3a, in a perceptual decoding 31, a perceptual decoding or decompression of the encoded directional signals is carried out and reduced-order coded spatial domain signals where represents the component and represents the environmental AOS component. The perceptually decoded or decompressed spatial domain signals are transformed into a 32 spherical harmonic inverse transformer in a representation of the AOS domain of the of order NRED through an inverse transform of the Spherical Harmonic. Thereafter, in a step or extension stage of order 33, an appropriate representation AOS of order N is estimated from by extension of the order.

[085]Na segunda etapa ou estágio mostrada na Figura 3b, a representação AOS totalé recomposta em um montador do sinal AOS 34 a partir dos sinais direcionais e das informações direcionais correspondentes , bem como a partir do componente AOS ambiental de ordem original .[085] In the second stage or stage shown in Figure 3b, the total AOS representation is recomposed in an AOS 34 signal assembler from the directional signals and corresponding directional information , as well as from the original order environmental AOS component .

[086]Redução da taxa de dados obtenível[086] Obtainable data rate reduction

[087]Um problema solucionado pela invenção é a redução considerável da taxa de dados em comparação aos métodos de compressão existentes para as representações AOS. A seguir, discute-se a taxa de compressão obtenível em comparação com a representação AOS não comprimido. A taxa de compressão resulta da comparação da taxa de dados requerida para a transmissão de um sinal AOS não comprimido C(l) de ordem N com a taxa de dados requerida para a transmissão de uma representação de sinal comprimido que consiste em D sinais direcionais codificados perceptivamente X(l) com as direções correspondentes e NRED sinais codificados perceptivamente do domínio espacial WA,RED(I) representando o componente AOS ambiental.[087] One problem solved by the invention is the considerable reduction in data rate compared to existing compression methods for AOS representations. Next, we discuss the achievable compression ratio in comparison to the uncompressed AOS representation. The compression ratio results from comparing the data rate required for transmission of an uncompressed AOS signal C(l) of order N with the data rate required for transmission of a compressed signal representation consisting of D coded directional signals perceptually X(l) with the corresponding directions and NRED perceptually encoded signals from the spatial domain WA,RED(I) representing the environmental AOS component.

[088]Para a transmissão do sinal AOS não comprimido C(l), uma taxa de dados de é requerida. Por outro lado, a transmissão de D sinais direcionais codificados perceptivamente X(l) requer uma taxa de dados de onde denota a taxa de bit dos sinais codificados perceptivamente. Do mesmo modo, a transmissão dos NRED sinais codificados perceptivamente do domínio espacial WA,RED(I) sinais requer uma taxa de bit de [088] For the transmission of the uncompressed AOS signal C(l), a data rate of is required. On the other hand, transmission of D perceptually encoded directional signals X(l) requires a data rate of where denotes the bit rate of perceptually encoded signals. Likewise, transmission of NRED signals perceptually encoded from the spatial domain WA,RED(I) signals requires a bit rate of

[089]As direções são assumidas como sendo computadas com base em uma taxa bem menor do que a taxa de amostragem , isto é, são assumidas como sendo fixas pela duração de um sinal quadro consistindo de amostras B, por exemplo, B = 1200 para uma taxa de amostragem de = 48kHz, e a parcela correspondente da taxa de dados pode ser desprezada para a computação da taxa de dados total do sinal AOS comprimido.[089] Directions are assumed to be computed based on a rate much lower than the sampling rate , that is, they are assumed to be fixed for the duration of a frame signal consisting of B samples, e.g., B = 1200 for a sampling rate of = 48kHz, and the corresponding portion of the data rate can be neglected to compute the total data rate of the compressed AOS signal.

[090]Portanto, a transmissão da representação comprimida requer uma taxa de dados de aproximadamente. Consequentemente, a taxa de compressão é [090] Therefore, transmission of the compressed representation requires a data rate of approximately . Consequently, the compression ratio It is

[091]Por exemplo, a compressão de uma representação AOS de ordem N = 4 empregando uma taxa de amostragem = 48kHz e Nb = 16 bits por amostra para uma representação com D = 3 direções dominantes utilizando uma ordem AOS reduzida NRED = 2 e uma taxa de bit de 64 kbits/s resultará em uma taxa de compressão de . A transmissão da representação comprimida requer uma taxa dede aproximadamente 768 kbits/s.[091] For example, compressing an AOS representation of order N = 4 using a sampling rate = 48kHz and Nb = 16 bits per sample for a representation with D = 3 dominant directions using a reduced AOS order NRED = 2 and a bit rate of 64 kbits/s will result in a compression ratio of . Transmission of the compressed representation requires a rate of approximately 768 kbits/s.

[092]Probabilidade reduzida para a ocorrência do desmascaramento do ruído da codificação[092] Reduced probability of coding noise unmasking occurring

[093]Conforme explicação na seção de Antecedentes, a compressão perceptiva dos sinais do domínio espacial descrita no pedido de patente EP 10306472.1 sofre com as correlações cruzadas remanescentes entre os sinais, o que pode levar ao desmascaramento do ruído da codificação perceptiva. De acordo com a invenção, os sinais direcionais dominantes são primeiramente extraídos da representação do campo sonoro AOS antes de serem codificados perceptivamente. Isso significa que, quando se compõe a representação AOS, após a decodificação perceptiva, o ruído da codificação possui exatamente a mesma diretividade espacial dos sinais direcionais. Em particular, as contribuições do ruído da codificação, bem como do sinal direcional para qualquer direção arbitrária, são descritas deterministicamente descrito pela função da dispersão espacial explicada na seção Resolução espacial com ordem finita. Em outras palavras, em qualquer momento instantâneo, o vetor dos coeficientes AOS que representam o ruído da codificação é exatamente um múltiplo do vetor dos coeficientes AOS que representam o sinal direcional. Sendo assim, uma soma ponderada arbitrariamente dos coeficientes AOS com ruído não resultará no desmascaramento do ruído de codificação perceptiva.[093] As explained in the Background section, the perceptual compression of spatial domain signals described in patent application EP 10306472.1 suffers from the remaining cross-correlations between the signals, which can lead to the unmasking of perceptual coding noise. According to the invention, dominant directional signals are first extracted from the AOS sound field representation before being perceptually encoded. This means that, when composing the AOS representation, after perceptual decoding, the coding noise has exactly the same spatial directivity as the directional signals. In particular, the contributions of the coding noise, as well as the directional signal for any arbitrary direction, are deterministically described by the spatial dispersion function explained in the section Spatial resolution with finite order. In other words, at any instantaneous time, the vector of AOS coefficients representing the coding noise is exactly a multiple of the vector of AOS coefficients representing the directional signal. Therefore, an arbitrarily weighted sum of the noisy AOS coefficients will not result in the unmasking of perceptual coding noise.

[094]Ademais, o componente ambiental de ordem reduzida é processado exatamente como sugere o documento EP 10306472.1, contudo, como, por definição, os sinais do domínio espacial do componente ambiental exibem uma correlação especialmente baixa entre si, a probabilidade para o desmascaramento do ruído da codificação perceptiva é baixa.[094] Furthermore, the reduced-order environmental component is processed exactly as EP 10306472.1 suggests, however, as, by definition, the spatial domain signals of the environmental component exhibit an especially low correlation with each other, the probability for unmasking the Perceptual coding noise is low.

Estimativa de direção aprimoradaImproved direction estimation

[095]A estimativa de direção da invenção depende da distribuição da energia direcional do componente AOS energeticamente dominante. A distribuição da energia direcional é computada a partir matriz de correlação de classe reduzida da representação AOS, que é obtida pela decomposição de valor próprio da matriz de correlação da representação AOS.[095] The estimation of the direction of the invention depends on the distribution of the directional energy of the energetically dominant AOS component. The directional energy distribution is computed from the reduced class correlation matrix of the AOS representation, which is obtained by eigenvalue decomposition of the correlation matrix of the AOS representation.

[096]Comparada à estimativa de direção utilizada no artigo já mencionado "Plane-wave decomposition...", oferece a vantagem de ser mais precisa, pois se concentra no componente AOS energeticamente dominante invés de utilizar a representação AOS completa, já que a estimativa de direção reduz o borramento espacial da distribuição de energia direcional.[096] Compared to the direction estimation used in the aforementioned article "Plane-wave decomposition...", it offers the advantage of being more accurate, as it focuses on the energetically dominant AOS component instead of using the complete AOS representation, since the Direction estimation reduces spatial blur of directional energy distribution.

[097]Comparada à estimativa de direção sugerida nos artigos já mencionados "The Application of Compressive Sampling to the Analysis and Synthesis of Spatial Sound Fields" e "Time Domain Reconstruction of Spatial Sound Fields using Compressed Sensing", oferece a vantagem de ser mais robusta. A razão é que a decomposição da representação AOS no componente direcional e ambiental praticamente não consegue ser alcançada com perfeição, de modo que ainda resta uma pequena quantidade do componente ambiental no componente direcional. Então, os métodos de amostragem compressiva como os desses dois artigos são falhos em fornecer estimativas de direção razoável em decorrência de sua elevada sensibilidade à presença dos sinais ambientais.[097] Compared to the direction estimation suggested in the aforementioned articles "The Application of Compressive Sampling to the Analysis and Synthesis of Spatial Sound Fields" and "Time Domain Reconstruction of Spatial Sound Fields using Compressed Sensing", it offers the advantage of being more robust . The reason is that the decomposition of the AOS representation into the directional and environmental component practically cannot be achieved perfectly, so that there is still a small amount of the environmental component left in the directional component. Therefore, compressive sampling methods such as those in these two articles fail to provide reasonable direction estimates due to their high sensitivity to the presence of environmental signals.

[098]Como vantagem, a estimativa de direção da invenção não demonstra esse problema.[098] As an advantage, the invention direction estimate does not demonstrate this problem.

Aplicações alternativas da decomposição da representação AOSAlternative applications of the AOS representation decomposition

[099]A decomposição descrita da representação AOS em diversos sinais direcionais com informações direcionais correlatas e um componente ambiental no domínio da AOS pode ser utilizada para uma renderização similar à DirAc adaptativa ao sinal da representação AOS de acordo com a sugerida no já mencionado artigo de Pulkki "Spatial Sound Reproduction with Directional Audio Coding".[099] The described decomposition of the AOS representation into several directional signals with related directional information and an environmental component in the AOS domain can be used for a rendering similar to the adaptive DirAc to the AOS representation signal in accordance with that suggested in the aforementioned article by Pulkki "Spatial Sound Reproduction with Directional Audio Coding".

[0100]Cada componente AOS pode ser renderizado distintamente porque as características físicas dos dois componentes são diferentes. Por exemplo, os sinais direcionais podem ser renderizados para os alto-falantes utilizando técnicas de posicionamento de sinal como o Posicionamento da Amplitude Baseada em Vetor (Vetor Based Amplitude Panning - VBAP), cf. V. Pulkki, "Virtual Sound Source Positioning using Vector Base Amplitude Panning", Journal of Audio Eng. Society, vol. 45, n° 6, pp.456-466, 1997. O componente AOS ambiental pode ser renderizado utilizando as técnicas de renderização AOS convencionais conhecidas.[0100] Each AOS component can be rendered distinctly because the physical characteristics of the two components are different. For example, directional signals can be rendered to speakers using signal positioning techniques such as Vector Based Amplitude Panning (VBAP), cf. V. Pulkki, "Virtual Sound Source Positioning using Vector Base Amplitude Panning", Journal of Audio Eng. Society, vol. 45, No. 6, pp.456-466, 1997. The environmental AOS component can be rendered using known conventional AOS rendering techniques.

[0101]Essa renderização não se restringe à representação Ambissônico da ordem ' 1 ' e, assim, pode ser observada como uma extensão da renderização similar à DirAC para as representações AOS da ordem N > 1.[0101] This rendering is not restricted to the Ambisonic representation of order '1' and, thus, can be observed as an extension of DirAC-like rendering for AOS representations of order N > 1.

[0102]A estimativa das diversas direções a partir de uma representação do sinal AOS pode ser utilizada para qualquer tipo relacionado da análise do campo sonoro.[0102] The estimation of the various directions from a representation of the AOS signal can be used for any related type of sound field analysis.

[0103]As seções a seguir descrevem em mais profundidade as etapas de processamento do sinal.[0103] The following sections describe in more depth the signal processing steps.

CompressãoCompression Definição do formato de entradaSetting the input format

[0104]Como entrada, os coeficientes AOS do domínio do tempo escalonado definidos na equação (26) são assumidos como sendo amostrados em uma taxa .[0104] As input, the scaled time domain AOS coefficients defined in equation (26) are assumed to be sampled at a rate .

[0105]Define-se um vetor c(j) para ser formado de todos os coeficientes pertencentes ao tempo de amostragem de acordo com [0105] A vector c(j) is defined to be formed from all coefficients belonging to the sampling time according to

QuadrosPictures

[0106]Os vetores de entrada c(j) dos coeficientes AOS escalonados são organizados em quadros na etapa ou estágio de quadros 21 em quadros não sobrepostos de comprimento B de acordo com [0106] The input vectors c(j) of the scaled AOS coefficients are arranged in frames at step or frame stage 21 in non-overlapping frames of length B according to

[0107]Assumindo uma taxa de amostragem de = 48kHz, um comprimento de quadro adequado é de B = 1200 amostras, correspondendo a uma duração de um quadro de 25ms.[0107] Assuming a sampling rate of = 48kHz, a suitable frame length is B = 1200 samples, corresponding to a frame length of 25ms.

Estimativa das direções dominantesEstimation of dominant directions

[0108]Para a estimativa das direções dominantes a seguinte matriz de correlação é computada. [0108] To estimate the dominant directions the following correlation matrix is computed.

[0109]O somatório em relação ao quadro corrente l e L-1 quadros anteriores indica que a análise direcional é baseada em grupos de quadros sobrepostos longos com L.B amostras, isto é, para cada quadro corrente o conteúdo de quadros adjacentes é levado em consideração. Isso contribui para a estabilidade da análise direcional por duas razões: quadros mais longos estão resultando em um número maior de observações, e as estimativas da direção são suavizada devido aos quadros em sobreposição.[0109] The summation over the current frame l and previous L-1 frames indicates that the directional analysis is based on groups of long overlapping frames with L.B samples, that is, for each current frame the content of adjacent frames is taken into account. This contributes to the stability of the directional analysis for two reasons: longer frames are resulting in a larger number of observations, and the direction estimates are smoothed due to the overlapping frames.

[0110]Assumindo fs = 48kHz e B = 1200, um valor razoável para L é 4, correspondendo a uma duração geral de um quadro de 100ms.[0110] Assuming fs = 48kHz and B = 1200, a reasonable value for L is 4, corresponding to a general frame duration of 100ms.

[0111]Em seguida, uma decomposição de valor próprio da matriz de correlação B (l) é determinada de acordo comem que a matriz V(l) é formadas de vetores próprios Vi(l), 1< i < 0, como e a matriz é uma matriz diagonal com os valores próprios correspondentes em sua diagonal: [0111]Next, an eigenvalue decomposition of the correlation matrix B(l) is determined according to where the matrix V(l) is formed by eigenvectors Vi(l), 1< i < 0, as and the matrix is a diagonal matrix with corresponding eigenvalues on its diagonal:

[0112]Assume-se que os valores próprios são indexados em ordem não ascendente, isto é Depois disso, o conjunto do índice de valores próprios dominantes é computado. Uma possibilidade para administrar isso é definir uma razão de energia direcional-ambiental da largura de banda mínima desejada DARMIN e então determiner de modo que [0112] It is assumed that the eigenvalues are indexed in non-ascending order, i.e. After that, the index set of dominant eigenvalues is computed. One possibility to manage this is to define a directional-to-environmental power ratio of the minimum desired DARMIN bandwidth and then determine so that

[0113]Uma escolha razoável para DARMIN é 15dB. O número de valores próprios dominantes é ainda mais restringido para não ser maior que D a fim de se concentrar em no máximo D direções dominantes. Isso é obtido com a substituição do conjunto do índice [0113] A reasonable choice for DARMIN is 15dB. The number of dominant eigenvalues is further constrained to be no greater than D in order to focus on at most D dominant directions. This is achieved by replacing the index set

[0114]Em seguida, a aproximação de classe de B(l) é obtida por [0114] Then, approaching class of B(l) is obtained by

[0115]Esta matriz deve conter as contribuições dos componente direcionais dominantes para B(l). Depois disso, computa-se o vetoronde denota uma matriz de modo em relação a um número elevado de direções de teste quase igualmente distribuídas onde d denota o ângulo de inclinação medido desde o eixo polar z e de edenota o ângulo do azimute medido no plano x=y desde o eixo x.[0115] This matrix must contain the contributions of the dominant directional components to B(l). After that, the vector is computed where denotes a mode matrix with respect to a high number of almost equally distributed test directions where d denotes the angle of inclination measured from the polar axis ze of e denotes the azimuth angle measured in the x=y plane from the x axis.

[0116]A matriz de modo é definida por com para i< q < Q.[0116]The mode matrix is defined by with for i< q < Q.

[0117]Os elementos de são aproximações das energias de ondas planas, correspondendo aos sinais direcionais dominantes, partindo das direções em colisão. A explicação teórica para isso é fornecida na seção abaixo intitulada Explicação do algoritmo de busca da direção.[0117]The elements of they are approximations of plane wave energies, corresponding to the dominant directional signals, starting from the colliding directions. The theoretical explanation for this is provided in the section below titled Direction Finding Algorithm Explanation.

[0118]A partir de um número de direções dominantes [0118] From a number of dominant directions

[0119] para a determinação dos componentes do sinal direcional é computado. O número de direções dominantes está assim limitado a satisfazer a fim de garantir uma taxa de dados constante. No entanto, se permitida uma taxa de dados variável, o número de direções dominantes pode ser adaptado para a cena sonora corrente.[0119] for determining the components of the directional signal is computed. The number of dominant directions is thus limited to satisfy in order to guarantee a constant data rate. However, if a variable data rate is allowed, the number of dominant directions can be adapted to the current sound scene.

[0120]Uma possibilidade de computar as direções dominantes é estabelecer a primeira direção dominante com a energia máxima, isto é, Assumindo que o máximo da energia é criado por um sinal direcional dominante, e considerando o fato de que o uso de uma representação AOS de ordem finita N resulta em uma dispersão espacial dos sinais direcionais (cf. o já mencionado artigo "Plane-wave decomposition..."), é possível concluir que nas proximidades direcionais de deve haver componentes de energia pertencentes ao mesmo sinal direcional. Como a dispersão do sinal espacial pode ser expressa pela função (vide a equação (38)), onde denota o ângulo entre e , a energia pertencente ao sinal direcional declina de acordo com Portanto, é razoável excluir todas as direções nas proximidades direcionais de com para a busca de outras direções dominantes. A distância pode ser escolhida como o primeiro zero de que é aproximadamente dado por para N ≥ 4. A segunda direção dominante é então estabelecida para isso com a energia máxima nas direções remanescentes . As direções dominantes remanescentes são determinadas de maneira análoga.[0120] A possibility of computing the dominant directions is to establish the first dominant direction with the maximum energy, that is, Assuming that the energy maximum is created by a dominant directional signal, and considering the fact that the use of an AOS representation of finite order N results in a spatial dispersion of the directional signals (cf. the aforementioned article "Plane-wave decomposition ...), it is possible to conclude that in the directional proximity of there must be power components belonging to the same directional signal. How can the dispersion of the spatial signal be expressed by the function (see equation (38)), where denotes the angle between It is , the energy belonging to the directional signal declines according to Therefore, it is reasonable to exclude all directions in the directional vicinity of with for the search for other dominant directions. From a distance can be chosen as the first zero of which is approximately given by for N ≥ 4. The second dominant direction is then established for this with the maximum energy in the remaining directions . The remaining dominant directions are determined in an analogous manner.

[0121]O númerode direções dominantes pode ser determinado considerando as energias atribuídas às direções dominantes individuais e usando o caso em que a razão excede o valor de uma razão direcional- ambiental desejada DARMIN. Isso significa que satisfaz [0121]The number of dominant directions can be determined by considering the energies attributed to individual dominant directions and using the case where the reason exceeds the value of a desired DARMIN directional-environmental ratio. This means that satisfies

[0122]O processamento geral para a computação de todas as direções dominantes pode ser realizada da seguinte maneira: Algoritmo 1 Busca de direções dominantes dada a distribuição de energia na esfera PowerFlag = verdadeiro repetir PowerFlag = falso Do contrário Terminar se até [d > D v PowerFlag = falso] [0122] The general processing for computing all dominant directions can be performed as follows: Algorithm 1 Search for dominant directions given the energy distribution in the sphere PowerFlag = true repeat PowerFlag = false Otherwise Terminate if by [d > D v PowerFlag = false]

[0123]Em seguia, as direções obtidas no quadro corrente são suavizadas com as direções dos quadros anteriores, resultando nas direções suavizadas . Esta operação pode ser subdividida em duas partes sucessivas: (a) As direções dominantes correntes são atribuídas às direções suavizadas do quadro anterior. A função de atribuição é determinada de modo que a soma dos ângulos entre direções atribuídas minimizada. Esse problema de atribuição pode ser solucionado utilizando o algoritmo húngaro bastante conhecido, cf. H.W. Kuhn, "The Hungarian method for the attribution problem", Naval research logistics quarterly 2, n° 1-2, pp.83-97, 1955.[0123]Next, the directions obtained in the current frame are smoothed with the directions of the previous frames, resulting in the smoothed directions . This operation can be subdivided into two successive parts: (a) The current dominant directions are assigned to the smoothed directions of the previous table. The assignment function is determined so that the sum of the angles between assigned directions minimized. This assignment problem can be solved using the well-known Hungarian algorithm, cf. HW Kuhn, "The Hungarian method for the attribution problem", Naval research logistics quarterly 2, n° 1-2, pp.83-97, 1955.

[0124]Os ângulos entre as direções correntese as direções inativas (vide abaixo para explicação do termo “direção inativa”) do quadro anteriorsão estabelecidas para . Esta operação tem como efeito o fato de que as direções correntes que estão mais próximas do que 20MIN das direções previamente ativas , estão tentando ser atribuídas a elas. Se a distância exceder , a direção corrente correspondente é assumida como pertencendo a um novo sinal, o que significa que estar favorecido para a atribuição de uma direção previamente inativa [0124] The angles between the current directions and inactive directions (see below for explanation of the term “inactive direction”) from the previous table are established to . This operation has the effect that the current directions that are closer than 20MIN to previously active directions , are trying to be attributed to them. If the distance exceeds , the corresponding current direction is assumed to belong to a new signal, which means that it is favored for assignment to a previously inactive direction

[0125]Nota: quando se permite uma maior latência do algoritmo de compressão total, a atribuição das estimativas de direção sucessivas pode ser executada de forma mais robusta. Por exemplo, mudanças abruptas de direção podem ser mais identificadas sem misturá-las com os valores atípicos resultantes dos erros de estimativa.(b) As direções suavizadas são computadas utilizando a atribuição da etapa (a). A suavização se baseia na geometria esférica e não na geometria euclidiana. Para cada uma das direções dominantes correntes a suavização é realizada ao longo do arco menor do maior círculo que cruza os dois pontos sobre a esfera, os quais são especificados pelas direções . Explicitamente, os ângulos do azimute e da inclinação são suavizados independentemente computando a média ponderada exponencialmente com um fator de suavização . Para o ângulo de inclinação isso resulta na seguinte operação de suavização: [0125] Note: When allowing for greater latency of the total compression algorithm, the assignment of successive direction estimates can be performed more robustly. For example, abrupt changes in direction can be better identified without mixing them with outliers resulting from estimation errors.(b) Smoothed directions are computed using the assignment from step (a). Smoothing is based on spherical geometry and not Euclidean geometry. For each of the current dominant directions smoothing is performed along the minor arc of the greatest circle that intersects the two points on the sphere, which are specified by the directions . Explicitly, the azimuth and tilt angles are smoothed independently by computing the exponentially weighted average with a smoothing factor . For the draft angle this results in the following smoothing operation:

[0126]Para o ângulo do azimute, a suavização deve ser modificada para que se obtenha a suavização correta na transição de π - ε para -π, ε > 0, e na transição na direção oposta. Isso pode ser levado em consideração computando primeiramente o módulo do ângulo da diferença 2π como que é convertido para o intervalo [-π,π[ por [0126] For the azimuth angle, the smoothing must be modified to obtain the correct smoothing in the transition from π - ε to -π, ε > 0, and in the transition in the opposite direction. This can be taken into account by first computing the magnitude of the difference angle 2π as which is converted to the range [-π,π[ by

[0127]O módulo do ângulo do azimute dominante suavizado 2π é determinado como e é finalmente convertido para recair no intervalo [-π,π[ por [0127] The modulus of the smoothed dominant azimuth angle 2π is determined as and is finally converted to fall in the interval [-π,π[ by

[0128]No caso existem direções do quadro anterior que não obtém uma direção dominante corrente atribuída. O conjunto do índice correspondente é denotado por [0128] In case there are directions from the previous frame that does not get a current dominant direction assigned. The corresponding index set is denoted by

[0129]As respectivas direções são copiadas do último quadro, isto é, [0129]The respective directions are copied from the last frame, i.e.

[0130]As direções que não forem atribuídas a um número previamente definido de quadros são denominadas inativas.[0130] Directions that are not assigned to a previously defined number of frames are called inactive.

[0131]Depois disso, o conjunto do índice das direções ativas denotado por é computado. Sua cardinalidade é denotada por.[0131] After that, the index set of active directions denoted by is computed. Its cardinality is denoted by .

[0132]Em seguida, todas as direções suavizadas são concatenadas em uma única matriz de direção como [0132] Then all smoothed directions are concatenated into a single direction matrix as

Computação de sinais direcionaisComputing directional signals

[0133]A computação dos sinais direcionais se baseia na correspondência de modo. Em particular, realiza-se uma busca para aqueles sinais direcionais cuja representação AOS resulta na melhor aproximação de dado sinal AOS. Como as mudanças de direções entre quadros sucessivos podem levar a uma descontinuidade dos sinais direcionais, as estimativas dos sinais direcionais para quadros em sobreposição podem ser computadas, seguida pela suavização dos resultados de quadros sucessivamente sobrepostos utilizando uma função de janela apropriada. A suavização, no entanto, introduz a latência de um único quadro.[0133] The computation of directional signals is based on mode matching. In particular, a search is performed for those directional signals whose AOS representation results in the best approximation of the given AOS signal. Since changes in directions between successive frames can lead to a discontinuity of the directional signals, estimates of the directional signals for overlapping frames can be computed, followed by smoothing the results for successively overlapping frames using an appropriate window function. Smoothing, however, introduces single-frame latency.

[0134]A estimativa detalhada dos sinais direcionais é explicada a seguir:[0134] The detailed estimation of directional signals is explained below:

[0135]Em primeiro lugar, a matriz de modo baseada nas direções suavizadas ativas é computada de acordo com em que denota os índices das direções ativas.[0135] Firstly, the mode matrix based on the active smoothed directions is computed according to on what denotes the indices of the active directions.

[0136]Em seguida, é computada uma matrizque contém as estimativas não suavizadas de todos os sinais direcionais para o (l -1)-ésimo e (l)- ésimo quadro:Com [0136] Next, a matrix is computed which contains the unsmoothed estimates of all directional signals for the (l -1)-th and (l)-th frame: With

[0137]Isso é realizado em duas etapas. Na primeira etapa, as amostras do sinal direcional nas fileiras correspondentes às direções inativas são definidas em zero, isto é, [0137] This is accomplished in two steps. In the first step, the directional signal samples in the rows corresponding to the inactive directions are set to zero, i.e.

[0138]Na segunda etapa, as amostras do sinal direcional correspondentes às direções ativas são obtidas primeiramente organizando-as em uma matriz de acordo com [0138] In the second step, the directional signal samples corresponding to the active directions are obtained by first organizing them into a matrix according to

[0139]Esta matriz é então computada de modo a minimizar a norma euclidiana do erro A solução é dada por [0139] This matrix is then computed in order to minimize the Euclidean error norm The solution is given by

[0140]As estimativas dos sinais direcionais,são colocadas em janela por uma função de janela apropriada w(j): [0140] Estimates of directional signals ,are windowed by an appropriate windowing function w(j):

[0141]Um exemplo para a função de janela é dado pela janela de Hamming periódica definida por onde KW denota um fator de escalonamento que é determinado de modo que a soma das janelas deslocadas equivale a '1'. Os sinais direcionais suavizados para o (l-1)-ésimo quadro são computados pela sobreposição apropriada de estimativas não suavizadas em janela de acordo com [0141] An example for the window function is given by the periodic Hamming window defined by where KW denotes a scaling factor that is determined so that the sum of the shifted windows equals '1'. Smoothed directional signals for the (l-1)th frame are computed by appropriately overlaying unsmoothed windowed estimates according to

[0142]As amostras de todos os sinais direcionais suavizados para o (l-1)- ésimo quadro são arranjadas na matriz X(l-1) como com [0142] The samples of all smoothed directional signals for the (l-1)-th frame are arranged in the matrix X(l-1) as with

Computação do componente AOS ambientalEnvironmental AOS component computation

[0143]O componente AOS ambiental CA(l-1) é obtido subtraindo-se o componente AOS direcional total CDIR(l-1) da representação AOS total C(l-1) de acordo com onde CDIR(l-1) é determinado por e onde denota a matriz de modo baseada em todas as direções suavizadas definidas por [0143] The environmental AOS component CA(l-1) is obtained by subtracting the total directional AOS component CDIR(l-1) from the total AOS representation C(l-1) according to where CDIR(l-1) is determined by and where denotes the mode matrix based on all smoothed directions defined by

[0144]Como a computação do componente AOS direcional total também está baseada em uma suavização espacial dos componentes AOS direcionais totais instantâneos sucessivos em sobreposição, o componente AOS ambiental também é obtido com uma latência de um único quadro.[0144] Since the computation of the total directional AOS component is also based on a spatial smoothing of successive instantaneous overlapping total directional AOS components, the environmental AOS component is also obtained with a latency of a single frame.

Redução da ordem para o componente AOS ambientalOrder Reduction for Environmental AOS Component

[0145]Ao expressar CA( l-1) através de seus componentes como a redução da ordem é realizada causando a queda de todos os coeficientes AOS com n > NRED: 108 [0145] When expressing CA( l-1) through its components as order reduction is performed causing all AOS coefficients to drop with n > NRED: 108

[0146]Transformada Harmônica Esférica para o componente AOS ambiental[0146] Spherical Harmonic Transform for the environmental AOS component

[0147]A Transformada Harmônica Esférica é realizada pela multiplicação do componente AOS ambiental de ordem reduzida com a inversa da matriz de modo com baseada em ORED que são as direções uniformemente distribuídas [0147] The Spherical Harmonic Transform is performed by multiplying the reduced order environmental AOS component with the inverse of the mode matrix with based on ORED which are uniformly distributed directions

DescompressãoDecompression Transformada Inversa de Harmônica EsféricaSpherical Harmonic Inverse Transform

[0148]Os sinais do domínio espacial perceptivamente descomprimidos são transformados para uma representação do domínio da AOS da ordem NRED por meio de um Transformada Inversa de Harmônicas Esféricas por [0148] Perceptually uncompressed spatial domain signals are transformed to a representation of the AOS domain of order NRED through an Inverse Transform of Spherical Harmonics by

Extensão da ordemExtension of the order

[0149]A ordem de Ambissônico da representação AOS estendida para N através da anexação de zeros de acordo com onde θmxn denota uma matriz zero com m fileiras e n colunas[0149] The Ambisonic order of the AOS representation extended to N by appending zeros according to where θmxn denotes a zero matrix with m rows and n columns

Composição dos coeficientes AOSComposition of AOS coefficients

[0150]Os coeficientes AOS descomprimidos finais são adicionalmente formados pelo componente AOS direcional e ambiental de acordo com [0150] The final uncompressed AOS coefficients are additionally formed by the directional and environmental AOS component in accordance with

[0151]Neste estágio, novamente uma latência de um único quadro é introduzida para permitir que o componente AOS direcional seja computado com base na suavização espacial. Fazendo isso, potenciais descontinuidades indesejadas no componente direcional do campo sonoro resultante das mudanças das direções entre quadros sucessivos são evitadas.[0151] At this stage, again a single frame latency is introduced to allow the directional AOS component to be computed based on spatial smoothing. By doing so, potential unwanted discontinuities in the directional component of the sound field resulting from changes in directions between successive frames are avoided.

[0152]Para computar o componente AOS direcional suavizado, dois quadros sucessivos contendo as estimativas de todos os sinais direcionais individuais são concatenados em um único quadro longo como [0152] To compute the smoothed directional AOS component, two successive frames containing the estimates of all individual directional signals are concatenated into a single long frame as

[0153]Cada excerto do sinal individual contido neste quadro longo é multiplicado por uma função de janela, por exemplo, como o da equação (100). Quando se expressa o quadro longo através de seus componentes por a operação de colocação em janela pode ser formulada como a computação dos excertos do sinal em janela por [0153] Each individual signal excerpt contained in this long frame is multiplied by a window function, for example, as in equation (100). When expressing the long picture through its components by The windowing operation can be formulated as computing excerpts of the windowed signal per

[0154]Finalmente, o componente AOS direcional total CDIR(l-1) é obtido codificando todos os excertos do sinal direcional em janela nas direções apropriadas e posicionando-os em sobreposição: [0154] Finally, the total directional AOS component CDIR(l-1) is obtained by encoding all excerpts of the windowed directional signal in the appropriate directions and positioning them in overlap:

Explicação do algoritmo de busca de direçãoExplanation of Direction Finding Algorithm

[0155]A seguir, o motivo é explicado após o processamento de busca de direção descrito na seção intitulada Estimativa de direções dominantes. A explicação está fundada em algumas assunções que inicialmente são definidas.[0155] In the following, the reason is explained after the direction search processing described in the section entitled Estimation of dominant directions. The explanation is based on some assumptions that are initially defined.

AssunçõesAssumptions

[0156]Assume-se que vetor dos coeficientes AOS c(j), que em geral está relacionado à função da densidade de amplitude do domínio do tempo através de obedece ao modelo abaixo: [0156] It is assumed that the vector of AOS coefficients c(j), which in general is related to the time domain amplitude density function across follows the model below:

[0157]Este modelo declara que o vetor dos coeficientes AOS c(j), por um lado, é criado pelos / sinais da fonte direcional dominante partindo das direções no l-ésimo quadro. Em particular, assume-se que as direções são fixas pela duração de um único quadro. Assume-se que o número de sinais da fonte dominante / é distintamente menor que o número total de coeficientes AOS 0. Ademais, assume-se que o comprimento do quadro B é distintamente maior que 0. Por outro lado, o vetor c(j) consiste em um componente residual CA(j), que pode ser considerado como representando o campo sonoro ambiental idealmente isotrópico.[0157] This model states that the vector of AOS coefficients c(j), on the one hand, is created by the dominant directional source signals starting from the directions in the l-th frame. In particular, directions are assumed to be fixed for the duration of a single frame. It is assumed that the number of dominant source signals / is distinctly smaller than the total number of coefficients AOS 0. Furthermore, the length of frame B is assumed to be distinctly larger than 0. On the other hand, the vector c(j ) consists of a residual component CA(j), which can be considered to represent the ideally isotropic environmental sound field.

[0158]Assume-se que os componentes do vetor do coeficiente AOS individuais possuam as seguintes propriedades: • Os sinais da fonte dominante presumidamente possuem média zero, isto é, e presumidamente não possuem correlação entre si, isto é, com denotando a energia média do i-ésimo sinal para o l-ésimo quadro. • Os sinais da fonte dominante presumidamente não possuem correlação com o componente ambiental do vetor do coeficiente AOS, isto é, que um valor desejado previamente definido DARMIN, isto é, ● O vetor do componente AOS ambiental presumidamente é uma média zero e presumidamente possui a matriz de covariância ●A razão da energia direcional/ambiente DAR(l) de cada quadro Z, que é aqui definida por presumidamente é maior que um valor desejado previamente definido DARMIN, isto é, [0158] The individual AOS coefficient vector components are assumed to have the following properties: • The dominant source signals are assumed to have zero mean, i.e. and presumably have no correlation with each other, that is, with denoting the average energy of the ith signal for the lth frame. • The signals from the dominant source presumably have no correlation with the environmental component of the AOS coefficient vector, i.e., that a previously defined desired value DARMIN, i.e. ● The environmental AOS component vector is assumed to be zero mean and is assumed to have the covariance matrix ●The directional/ambient energy ratio DAR(l) of each Z frame, which is here defined by is presumably greater than a previously defined desired value DARMIN, i.e.

Explicação da busca de direçãoDirection Search Explanation

[0159]Para a explicação, considera-se o caso em que a matriz de correlação B(Z) (vide a equação (67)) é computada em função somente das amostras do l-ésimo quadro sem considerar as amostras dos L-1 quadros anteriores. Esta operação corresponde à configuração L = l. Consequentemente, a matriz de correlação pode ser expressa por [0159] For the explanation, consider the case in which the correlation matrix B(Z) (see equation (67)) is computed based only on the samples from the l-th frame without considering the samples from the L-1 previous frames. This operation corresponds to the configuration L = l. Consequently, the correlation matrix can be expressed by

[0160]Substituindo a assunção do modelo na equação (120) para a equação (128) e utilizando as equações (122) e (123) e a definição na equação (124), a matriz de correlação B(l) pode ser aproximada como [0160] By substituting the model assumption in equation (120) for equation (128) and using equations (122) and (123) and the definition in equation (124), the correlation matrix B(l) can be approximated as

[0161]A partir da equação (131) pode-se observar que B(l) consiste aproximadamente de dois componentes aditivos atribuíveis ao componente AOS direcional e ambiental. Sua aproximação da classe fornece uma aproximação do componente AOS direcional, isto é, que acompanha a equação (126) na razão de energia direcional-ambiental.[0161] From equation (131) it can be seen that B(l) approximately consists of two additive components attributable to the directional and environmental AOS component. Your approach to class provides an approximation of the directional AOS component, i.e. which accompanies equation (126) in the directional-environmental energy ratio.

[0162]No entanto, cabe destacar que alguma parte de inevitavelmente vazará para , já que de maneira geral possui classe integral e, portanto, os subespaços abrangidos pelas colunas das matrizes e não são ortogonais entre si. Com a equação (132), o vetor na equação (77), que é utilizada para a busca das direções dominantes, pode ser expressa por [0162] However, it should be noted that some part of will inevitably leak into , given that in general it has an integral class and, therefore, the subspaces covered by the columns of the matrices It is are not orthogonal to each other. With equation (132), the vector in equation (77), which is used to search for the dominant directions, can be expressed by

[0163]Na equação (135) a seguinte propriedade da Harmônica Esférica mostrada na equação (47) foi utilizada: [0163] In equation (135) the following Spherical Harmonic property shown in equation (47) was used:

[0164]A equação (136) mostra que oscomponentes de são aproximações das energias dos sinais originários das direções de teste [0164] Equation (136) shows that the components of are approximations of the energies of signals originating from the test directions

Claims (5)

1. Método para descomprimir um sinal Ambissônico de Ordem Superior (AOS) que inclui um sinal direcional codificado e um sinal ambiental codificado, em que o sinal Ambissônico de Ordem Superior (AOS) comprimido foi comprimido pelas etapas: - estimar (22) as direções dominantes; - decompor (23, 24) o sinal de AOS em diversos sinais direcionais dominantes (X(i)) no domínio do tempo e informações direcionais correlatas (, e um componente ambiental residual no domínio da AOS (CA(l))> em que o dito componente ambiental residual representa a diferença entre o sinal de AOS (C(l)) e uma representação (CDIR(l)) dos ditos sinais direcionais dominantes (X(l)); - comprimir (25) o dito componente ambiental residual reduzindo sua ordem em relação à sua ordem original; - transformar (26) o dito componente de AOS ambiental residual (CA,RED(l)) de ordem reduzida para o domínio espacial; - codificar perceptivamente (27) os ditos sinais direcionais dominantes e o dito componente de AOS ambiental residual transformado, em que o método para descomprimir um sinal Ambissônico de Ordem Superior (AOS) comprimido é CARACTERIZADO pelo fato de que compreende: receber o sinal AOS comprimido; decodificar perceptivamente (31) o sinal AOS comprimido para produzir um sinal AOS direcional decodificado e um sinal AOS ambiental decodificado; realizar extensão de ordem (33) no sinal AOS ambiental decodificado para obter uma representação do sinal AOS ambiental decodificado, em que a extensão de ordem é realizada anexando sinais com amostras com valor zero ao sinal AOS ambiental decodificado; recompor (34) uma representação AOS decodificada a partir da representação do sinal AOS ambiental decodificado e do sinal AOS direcional decodificado, em que a representação AOS decodificada possui uma ordem maior do que um.1. Method for decompressing a Higher Order Ambisonic (AOS) signal that includes a coded directional signal and a coded environmental signal, wherein the compressed Higher Order Ambisonic (AOS) signal has been compressed by the steps: - estimate (22) directions dominant; - decompose (23, 24) the AOS signal into several dominant directional signals (X(i)) in the time domain and related directional information ( , and a residual environmental component in the AOS domain (CA(l))> wherein said residual environmental component represents the difference between the AOS signal (C(l)) and a representation (CDIR(l)) of said signals dominant directionals (X(l)); - compressing (25) said residual environmental component by reducing its order in relation to its original order; - transforming (26) said reduced-order residual environmental AOS component (CA,RED(l)) to the spatial domain; - perceptually encoding (27) said dominant directional signals and said transformed residual environmental AOS component, wherein the method for decompressing a compressed Ambisonic Higher Order (AOS) signal is CHARACTERIZED by the fact that it comprises: receiving the compressed AOS signal ; perceptually decoding (31) the compressed AOS signal to produce a decoded directional AOS signal and a decoded environmental AOS signal; performing order extension (33) on the decoded environmental AOS signal to obtain a representation of the decoded environmental AOS signal, wherein the order extension is performed by attaching signals with zero-valued samples to the decoded environmental AOS signal; recomposing (34) a decoded AOS representation from the representation of the decoded environmental AOS signal and the decoded directional AOS signal, wherein the decoded AOS representation has an order greater than one. 2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que uma ordem do sinal AOS ambiental decodificado é menor do que a ordem da representação AOS decodificada.2. Method, according to claim 1, CHARACTERIZED by the fact that an order of the decoded environmental AOS signal is lower than the order of the decoded AOS representation. 3. Aparelho para descomprimir um sinal Ambissônico de Ordem Superior (AOS) que inclui um sinal direcional codificado e um sinal ambiental codificado, o sinal Ambissônico de Ordem Superior (AOS) comprimido pelas etapas de: - estimar (22) as direções dominantes; - decompor (23, 24) o sinal de AOS em diversos sinais direcionais dominantes (X(í)) no domínio do tempo e informações direcionais correlatas (, e um componente ambiental residual no domínio da AOS (CA(l)), em que o dito componente ambiental residual representa a diferença entre o sinal de AOS (C(l~)) e uma representação (CDIR(l)) dos ditos sinais direcionais dominantes (X(í)); - comprimir (25) o dito componente ambiental residual reduzindo sua ordem em relação à sua ordem original; - transformar (26) o dito componente de AOS ambiental residual (CA,RED(Z)) de ordem reduzida para o domínio espacial; - codificar perceptivamente (27) os ditos sinais direcionais dominantes e o dito componente de AOS ambiental residual transformado, o aparelho CARACTERIZADO por compreender: uma interface de entrada que recebe o sinal AOS comprimido; um decodificador de áudio que decodifica perceptivamente o sinal AOS comprimido para produzir um sinal AOS direcional decodificado e um sinal AOS ambiental decodificado, um processador para realizar a extensão de ordem no sinal AOS ambiental decodificado para obter uma representação do sinal AOS ambiental decodificado, em que a extensão de ordem é realizada anexando sinais com amostras com valor zero ao sinal AOS ambiental decodificado; um sintetizador para recompor uma representação AOS decodificada a partir da representação do sinal AOS ambiental decodificado e do sinal AOS direcional decodificado, e em que a representação AOS decodificada possui uma ordem maior do que um.3. Apparatus for decompressing a Higher Order Ambisonic signal (AOS) that includes a coded directional signal and a coded environmental signal, the Higher Order Ambisonic signal (AOS) compressed by the steps of: - estimating (22) the dominant directions; - decompose (23, 24) the AOS signal into several dominant directional signals (X(í)) in the time domain and related directional information ( , and a residual environmental component in the AOS domain (CA(l)), wherein said residual environmental component represents the difference between the AOS signal (C(l~)) and a representation (CDIR(l)) of said dominant directional signs (X(í)); - compressing (25) said residual environmental component by reducing its order in relation to its original order; - transforming (26) said residual environmental AOS component (CA,RED(Z)) of reduced order to the spatial domain; - perceptually encoding (27) said dominant directional signals and said transformed residual environmental AOS component, the apparatus CHARACTERIZED by comprising: an input interface that receives the compressed AOS signal; an audio decoder that perceptually decodes the compressed AOS signal to produce a decoded directional AOS signal and a decoded environmental AOS signal, a processor for performing order extension on the decoded environmental AOS signal to obtain a representation of the decoded environmental AOS signal, wherein order extension is performed by attaching signals with zero-valued samples to the decoded environmental AOS signal; a synthesizer for recomposing a decoded AOS representation from the representation of the decoded environmental AOS signal and the decoded directional AOS signal, and wherein the decoded AOS representation has an order greater than one. 4. Aparelho, de acordo com a reivindicação 3, CARACTERIZADO pelo fato de que uma ordem do sinal AOS ambiental decodificado é menor do que a ordem da representação AOS decodificada.4. Apparatus according to claim 3, CHARACTERIZED by the fact that an order of the decoded environmental AOS signal is smaller than the order of the decoded AOS representation. 5. Meio legível por computador não transitório, CARACTERIZADO pelo fato de conter um conjunto de instruções que quando executadas por um processador realizam o método conforme definido na reivindicação 1.5. Non-transitory computer-readable medium, CHARACTERIZED by the fact that it contains a set of instructions that when executed by a processor perform the method as defined in claim 1.
BR122020017110-3A 2012-05-14 2013-05-06 METHOD AND APPARATUS FOR DECOMPRESSING A HIGHER ORDER (AOS) AMBISSONIC SIGNAL COMPRESSED AND COMPUTER READABLE IN A NON-TRANIOUS MEDIUM BR122020017110B1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP12305537.8 2012-05-14

Publications (1)

Publication Number Publication Date
BR122020017110B1 true BR122020017110B1 (en) 2024-05-14

Family

ID=

Similar Documents

Publication Publication Date Title
US20240147173A1 (en) Method and apparatus for compressing and decompressing a higher order ambisonics signal representation
JP2015520411A5 (en)
BR112020018466A2 (en) representing spatial audio through an audio signal and associated metadata
JP2023551040A (en) Audio encoding and decoding method and device
BR122023009299B1 (en) METHOD AND APPARATUS FOR DETERMINING FOR COMPRESSION OF AN HOA DATA FRAME REPRESENTATION A LOWEST INTEGER NUMBER OF BITS REQUIRED TO REPRESENT NON-DIFFERENTIAL GAIN VALUES
BR122020017110B1 (en) METHOD AND APPARATUS FOR DECOMPRESSING A HIGHER ORDER (AOS) AMBISSONIC SIGNAL COMPRESSED AND COMPUTER READABLE IN A NON-TRANIOUS MEDIUM
BR122020017086B1 (en) METHOD AND APPARATUS FOR DECOMPRESSING A HIGHER ORDER (AOS) AMBISSONIC SIGNAL COMPRESSED AND COMPUTER READABLE IN A NON-TRANIOUS MEDIUM