BR112014028439B1 - Método e aparelho para comprimir um sinalambissônico de ordem superior (aos), método e aparelhopara descomprimir um sinal ambissônico de ordemsuperior (aos) comprimido, e representação de sinal aos - Google Patents
Método e aparelho para comprimir um sinalambissônico de ordem superior (aos), método e aparelhopara descomprimir um sinal ambissônico de ordemsuperior (aos) comprimido, e representação de sinal aos Download PDFInfo
- Publication number
- BR112014028439B1 BR112014028439B1 BR112014028439-3A BR112014028439A BR112014028439B1 BR 112014028439 B1 BR112014028439 B1 BR 112014028439B1 BR 112014028439 A BR112014028439 A BR 112014028439A BR 112014028439 B1 BR112014028439 B1 BR 112014028439B1
- Authority
- BR
- Brazil
- Prior art keywords
- aos
- component
- order
- environmental
- dominant
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000007613 environmental effect Effects 0.000 claims abstract description 95
- 239000013598 vector Substances 0.000 claims description 30
- 230000001131 transforming effect Effects 0.000 claims description 6
- 230000006835 compression Effects 0.000 abstract description 33
- 238000007906 compression Methods 0.000 abstract description 33
- 230000000875 corresponding effect Effects 0.000 abstract description 21
- 230000002596 correlated effect Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 51
- 239000011159 matrix material Substances 0.000 description 30
- 238000005070 sampling Methods 0.000 description 21
- 238000000354 decomposition reaction Methods 0.000 description 17
- 239000006185 dispersion Substances 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 238000009499 grossing Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 230000006837 decompression Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000009877 rendering Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H20/00—Arrangements for broadcast or for distribution combined with broadcast
- H04H20/86—Arrangements characterised by the broadcast information itself
- H04H20/88—Stereophonic broadcast systems
- H04H20/89—Stereophonic broadcast systems using three or more audio channels, e.g. triphonic or quadraphonic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Stereophonic System (AREA)
- User Interface Of Digital Computer (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Separation Using Semi-Permeable Membranes (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
MÉTODO E APARELHO PARA COMPRIMIR E DESCOMPRIMIR UMA REPRESENTAÇÃO DE SINAL AMBISONICS DE ORDEM SUPERIOR. Ambisonics de Ordem Superior (AOS) representa um campo sonoro completo nas proximidades de um ponto perfeito, independente da configuração de alto-falante. A resolução espacial elevada requer um número elevado de coeficientes de AOS. Na invenção, direções sonoras dominantes são estimadas e a representação do sinal de AOS é decomposta em sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e um componente ambiental no domínio da AOS, seguido pela compressão do componente ambiental através da redução de sua ordem. O componente ambiental de ordem reduzida é transformado para o domínio espacial, e é codificado perceptivamente junto com os sinais direcionais. No lado do receptor, os sinais direcionais codificados e o componente ambiental codificado de ordem reduzida são perceptivamente descomprimidos, os sinais ambientais perceptivamente descomprimidos são transformados para uma representação do domínio da AOS de ordem reduzida, seguido pela extensão da ordem. A representação de AOS total é recomposta a partir dos sinais direcionais, das informações direcionais correspondentes, e do componente de AOS ambiental de ordem original.
Description
[001]A invenção se refere a um método e a um aparelho para comprimir e descomprimir uma representação de sinal Ambissônico de Ordem Superior, em que componentes direcionais e ambientais são processados de maneira diferente.
[002]Ambissônico de Ordem Superior (AOS) oferece a vantagem de capturar um campo sonoro completo nas proximidades de um local específico no espaço tridimensional, sendo esse local denominado “ponto perfeito” (sweet spot). Essa representação de AOS independe de uma configuração de alto-falante específica, contrariamente às técnicas baseadas em canal, como estéreo ou surround. Mas esta flexibilidade ocorre à custa de um processo de decodificação necessário para reproduzir a representação de AOS em uma configuração de alto-falante particular.
[003]AOS se baseia na descrição de amplitudes complexas da pressão do ar para números de onda angular individual k para as posições x nas proximidades de uma posição do ouvinte desejado, o qual, sem perda da generalidade, pode ser presumido como sendo a origem de um sistema esférico de coordenadas, utilizando uma expansão truncada da Harmônica Esférica (HE). A resolução espacial desta representação aumenta com uma ordem máxima crescente N da expansão. Infelizmente, o número de coeficientes de expansão 0 cresce quadraticamente com a ordem N, isto é, 0 = (N + 1)2. Por exemplo, representações de AOS típicas que utilizam a ordem N = 4 requerem coeficientes de AOS 0 = 25. Dada uma taxa de amostragem desejada fs e o número Nb de bits por amostra, a taxa de bit total para a transmissão de uma representação de sinal AOS é determinada por 0.fs.Nb, e a transmissão de uma representação de sinal AOS de ordem N = 4 com uma taxa de amostragem de fs=48kHz empregando Nb = 16 bits por amostra está resultando em uma taxa de bit de 19,2 MBits/s. Desse modo, a compressão das representações do sinal de AOS é altamente desejável.
[004]Um panorama das abordagens de compressão de áudio espacial existente pode ser encontrado no pedido de patente EP 10306472.1 ou em I. Elfitri, B. Günel, A.M. Kondoz, "Multichannel Audio Coding Based on Analysis by Synthesis", Proceedings of the IEEE, vol.99, no.4, pp.657-670, Abril de 2011.
[005]As técnicas a seguir são mais relevantes em relação à invenção.
[006]Sinais de formato B, que são equivalentes às representações Ambissônico de primeira ordem, podem ser comprimido utilizando a Codificação de Áudio Direcional (DirAC) conforme descrito in V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Journal of Audio Eng. Society, vol.55 (6), pp.503-516, 2007. Em uma versão sugerida para aplicações em teleconferência, o sinal no formato B é codificado em um único sinal omnidirecional, bem como informações laterais na forma de uma única direção e de um parâmetro de redundância por banda de frequência. No entanto, a redução drástica da taxa de dados resultante implica em menor qualidade do sinal obtido na reprodução. Ademais, a DirAC é limitada à compressão das representações Ambissônico de primeira ordem, que sofrem com a baixíssima resolução espacial.
[007]Os métodos conhecidos para a compressão das representações de AOS com N>1 são raríssimos. Um deles realiza a codificação direta de sequências de coeficiente de AOS individuais empregando o codec perceptivo Codificação de Áudio Avançada (AAC), de acordo com E. Hellerud, I. Burnett, A. Solvang, U. Peter Svensson, "Encoding High Order Ambissônico with AAC", 124th AES Convention, Amsterdam, 2008. No entanto, o problema inerente com tal abordagem é a codificação perceptiva dos sinais que jamais são ouvidos. Os sinais de reprodução reconstruídos são normalmente obtidos por uma soma ponderada das sequências de coeficiente de AOS. Por essa razão é grande a probabilidade de desmascaramento do ruído de codificação perceptiva quando a representação de AOS descomprimida é fornecida em uma configuração de alto-falante particular. Em termos mais técnicos, o principal problema para o desmascaramento do ruído de codificação perceptiva são as correlações cruzadas altas entre as sequências de coeficientes de AOS individuais. Como os sinais de ruído codificados nas sequências de coeficiente de AOS individuais normalmente não são correlacionadas entre si, pode ocorrer uma sobreposição construtiva do ruído de codificação perceptiva, enquanto, ao mesmo tempo, as sequências de coeficiente de AOS livres de ruído são canceladas na sobreposição. Outro problema é que as correlações cruzadas mencionadas levam à eficiência reduzida dos codificadores perceptivos.
[008]A fim de minimizar a extensão destes efeitos, o documento EP 10306472.1 sugere transformar a representação de AOS em uma representação equivalente no domínio espacial antes da codificação perceptiva. Os sinais do domínio espacial correspondem aos sinais direcionais convencionais, e corresponderiam aos sinais de alto-falante se os alto-falantes estivessem posicionados exatamente nas mesmas direções que aquelas assumidas para a transformada do domínio espacial.
[009]A transformada para o domínio espacial reduz as correlações cruzadas entre os sinais do domínio espacial individuais. Entretanto, as correlações cruzadas não são completamente eliminadas. Um exemplo para as correlações cruzadas relativamente altas é um sinal direcional, cuja direção recai entre as direções adjacentes cobertas pelos sinais do domínio espacial.
[010]Outra desvantagem do documento EP 10306472.1 e no citado artigo de Hellerud et al. é que o número de sinais codificados perceptivamente é (N + 1)2, onde N é a ordem da representação de AOS. Portanto, a taxa de dados para a representação de AOS comprimida cresce quadraticamente com a ordem de Ambissônico.
[011]O processamento de compressão da invenção executa uma decomposição de uma representação do campo sonoro de AOS em um componente direcional e em um componente ambiental. Em particular, para a computação do componente direcional do campo do som, descreve-se abaixo um novo processamento para a estimativa de diversas direções sonoras dominantes.
[012]Quanto aos métodos existentes para estimativa de direção baseados em Ambissônico, o artigo de Pulkki já mencionado descreve um método associado à codificação DirAC para a estimativa da direção, com base na representação do campo do som no formato B. A direção é obtida do vetor de intensidade média, que aponta para a direção do fluxo de energia do campo sonoro. Uma alternativa baseada no formato B é sugerida em D. Levin, S. Gannot, E.A.P. Habets, "Direction-of-Arrival Estimation using Acoustic Vector Sensors in the Presence of Noise", IEEE Proc. d ICASSP, pp.105-108, 2011. A estimativa de direção é realizada iterativamente buscando a direção que fornece a energia máxima de um sinal de saída formador de feixe dirigido para aquela direção.
[013]No entanto, ambas as abordagens são limitadas ao formato B para a estimativa de direção, que sofre com uma resolução espacial relativamente baixa. Uma desvantagem adicional é que a estimativa está restrita a uma única direção dominante.
[014]As representações de AOS oferecem uma resolução espacial aprimorada e, portanto, permite uma melhor estimativa das diversas direções dominantes. Os métodos existentes que realizam uma estimativa das diversas direções com base nas representações do campo sonoro de AOS são bastante raros. Uma abordagem baseada na percepção compressiva é sugerida em N. Epain, C. Jin, A. van Schaik, "The Application of Compressive Amostragem to the Analysis and Synthesis of Spatial Sound Fields", 127th Convention of the Audio Eng. Soc, Nova York, 2009, em in A. Wabnitz, N. Epain, A. van Schaik, C Jin, "Time Domain Reconstruction of Spatial Sound Fields Using Compressed Sensing", IEEE Proc. of the ICASSP, pp.465-468, 2011. A ideia principal é assumir que o campo sonoro é espacialmente esparso, isto é, consistir apenas de um pequeno número de sinais direcionais. Em seguida à alocação de um número elevado de direções de teste sobre a esfera, um algoritmo de otimização é utilizado a fim de encontrar o menor número possível de direções de teste junto com os sinais direcionais correspondentes, de modo que são bem descritos pela representação de AOS dada. Este método fornece uma resolução espacial em relação à que é efetivamente fornecida pela dada representação de AOS, já que evita a dispersão espacial resultante de uma ordem limitada da representação de AOS dada. No entanto, o desempenho do algoritmo depende intensamente de a presunção de dispersão ser satisfeita. Em particular, a abordagem falha, se o campo sonoro contiver quaisquer componentes ambientais menores adicionais, ou se a representação de AOS for afetada pelo ruído que ocorrerá quando computado de gravações em múltiplos canais.
[015]Ademais, um método especialmente intuitivo é transformar a representação de AOS dada para o domínio espacial conforme descrito em B. Rafaely, "Plane-wave decomposition of the sound Field on a sphere by spherical convolution", J. Acoust. Soc. Am., vol.4, no.116, pp.2149-2157, Outubro de 2004, e em seguida buscar a máxima nas energias direcionais. A desvantagem desta abordagem é que a presença de componentes ambientais prejudica a distribuição da energia direcional e a um deslocamento da máxima das energias direcionais em comparação à ausência de qualquer componente ambiental.
[016]Um problema a ser solucionado pela invenção é fornecer uma compressão para os sinais AOS através da qual a resolução espacial elevada da representação de sinal AOS ainda é mantida. Este problema é solucionado pelos métodos revelados nas reivindicações 1 e 2. Os aparelhos que utilizam estes métodos são revelados nas reivindicações 3 e 4.
[017]A invenção aborda a compressão das representações de AOS Ambissônico de Ordem Superior dos campos sonoros. No presente relatório descritivo, o termo 'AOS' denota a representação Ambissônico de Ordem Superior em tal condição, bem como um sinal de áudio correspondentemente codificado ou representado. As direções sonoras dominantes são estimadas e a representação de sinal AOS é decomposta em diversos sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e em um componente ambiental no domínio AOS, seguido pela compressão do componente ambiental através da redução de sua ordem. Depois dessa decomposição, o componente AOS ambiental de ordem reduzida é transformado para o domínio espacial, e é codificado perceptivamente junto com os sinais direcionais.
[018]No lado do receptor ou do decodificador, os sinais direcionais codificados e o componente ambiental codificado de ordem reduzida são perceptivamente descomprimidos. Os sinais ambientais perceptivamente descomprimidos são transformados para uma representação do domínio AOS de ordem reduzida, seguido pela extensão de ordem. A representação de AOS total é recomposta a partir dos sinais direcionais e das informações direcionais correspondentes e do componente AOS ambiental de ordem original.
[019]Em termos de vantagens, o componente do campo sonoro ambiental pode ser representado com exatidão suficiente por uma representação de AOS com uma ordem inferior à ordem original, e a extração dos sinais direcionais dominantes garante que, após a compressão e descompressão, ainda se obtém uma elevada resolução espacial.
[020]Em princípio, o método da invenção é adequado para comprimir uma representação do sinal Ambissônico de Ordem Superior AOS, sendo que o dito método inclui as etapas de: - estimar as direções dominantes, em que a dita estimativa de direção dominante depende de uma distribuição da energia direcional dos componentes AOS energeticamente dominantes; - decompor ou decodificar a representação de sinal AOS em diversos sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e um componente ambiental residual no domínio AOS, em que o dito componente ambiental residual representa a diferença entre a dita representação de sinal AOS e uma representação dos ditos sinais direcionais dominantes; - comprimir o dito componente ambiental residual reduzindo sua ordem em relação à sua ordem original; - transformar o dito componente AOS ambiental residual de ordem reduzida para o domínio espacial; - codificar perceptivamente os ditos sinais direcionais dominantes e o dito componente AOS ambiental residual transformado.
[021]Em princípio, o método da invenção é adequado para descomprimir uma representação do sinal Ambissônico de Ordem Superior AOS que foi comprimido pelas etapas de: - estimar as direções dominantes, em que a dita estimativa de direção dominante depende de uma distribuição da energia direcional dos componentes AOS energeticamente dominantes; - decompor ou decodificar a representação de sinal AOS em diversos sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e um componente ambiental residual no domínio AOS, em que o dito componente ambiental residual representa a diferença entre a dita representação de sinal AOS e uma representação dos ditos sinais direcionais dominantes; - comprimir o dito componente ambiental residual reduzindo sua ordem em relação à sua ordem original; - transformar o dito componente AOS ambiental residual de ordem reduzida para o domínio espacial; - codificar perceptivamente os ditos sinais direcionais dominantes e o dito componente AOS ambiental residual transformado, sendo que o método inclui as etapas de: - decodificar perceptivamente os ditos sinais direcionais dominantes codificados perceptivamente e o dito componente AOS ambiental residual transformado codificado perceptivamente; - submeter à transformada inversa o dito componente AOS ambiental residual transformado decodificado perceptivamente de modo a obter uma representação do domínio AOS; - executar uma extensão de ordem do dito componente AOS ambiental residual submetido à transformada inversa de modo a estabelecer um componente AOS ambiental de ordem original; - compor os ditos sinais direcionais dominantes decodificados perceptivamente, a dita informação de direção e o dito componente AOS ambiental estendido de ordem original de modo a obter uma representação de sinal AOS.
[022]Em princípio, o aparelho da invenção é adequado para comprimir uma representação do sinal Ambissônico de Ordem Superior AOS, sendo que o aparelho inclui: - meio que é adaptado para estimar as direções dominantes, em que a dita estimativa de direção dominante depende de uma distribuição da energia direcional dos componentes AOS energeticamente dominantes; - meio que é adaptado para decompor ou decodificar a representação de sinal AOS em diversos sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e um componente ambiental residual no domínio AOS, em que o dito componente ambiental residual representa a diferença entre a dita representação de sinal AOS e uma representação dos ditos sinais direcionais dominantes; - meio que é adaptado para comprimir o dito componente ambiental residual reduzindo sua ordem em relação à sua ordem original; - meio que é adaptado para transformar o dito componente AOS ambiental residual de ordem reduzida para o domínio espacial; - meio que é adaptado para codificar perceptivamente os ditos sinais direcionais dominantes e o dito componente AOS ambiental transformado residual.
[023]Em princípio o aparelho da invenção é adequado para descomprimir uma representação do sinal Ambissônico de Ordem Superior AOS que foi comprimido pelas etapas de: - estimar as direções dominantes, em que a dita estimativa de direção dominante depende de uma distribuição da energia direcional dos componentes AOS energeticamente dominantes; - decompor ou decodificar a representação de sinal AOS em diversos sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e um componente ambiental residual no domínio AOS, em que o dito componente ambiental residual representa a diferença entre a dita representação de sinal AOS e uma representação dos ditos sinais direcionais dominantes; - comprimir o dito componente ambiental residual reduzindo sua ordem em relação à sua ordem original; - transformar o dito componente AOS ambiental residual de ordem reduzida para o domínio espacial; - codificar perceptivamente os ditos sinais direcionais dominantes e o dito componente AOS ambiental residual transformado, sendo que o aparelho inclui: - meio que é adaptado para decodificar perceptivamente os ditos sinais direcionais dominantes codificados perceptivamente e o dito componente AOS ambiental residual transformado codificado perceptivamente; - meio que é adaptado para submeter à transformada inversa o dito componente AOS ambiental residual transformado decodificado perceptivamente de modo a obter uma representação do domínio AOS; - meio que é adaptado para executar uma extensão de ordem do dito componente AOS ambiental residual submetido à transformada inversa de modo a estabelecer um componente AOS ambiental de ordem original; - meio que é adaptado para compor os ditos sinais direcionais dominantes decodificados perceptivamente, a dita informação de direção e o dito componente AOS ambiental estendido de ordem original de modo a obter uma representação de sinal AOS.
[024]Outras modalidades vantajosas da invenção são reveladas nas respectivas reivindicações dependentes.
[025]Modalidades exemplificativas da invenção são descritas fazendo referência aos desenhos em anexo, que mostram na:
[026]Figura 1 - Função de dispersão normalizada ^N(Θ) para diferentes ordens Ambissônico N e para os ângulos 0 E Iθ.^l;
[027]Figura 2 - Diagrama de bloco do processamento de compressão de acordo com a invenção;
[028]Figura 3 - Diagrama de bloco do processamento de descompressão de acordo com a invenção.
[029]Os sinais Ambissônico descrevem os campos sonoros em áreas livres de fonte utilizando a expansão da Harmônica Esférica (HS). A viabilidade desta descrição pode ser atribuída à propriedade física em que o comportamento temporal e espacial da pressão sonora é essencialmente determinado pela equação da onda. Equação da onda e expansão da Harmônica Esférica
[030]Para uma descrição mais detalhada de Ambissônico, a seguir assume-se um sistema esférico de coordenadas, onde um ponto no espaço é representado por um raio r > 0 (isto é, a distância até a origem da coordenada), um ângulo de inclinação 0 E t0^] medido a partir do eixo polar z, e um ângulo do azimute medido no plano x=y a partir do eixo x. Neste sistema esférico de coordenadas, a equação da onda para a pressão sonora p(t, x) em uma área livre de fonte conectada, onde t denota tempo, é dada pelo livro de Earl G. Williams, "Fourier Acoustics", vol.93 of Applied Mathematical Sciences, Academic Press, 1999:
[031] com cs indicando a velocidade do som. Em consequência disso, a transformada de Fourier da pressão sonora em relação ao tempo onde i denota a unidade imaginária, pode ser expandida na série de HS de acordo com o livro de Williams:
[032]Cabe notar que esta expansão é válida para todos os pontos x em uma área livre de fonte conectada, que corresponde à região de convergência da série.
[033]Na equação (4), k denota o número da onda angular definido pore indica os coeficientes de expansão HS, que dependem somente do produto kr.
[034]Ademais são as funções de HS de ordem n e o grau onde CcosP) denotam as funções de Legendre associadas e (•)! indica o fatorial.
[035]As funções de Legendre associadas para índices de grau não negativo m são definidas pelas polinomiais de Legendre Pn(x) por m
[036]Para índices de grau negativo, isto é, m < 0, as funções de Legendre associadas são definidas por
[037]As polinomiais de Legendre Pn(x) (n> 0), por sua vez, podem ser definidas utilizando a Fórmula de Rodrigues como
[038]Na técnica anterior, por exemplo, em M. Poletti, "Unified Description of Ambissônico using Real and Complex Spherical Harmonics", Proceedings of the Ambissônico Symposium 2009, 25-27 junho de 2009, Graz, Áustria, também existem definições das funções de HS que divergem daquelas na equação (6) por um fator de (-1)m para os índices de grau negativo m.
[039]Como alternativa, a transformada de Fourier da pressão sonora em relação ao tempo pode ser expressa utilizando funções reais de HScomo
[040]Na literatura, existem várias definições de funções reais de HS (vide, por exemplo, o artigo de Poletti citado). Uma possível definição, que é aplicada em todo este documento, é dada por onde (•)* denota uma conjugação complexa. Uma expressão alternativa é obtida inserido-se a equação (6) na equação (11): com
[041]Embora as funções reais de HS sejam de valor real por definição, isso não se reproduz para os coeficientes de expansão correspondentesem geral.
[043]As funções complexas de HSbem como as funções reais de HS com o vetor de direção formam uma base ortonormal para as funções de valor complexo do quadrado integrável na esfera unitária S2 no espaço tridimensional e, portanto, obedece as condições onde δ denota a função delta de Kronecker. O segundo resultado pode ser derivado utilizando a equação (15) e a definição de harmônicas esféricas reais na equação (11). Problema interno e os coeficientes Ambissônico
[044]O propósito do Ambissônico é uma representação de um campo sonoro nas proximidades da origem da coordenada. Sem perda da generalidade, esta região de interesse é aqui assumida como sendo uma bola de raio R centralizado na origem da coordenada, o que é especificado pelo conjunto. Uma assunção essencial para a representação é que esta bola supostamente não contém fontes sonoras. Descobrir a representação do campo sonoro no interior desta bola denomina-se “problema interno”, cf. o livro de Williams já mencionado.
[045]Pode-se mostrar que, para o problema interno, os coeficientes de expansão das funções de HS podem ser expressas como onde jn(.) denotam as funções esféricas de Bessel de primeira ordem. A partir da equação (17) ocorre que a informação completa sobre o campo sonoro está contida nos coeficientes denominados coeficientes Ambissônico.
[046]Do mesmo moco, os coeficientes da expansão das funções reais de HSpodem ser fatorados como onde os coeficientes KSã são denominados coeficientes Ambissônico em relação à expansão utilizando as funções de HS de valor real. Eles estão relacionados a através de:
[047]O campo sonoro no interior de uma bola livre de fonte sonora centralizada na origem da coordenada pode ser expresso por uma sobreposição de um número infinito de ondas planas de diferentes números da onda angular k, que colidem na bola a partir de todas as direções possíveis, cf. o já citado artigo de Rafaely "Plane-wave decomposition...". Assumindo que a amplitude complexa de uma onda plana com número da onda angular k a partir da direção Qo seja dada por, é possível mostrar de modo similar com o uso da equação (11) e da equação (19) que os coeficientes Ambissônico correspondentes em relação à expansão das funções reais de HS são dados por
[048]Consequentemente, os coeficientes Ambissônico para o campo sonoro resultante da sobreposição de um número infinito de ondas planas do número da onda angular k são obtidos pela integração da equação (20) em todas as direções possíveis
[049]A funçãoé denominada “densidade de amplitude” e é assumida como sendo o quadrado integrável sobre a esfera unitária S2. É possível expandi-la na série de funções reais de HS como onde os coeficientes de expansão são iguais à integral que ocorre na equação (22), isto é,
[050]Inserindo a equação (24) na equação (22) pode-se observar que os coeficientes Ambissônicosão uma versão escalonada dos coeficientes de expansão isto é,
[051]Ao aplicar a transformada inversa de Fourier em relação ao tempo aos coeficientes Ambissônico escalonadose à função da densidade de amplitude as quantidades de domínio do tempo correspondentes são obtidas. Então, no domínio do tempo, a equação (24) pode ser formulada como
[052]O sinal direcional do domínio do tempo pode ser representado por uma expansão da função de HS real de acordo com
[053]Usando o fato de que as funções de HS são de valor rel, seu conjugado complexo pode ser expresso por
[054]Assumindo the sinal do domínio do temposeja de valor real, isto é,, a partir da comparação da equação (29) com a equação (30) os coeficientes são de valor real naquele caso, isto é,
[055]Os coeficientesserão denominados a seguir como coeficientes Ambissônico do domínio do tempo escalonados.
[056]A seguir, assume-se ainda que a representação do campo sonoro é dada por esses coeficientes, que serão descritos mais detalhadamente na seção abaixo que trata da compressão.
[057]Observa-se que a representação de AOS do domínio do tempo pelos coeficientesutilizados para o processamento de acordo com a invenção é equivalente a uma representação de AOS de domínio de frequência correspondente Portanto, a compressão e descompressão descritas podem ser realizadas equivalentemente no domínio de frequência com as respectivas modificações mínimas das equações. Resolução espacial com ordem finita
[058]Na prática, o campo sonoro nas proximidades da origem da coordenada é descrito utilizando apenas um número finito de coeficientes Ambissônicode ordem Computar a função da densidade de amplitude a partir da série truncada de funções de HS de acordo com introduz um tipo de dispersão espacial comparada à função da densidade de amplitude verdadeira £>Cfc, íl'), cf. o já citado artigo "Planewave decomposition...". Isso pode ser realizado computando a função da densidade de amplitude para uma única onda plana a partir da direção Qo com o uso da equação (31): com onde denota o ângulo entre os dois vetores que apontam para as direçõessatisfazendo a propriedade
[059]Na equação (34), são empregados os coeficientes Ambissônico para uma onda plana dada na equação (20), enquanto nas equações (35) e (36) alguns teoremas matemáticos são explorados, cf. o já mencionado artigo "Plane-wave decomposition...". A propriedade na equação (33) pode ser mostrada utilizando a equação (14).
[060]Comparando equação (37) à função da densidade de amplitude verdadeira onde denota a função delta Dirac, a dispersão espacial torna- se óbvia a partir da substituição da função delta Dirac escalonada pela função de dispersão que, depois de normalizada por seu valor máximo, é ilustrada na Figura 1 para diferentes ordens Ambissônico N e ângulos
[061]Como o primeiro zero deesta localizado π aproximadamente a para (vide o já mencionado artigo "Planewave decomposition..."), o efeito da dispersão é reduzido (e, desse modo, a resolução espacial é aprimorada) com ordem de Ambissônico crescente N.
[062]Para a função de dispersão converge para a função delta Dirac escalonada. Isso pode ser observado se a relação de completude para as polinomiais de Legendre for utilizada junto com a equação (35) para expressar o limite de para como
[063]Ao definir o vetor das funções reais de HS da ordem'por onde 0 = (N + 1)2 e onde denota transposição, a comparação a equação (37) com a equação (33) mostra que a função de dispersão pode ser expressa através do produto escalar de dois vetores de HS reais como
[065]Para algumas aplicações é desejável determinar os coeficientes , n a partir das amostras da função da densidade de amplitude do domínio do tempo d(t,íl) em um número finito / de direções discretas A integral na equação (28) é então aproximada por uma soma finita de acordo com B. Rafaely, "Analysis and Design of Spherical Microphone Arrays", IEEE Transactions on Speech and Audio Processing, vol.13, n° 1, pp.135-143, Janeiro de 2005: onde gj denotam alguns pesos de amostragem corretamente escolhidos. Em oposição ao artigo "Analysis and Design...", a aproximação (50) se refere a uma representação do domínio do tempo que usa funções reais de HS invés de uma representação do domínio de frequência utilizando funções de HS complexas. Uma condição necessária para que a aproximação (50) seja exata é que a densidade de amplitude seja da ordem harmônica limitada N, significando que
[066]Se esta condição não for satisfeita, a aproximação (50) sofre de erros de aliasing espacial, cf. B. Rafaely, "Spatial Aliasing in Spherical Microphone Arrays", IEEE Transactions on Signal Processing, vol.55, n° 3, pp.1003-1010, Março de 2007. Uma segunda condição necessária requer que os pontos de amostragem e os pesos correspondentes satisfaçam as condições correspondentes dados no artigo "Analysis and Design...":
[067]As condições (51) e (52) em conjunto são suficientes para a amostragem exata.
[068]A condição da amostragem (52) consiste em um conjunto de equações lineares, que podem ser formuladas compactamente utilizando uma única equação de matriz como onde Φ indica a matriz de modo definida por e G denota a matriz com os pesos em sua diagonal, isto é,
[069]A partir da equação (53) pode-se observar que uma condição necessária para que a equação (52) se mantenha é que o número / de pontos de amostragem satisfaça / °. Coletando os valores da densidade de amplitude do domínio do tempo nos pontos de amostragem / no vetor e definindo o vetor dos coeficientes Ambissônico do domínio do tempo escalonados por ambos os vetores são relacionados através da expansão das funções de HS (29). Esta relação fornece o seguinte sistema de equações lineares:
[070]Utilizando a notação do vetor introduzido, a computação dos coeficientes Ambissônico do domínio do tempo escalonados a partir dos valores das amostras da função da densidade de amplitude do domínio do tempo pode ser redigida como
[071]Dada uma ordem de Ambissônico fixa N, em geral não é possível computar um número J — O de pontos de amostragem nj e os pesos correspondentes, de modo que a equação (52) da condição de amostragem se mantém. No entanto, se os pontos de amostragem forem selecionados de modo que a condição da amostragem esteja bem aproximada, então a classe da matriz de modo Φ é 0 e seu número de condição é baixo. Neste caso, a pseudoinversa da matriz de modo Φ existe e uma aproximação razoável do vetor do coeficiente Ambissônico do domínio do tempo escalonado c(t) a partir do vetor das amostras da função da densidade de amplitude do domínio do tempo amostras é dada por
[073]Se adicionalmente a equação da condição de amostragem (52) for satisfeita, então se mantém e ambas as aproximações (59) e (1) são equivalentes e exatas.
[074]O vetor w(t) pode ser interpretado como um vetor dos sinais do domínio do tempo espacial. A transformada do domínio AOS para o domínio espacial pode ser realizada, por exemplo, utilizando a equação (58). Este tipo de transformada é denominada “Transformada Harmônica Esférica” (THE) no presente relatório descritivo e é utilizada quando o componente AOS ambiental de ordem reduzida é transformado para o domínio espacial. Assume-se implicitamente que os pontos de amostragem espaciais para a THE satisfazem aproximadamente a condição de amostragem na equação (52) com
[075]Sob essas assunções, a matriz da THE satisfaz Caso o escalonamento absoluto para a THE não seja importante, a constante — pode ser negligenciada. Compressão
[076]Esta invenção está relacionada à compressão de uma dada representação de sinal AOS. Como mencionado acima, a representação de AOS é decomposta em um número previamente definido de sinais direcionais dominantes no domínio do tempo e em um componente ambiental no domínio AOS, seguido pela compressão da representação de AOS do componente ambiental através da redução de sua ordem. Esta operação explora a assunção, que é sustentada pelos testes de audição, de que o componente do campo sonoro ambiental pode ser representado com exatidão suficiente por uma representação de AOS com uma ordem inferior. A extração dos sinais direcionais dominantes garante que, após essa compressão e uma descompressão correspondente, uma elevada resolução espacial é obtida.
[077]Depois da decomposição, o componente AOS ambiental de ordem reduzida é transformado para o domínio espacial, e é codificado perceptivamente junto com os sinais direcionais conforme descrito na seção de Modalidades exemplificativas do pedido de patente EP 10306472.1.
[078]O processamento de compressão inclui duas etapas sucessivas, que são representadas na Figura 2. As definições exatas dos sinais individuais estão descritas na seção que se segue intitulada Detalhes da compressão.
[079]Na primeira etapa ou estágio mostrada na Figura 2a, em um estimador da direção dominante 22 as direções dominantes são estimadas e é realizada a decomposição do sinal Ambissônico C(l) em um componente direcional e um componente residual ou ambiental, onde I denota o índice do quadro. O componente direcional é calculado em uma etapa ou estágio de computação do sinal direcional 23, e assim a representação Ambissônico é convertida nos sinais do domínio do tempo representados por um conjunto de D sinais direcionais convencionais X(l) com direções correspondentes Í1DOM(0. O componente ambiental residual é calculado em uma etapa ou estágio de computação do componente AOS ambiental 24, e é representado pelos coeficientes de domínio AOS CA(l).
[080]Na segunda etapa mostrada na Figura 2b, uma codificação perceptiva dos sinais direcionais X(l) e do componente AOS ambiental CA(V) é realizada da seguinte maneira: - Os sinais direcionais do domínio do tempo convencionais X(l) podem ser comprimidos individualmente em um codificador perceptivo 27 utilizando qualquer técnica de compressão perceptiva conhecida. - A compressão do componente do domínio AOS ambiental CA(l) é realizada em duas subetapas ou estágios.
[081]A primeira subetapa ou estágio 25 realiza a redução da ordem original de Ambissônico N para NRED, por exemplo, NRED = 2, resultando no componente AOS ambiental CA,RED(l). Aqui, é explorada a assunção de que o componente do campo sonoro ambiental pode ser representado com exatidão por AOS com uma ordem inferior. A segunda subetapa ou estágio 26 baseia-se na compressão descrita no pedido de patente EP 10306472.1. Os 0RED: = (NRED + 1)2 AOS sinais CA,RED(l) do componente do campo sonoro ambiental, que foram computados na subetapa/estágio 25, são transformados em ORED sinais equivalentes WA,RED(l) no domínio espacial através da aplicação de uma Transformada Harmônica Esférica, resultando em sinais de domínio do tempo convencionais que podem ser inseridos em um banco de codecs perceptivos paralelos 27. Qualquer codificação perceptiva ou compressão técnica conhecida pode ser aplicada. Os sinais direcionais codificados e os sinais do domínio espacial codificados de ordem reduzida ^A.REDW são emitidos e podem ser transmitidos ou armazenados.
[082]Como vantagem, a compressão perceptiva de todos os sinais do domínio do tempo X(l) e WA,RED(l) pode ser executada conjuntamente em um codificador perceptivo 27 a fim de aprimorar a eficiência geral da codificação explorando as correlações intercanais potencialmente remanescentes.
[083]O processamento de descompressão para um sinal recebido ou reproduzido é representado na Figura 3. Assim como o processamento de compressão, inclui duas etapas sucessivas.
[084]Na primeira etapa ou estágio mostrado na Figura 3a, em uma decodificação perceptiva 31, realiza-se uma decodificação ou descompressão perceptiva dos sinais direcionais codificados *(0 e dos sinais do domínio espacial codificados de ordem reduzida M'A.REDCO, onde representa o componente e M'A.REDCO representa o componente AOS ambiental. Os sinais do domínio espacial decodificados ou descomprimidos perceptivamente M'A.RED (0 são transformados em um transformador inverso da harmônica esférica 32 em uma representação do domínio AOS T í/') da ^θ'- 'da ordem NRED por meio de uma transformada inversa da Harmônica Esférica. Depois disso, em uma etapa ou estágio de extensão de ordem 33, uma representação apropriada de AOS ^(Oda ordem N é estimada a partir de vA,RED<^pOr extensão de ordem.
[085]Na segunda etapa ou estágio mostrada na Figura 3b, a representação de AOS total £(0é recomposta em um montador do sinal de AOS 34 a partir dos sinais direcionais *(0e das informações direcionais correspondentes ^DOMCO, bem como a partir do componente AOS ambiental de ordem original ^A(9.
[086]Redução da taxa de dados obtenível
[087]Um problema solucionado pela invenção é a redução considerável da taxa de dados em comparação aos métodos de compressão existentes para as representações de AOS. A seguir, discute-se a taxa de compressão obtenível em comparação com a representação de AOS não comprimido. A taxa de compressão resulta da comparação da taxa de dados requerida para a transmissão de um sinal de AOS não comprimido C(l) de ordem N com a taxa de dados requerida para a transmissão de uma representação de sinal comprimido que consiste em D sinais direcionais codificados perceptivamente X(l) com as direções correspondentes Í*DOM(0 e NRED sinais codificados perceptivamente do domínio espacial WA,RED(l) representando o componente AOS ambiental.
[088]Para a transmissão do sinal de AOS não comprimido C(l), uma taxa de dados de 0>fs-wb θ requerida. Por outro lado, a transmissão de D sinais direcionais codificados perceptivamente X(l) requer uma taxa de dados de D /b,COD, onde ZUCOD denota a taxa de bit dos sinais codificados perceptivamente. Do mesmo modo, a transmissão dos NRED sinais codificados perceptivamente do domínio espacial WA,RED(l) sinais requer uma taxa de bit de °RED • /b,cor> •
[089]As direções ^DOMG) são assumidas como sendo computadas com base em uma taxa bem menor do que a taxa de amostragem ^s, isto é, são assumidas como sendo fixas pela duração de um sinal quadro consistindo de amostras B, por exemplo, B = 1200 para uma taxa de amostragem de = 48kHz, e a parcela correspondente da taxa de dados pode ser desprezada para a computação da taxa de dados total do sinal de AOS comprimido.
[090]Portanto, a transmissão da representação comprimida requer uma taxa de dados de aproximadamente .D + °RED) • Á.COD . Consequentemente, a taxa de compressão rcoMPR é
[091]Por exemplo, a compressão de uma representação de AOS de ordem N = 4 empregando uma taxa de amostragem = 48kHz e Nb = 16 bits por amostra para uma representação com D = 3 direções dominantes utilizando uma ordem de AOS reduzida NRED = 2 e uma taxa de bit de 64 kbits/s resultará em uma taxa de compressão de rcoMPR -25. A transmissão da representação comprimida requer uma taxa dede aproximadamente 768 kbits/s
[092]Probabilidade reduzida para a ocorrência do desmascaramento do ruído da codificação
[093]Conforme explicação na seção de Antecedentes, a compressão perceptiva dos sinais do domínio espacial descrita no pedido de patente EP 103064721 sofre com as correlações cruzadas remanescentes entre os sinais, o que pode levar ao desmascaramento do ruído da codificação perceptiva De acordo com a invenção, os sinais direcionais dominantes são primeiramente extraídos da representação do campo sonoro de AOS antes de serem codificados perceptivamente. Isso significa que, quando se compõe a representação de AOS, após a decodificação perceptiva, o ruído da codificação possui exatamente a mesma diretividade espacial dos sinais direcionais Em particular, as contribuições do ruído da codificação, bem como do sinal direcional para qualquer direção arbitrária, são descritas deterministicamente descrito pela função da dispersão espacial explicada na seção Resolução espacial com ordem finita. Em outras palavras, em qualquer momento instantâneo, o vetor dos coeficientes AOS que representam o ruído da codificação é exatamente um múltiplo do vetor dos coeficientes AOS que representam o sinal direcional. Sendo assim, uma soma ponderada arbitrariamente dos coeficientes AOS com ruído não resultará no desmascaramento do ruído de codificação perceptiva.
[094]Ademais, o componente ambiental de ordem reduzida é processado exatamente como sugere o documento EP 10306472.1, contudo, como, por definição, os sinais do domínio espacial do componente ambiental exibem uma correlação especialmente baixa entre si, a probabilidade para o desmascaramento do ruído da codificação perceptiva é baixa. Estimativa de direção aprimorada
[095]A estimativa de direção da invenção depende da distribuição da energia direcional do componente AOS energeticamente dominante. A distribuição da energia direcional é computada a partir matriz de correlação de classe reduzida da representação de AOS, que é obtida pela decomposição de valor próprio da matriz de correlação da representação de AOS.
[096]Comparada à estimativa de direção utilizada no artigo já mencionado "Plane-wave decomposition...", oferece a vantagem de ser mais precisa, pois se concentra no componente AOS energeticamente dominante invés de utilizar a representação de AOS completa, já que a estimativa de direção reduz o borramento espacial da distribuição de energia direcional.
[097]Comparada à estimativa de direção sugerida nos artigos já mencionados "The Application of Compressive Sampling to the Analysis and Synthesis of Spatial Sound Fields" e "Time Domain Reconstruction of Spatial Sound Fields using Compressed Sensing", oferece a vantagem de ser mais robusta. A razão é que a decomposição da representação de AOS no componente direcional e ambiental praticamente não consegue ser alcançada com perfeição, de modo que ainda resta uma pequena quantidade do componente ambiental no componente direcional. Então, os métodos de amostragem compressiva como os desses dois artigos são falhos em fornecer estimativas de direção razoável em decorrência de sua elevada sensibilidade à presença dos sinais ambientais.
[098]Como vantagem, a estimativa de direção da invenção não demonstra esse problema.
[099]A decomposição descrita da representação de AOS em diversos sinais direcionais com informações direcionais correlatas e um componente ambiental no domínio AOS pode ser utilizada para uma renderização similar à DirAc adaptativa ao sinal da representação de AOS de acordo com a sugerida no já mencionado artigo de Pulkki "Spatial Sound Reproduction with Directional Audio Coding".
[0100]Cada componente AOS pode ser renderizado distintamente porque as características físicas dos dois componentes são diferentes. Por exemplo, os sinais direcionais podem ser renderizados para os alto-falantes utilizando técnicas de posicionamento de sinal como o Posicionamento da Amplitude Baseada em Vetor (Vetor Based Amplitude Panning - VBAP), cf. V. Pulkki, "Virtual Sound Source Positioning using Vector Base Amplitude Panning", Journal of Audio Eng. Society, vol. 45, n° 6, pp.456-466, 1997. O componente AOS ambiental pode ser renderizado utilizando as técnicas de renderização de AOS convencionais conhecidas.
[0101]Essa renderização não se restringe à representação Ambissônico da ordem ' 1 ' e, assim, pode ser observada como uma extensão da renderização similar à DirAC para as representações de AOS da ordem N > 1.
[0102]A estimativa das diversas direções a partir de uma representação de sinal AOS pode ser utilizada para qualquer tipo relacionado da análise do campo sonoro.
[0103]As seções a seguir descrevem em mais profundidade as etapas de processamento do sinal.
[0104]Como entrada, os coeficientes de AOS do domínio do tempo escalonado definidos na equação (26) são assumidos como sendoa mostrados em uma taxa
[0105]Define-se um vetor c(j) para ser formado de todos os coeficientes pertencentes ao tempo de amostragem de acordo com
[0106]Os vetores de entrada c(j) dos coeficientes de AOS escalonados são organizados em quadros na etapa ou estágio de quadros 21 em quadros não sobrepostos de comprimento B de acordo com
[0107]Assumindo uma taxa de amostragem de 75 = 48kHz, um comprimento de quadro adequado é de B = 1200 amostras, correspondendo a uma duração de um quadro de 25ms.
[0109]O somatório em relação ao quadro atual l e L-1 quadros anteriores indica que a análise direcional é baseada em grupos de quadros sobrepostos longos com L.B amostras, isto é, para cada quadro atual o conteúdo de quadros adjacentes é levado em consideração. Isso contribui para a estabilidade da análise direcional por duas razões: quadros mais longos estão resultando em um número maior de observações, e as estimativas da direção são suavizada devido aos quadros em sobreposição.
[0110]Assumindo fs = 48kHz e B = 1200, um valor razoável para L é 4, correspondendo a uma duração geral de um quadro de 100ms.
[0111]Em seguida, uma decomposição de valor próprio da matriz de correlação B (l) é determinada de acordo com em que a matriz v(i) é formadas de vetores próprios Vi(l), 1< i < 0, como e a matriz é uma matriz diagonal com os valores próprios correspondentes em sua diagonal:
[0112]Assume-se que os valores próprios são indexados em ordem não ascendente, isto é, Depois disso, o conjunto do índice de valores próprios dominantes é computado. Uma possibilidade para administrar isso é definir uma razão de energia direcional-ambiental da largura de banda mínima desejada DARMIN e então determinar JÍZ) de modo que para
[0113]Uma escolha razoável para DARMIN é 15dB. O número de valores próprios dominantes é ainda mais restringido para não ser maior que D a fim de se concentrar em no máximo D direções dominantes. Isso é obtido com a substituição do conjunto do índice
[0115]Esta matriz deve conter as contribuições dos componente direcionais dominantes para B(l). Depois disso, computa-se o vetor onde E denota uma matriz de modo em relação a um número elevado de direções de teste quase igualmente distribuídas onde e denota o ângulo de inclinação medido desde o eixo polar z e denota o ângulo do azimute medido no plano x=y desde o eixo x.
[0117]Os elementos de o2(0são aproximações das energias de ondas planas, correspondendo aos sinais direcionais dominantes, partindo das direções em colisão. A explicação teórica para isso é fornecida na seção abaixo intitulada Explicação do algoritmo de busca da direção.
[0118]A partir de tf2(0, um número ^(Ode direções dominantes CURRDOM.d (0 r
[0119] 1 d W), para a determinação dos componentes do sinal direcional é computado. O número de direções dominantes está assim limitado a satisfazer ^(0 a fim de garantir uma taxa de dados constante. No entanto, se permitida uma taxa de dados variável, o número de direções dominantes pode ser adaptado para a cena sonora corrente.
[0120]Uma possibilidade de computar as direções dominantes é estabelecer a primeira direção dominante com a energia máxima, isto ée Assumindo que o máximo da energia é criado por um sinal direcional dominante, e considerando o fato de que o uso de uma representação de AOS de ordem finita N resulta em uma dispersão espacial dos sinais direcionais (cf. o já mencionado artigo "Plane-wave decomposition..."), é possível concluir que nas proximidades direcionais de deve haver componentes de energia pertencentes ao mesmo sinal direcional. Como a dispersão do sinal espacial pode ser expressa pela função (vide a equação (38)), onde denota o ângulo entre a energia pertencente ao sinal direcional declina de acordo com . Portanto, é razoável excluir todas as direções nas proximidades direcionais de com ®p-1 - ®MIN para a busca de outras direções dominantes. A distância ΘMIN pode ser escolhida como o primeiro zero de que é π aproximadamente dado por para . A segunda direção dominante é então estabelecida para isso com a energia máxima nas direções remanescentes com As direções dominantes remanescentes são determinadas de maneira análoga.
[0121]O número de direções dominantes pode ser determinado considerando as energias atribuídas às direções dominantes e usando o caso em que a razão excede o valor de uma razão direcional-ambiental desejada DARMIN. Isso significa que satisfaz
[0122]O processamento geral para a computação de todas as direções dominantes pode ser realizada da seguinte maneira: Algoritmo 1 Busca de direções dominantes dada a distribuição de energia na esfera PowerFlag = verdadeiro
[0123]Em seguia, as direções obtidas no quadro atual são suavizadas com as direções dos quadros anteriores, resultando nas direções suavizadas Esta operação pode ser subdividida em duas partes sucessivas: (a) As direções dominantes correntes , são atribuídas às direções suavizadas do quadro anterior. A função de atribuição é determinada de modo que a soma dos ângulos entre direções atribuídas é minimizada. Esse problema de atribuição pode ser solucionado utilizando o algoritmo húngaro bastante conhecido, cf. H.W. Kuhn, "The Hungarian method for the attribution problem", Naval research logistics quarterly 2, n° 1-2, pp.83-97, 1955.
[0124]Os ângulos entre as direções correntes e as direções inativas (vide abaixo para explicação do termo “direção inativa”) do quadro anterior são estabelecidas para 2ΘMIN. Esta operação tem como efeito o fato de que as direções correntes que estão mais próximas do que 2®MIN das direções previamente ativas estão tentando ser atribuídas a elas. Se a distância exceder 2ΘMIN, a direção corrente correspondente é assumida como pertencendo a um novo sinal, o que significa que estar favorecido para a atribuição de uma direção previamente inativa
[0125]Nota: quando se permite uma maior latência do algoritmo de compressão total, a atribuição das estimativas de direção sucessivas pode ser executada de forma mais robusta. Por exemplo, mudanças abruptas de direção podem ser mais identificadas sem misturá-las com os valores atípicos resultantes dos erros de estimativa. (b) As direções suavizadassão computadas utilizando a atribuição da etapa (a). A suavização se baseia na geometria esférica e não na geometria euclidiana. Para cada uma das direções dominantes correntes a suavização é realizada ao longo do arco menor do maior círculo que cruza os dois pontos sobre a esfera, os quais são especificados pelas direções
Explicitamente, os ângulos do azimute e da inclinação são suavizados independentemente computando a média ponderada exponencialmente com um fator de suavização αβ. Para o ângulo de inclinação isso resulta na seguinte operação de suavização:
[0126]Para o ângulo do azimute, a suavização deve ser modificada para que se obtenha a suavização correta na transição de π - ε para -π, ε > 0, e na transição na direção oposta. Isso pode ser levado em consideração computando primeiramente o módulo do ângulo da diferença 2π como é convertido para o intervalo [-π,π[ por
[0127]O módulo do ângulo do azimute dominante suavizado 2π é determinado como e é finalmente convertido para recair no intervalo [-π,π[ por
[0128]No caso existem direções do quadro anterior que não obtém uma direção dominante corrente atribuída. O conjunto do índice correspondente é denotado por
[0130]As direções que não forem atribuídas a um número previamente definido de quadros são denominadas inativas.
[0131]Depois disso, o conjunto do índice das direções ativas denotado poré computado. Sua cardinalidade é denotada por
[0132]Em seguida, todas as direções suavizadas são concatenadas em uma única matriz de direção como Computação de sinais direcionais
[0133]A computação dos sinais direcionais se baseia na correspondência de modo. Em particular, realiza-se uma busca para aqueles sinais direcionais cuja representação de AOS resulta na melhor aproximação de dado sinal de AOS. Como as mudanças de direções entre quadros sucessivos podem levar a uma descontinuidade dos sinais direcionais, as estimativas dos sinais direcionais para quadros em sobreposição podem ser computadas, seguida pela suavização dos resultados de quadros sucessivamente sobrepostos utilizando uma função de janela apropriada. A suavização, no entanto, introduz a latência de um único quadro.
[0134]A estimativa detalhada dos sinais direcionais é explicada a seguir:
[0135]Em primeiro lugar, a matriz de modo baseada nas direções suavizadas ativas é computada de acordo com em que denota os índices das direções ativas.
[0136]Em seguida, é computada uma matriz *iNST®que contém as estimativas não suavizadas de todos os sinais direcionais para o (l -1)-ésimo e (l)-ésimo quadro:
[0137]Isso é realizado em duas etapas. Na primeira etapa, as amostras do sinal direcional nas fileiras correspondentes às direções inativas são definidas em zero, isto é,
[0138]Na segunda etapa, as amostras do sinal direcional correspondentes às direções ativas são obtidas primeiramente organizando- as em uma matriz de acordo com
[0139]Esta matriz é então computada de modo a minimizar a norma euclidiana do erro A solução é dada por
[0140]As estimativas dos sinais direcionaissão colocadas em janela por uma função de janela apropriada w(j):
[0141]Um exemplo para a função de janela é dado pela janela de Hamming periódica definida por onde KW denota um fator de escalonamento que é determinado de modo que a soma das janelas deslocadas equivale a '1'. Os sinais direcionais suavizados para o (l-1)-ésimo quadro são computados pela sobreposição apropriada de estimativas não suavizadas em janela de acordo com
[0142]As amostras de todos os sinais direcionais suavizados para o (l-1)-ésimo quadro são arranjadas na matriz X(l-1) como Computação do componente AOS ambiental
[0143]O componente AOS ambiental CA(l-1) é obtido subtraindo-se o componente AOS direcional total CDIR(l-1) da representação de AOS total C(l-1) de acordo com onde é determinado por e onde “DOM© denota a matriz de modo baseada em todas as direções suavizadas definidas por
[0144]Como a computação do componente AOS direcional total também está baseada em uma suavização espacial dos componentes AOS direcionais totais instantâneos sucessivos em sobreposição, o componente AOS ambiental também é obtido com uma latência de um único quadro. Redução da ordem para o componente AOS ambiental
[0145]Ao expressar CA(l-1) através de seus componentes como a redução da ordem é realizada causando a queda de todos os coeficientes AOS com n > NRED: 108
[0146]Transformada Harmônica Esférica para o componente AOS ambiental
[0147]A Transformada Harmônica Esférica é realizada pela multiplicação do componente AOS ambiental de ordem reduzida CA,RED(0 com a inversa da matriz de modo baseada em ORED que são as direções uniformemente distribuídas
[0148]Os sinais do domínio espacial perceptivamente descomprimidos WA,RED (0 são transformados para uma representação do domínio AOS ^A,RED(0 da ordem NRED por meio de um Transformada Inversa de Harmônicas Esféricas por
[0149]A ordem de Ambissônico da representação deé estendida para N através da anexação de zeros de acordo com onde θmxn denota uma matriz zero com m fileiras e n colunas
[0150]Os coeficientes de AOS descomprimidos finais são adicionalmente formados pelo componente AOS direcional e ambiental de acordo com
[0151]Neste estágio, novamente uma latência de um único quadro é introduzida para permitir que o componente AOS direcional seja computado com base na suavização espacial. Fazendo isso, potenciais descontinuidades indesejadas no componente direcional do campo sonoro resultante das mudanças das direções entre quadros sucessivos são evitadas.
[0152]Para computar o componente AOS direcional suavizado, dois quadros sucessivos contendo as estimativas de todos os sinais direcionais individuais são concatenados em um único quadro longo como
[0153]Cada excerto do sinal individual contido neste quadro longo é multiplicado por uma função de janela, por exemplo, como o da equação quadro longo XINST(0 através de seus componentes por a operação de colocação em janela pode ser formulada como a computação dos excertos do sinal em janela
[0154]Finalmente, o componente AOS direcional total CDIR(l-1) é obtido codificando todos os excertos do sinal direcional em janela nas direções apropriadas e posicionando-os em sobreposição:
[0155]A seguir, o motivo é explicado após o processamento de busca de direção descrito na seção intitulada Estimativa de direções dominantes. A explicação está fundada em algumas assunções que inicialmente são definidas.
[0156]Assume-se que vetor dos coeficientes de AOS c(j), que em geral está relacionado à função da densidade de amplitude do domínio do tempo d(ja Φ através de
[0157]Este modelo declara que o vetor dos coeficientes de AOS c(j), por um lado, é criado pelos / sinais da fonte direcional dominante partindo das direções ^-(0 no l-ésimo quadro. Em partcular, assume-se que as direções são fixas pela duração de um único quadro. Assume-se que o número de sinais da fonte dominante / é distintamente menor que o número total de coeficientes AOS 0. Ademais, assume-se que o comprimento do quadro B é distintamente maior que 0. Por outro lado, o vetor c(j) consiste em um componente residual que pode ser considerado como representando o campo sonoro ambiental idealmente isotrópico.
[0158]Assume-se que os componentes do vetor do coeficiente AOS individuais possuam as seguintes propriedades: • Os sinais da fonte dominante presumidamente possuem média zero, isto é, e presumidamente não possuem correlação entre si, isto é, com denotando a energia média do i-ésimo sinal para o l- ésimo quadro. • Os sinais da fonte dominante presumidamente não possuem correlação com o componente ambiental do vetor do coeficiente AOS, isto é, • O vetor do componente AOS ambiental presumidamente é uma média zero e presumidamente possui a matriz de covariância ●A razão da energia direcional/ambiente DAR(l) de cada quadro Z, que é aqui definida por é maior que um valor desejado previamente definido DARMIN, isto é,
[0159]Para a explicação, considera-se o caso em que a matriz de correlação B(Z) (vide a equação (67)) é computada em função somente das amostras do l-ésimo quadro sem considerar as amostras dos L-1 quadros corresponde à configuração L = l. de correlação pode ser expressa por
[0160]Substituindo a assunção do modelo na equação (120) para a equação (128) e utilizando as equações (122) e (123) e a definição na equação (124), a matriz de correlação B(l) pode ser aproximada como
[0161]A partir da equação (131) pode-se observar que B(l) consiste aproximadamente de dois componentes aditivos atribuíveis ao componente AOS direcional e ambiental. Sua aproximação da classe XO fornece uma aproximação do componente AOS direcional, isto é, que acompanha a equação (12) na razão de energia direcional-ambiental.
[0162]No entanto, cabe destacar que alguma parte de ∑A(0 inevitavelmente vazará para BX0, já que ∑A(0 de maneira geral possui classe integral e, portanto, os subespaços abrangidos pelas colunas das matrizesnão são ortogonais entre si. Com a equação (132), o vetor CT2(0 na equação (77), que é utilizada para a busca das direções dominantes, pode ser expressa por
[0163]Na equação (135) a seguinte propriedade da Harmônica Esférica mostrada na equação (47) foi utilizada:
Claims (11)
1. Método para comprimir uma representação de sinal Ambissônico de Ordem Superior AOS o dito método CARACTERIZADO pelo fato de que inclui: - estimar (22) direções dominantes; - decompor (23, 24) a representação de sinal AOS em um número de sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas e um componente ambiental residual no domínio AOS em que o dito componente ambiental residual representa a diferença entre a dita representação de sinal AOS e uma representação dos ditos sinais direcionais dominantes - comprimir (25) o dito componente ambiental residual reduzindo sua ordem quando comparado à sua ordem original; - transformar (26) o dito componente AOS ambiental residual de ordem reduzida para o domínio espacial; - codificar perceptivamente (27) os ditos sinais direcionais dominantes e o dito componente AOS ambiental residual transformado.
3. Método, de acordo com a reivindicação 1 ou 2, CARACTERIZADO pelo fato de que a dita estimativa de direções dominantes (22) é baseada em longos grupos de quadros sobrepostos, de modo que, para cada quadro atual, o conteúdo de quadros adjacentes é levado em consideração.
4. Método, de acordo com qualquer uma das reivindicações 1 a 3, CARACTERIZADO pelo fato de que, para a dita estimativa de direção dominante, uma distribuição da energia direcional dos componentes AOS energeticamente dominantes é utilizada.
5. Método para descomprimir uma representação de sinal Ambissônico de Ordem Superior AOS que foi comprimido pelo método conforme definido na reivindicação 1, o dito método CARACTERIZADO pelo fato de que inclui as etapas de: - decodificar perceptivamente (31) os ditos sinais direcionais dominantes codificados perceptivamente e o dito componente AOS ambiental residual transformado codificado perceptivamente - transformar inversamente (32) o dito componente AOS ambiental residual transformado decodificado perceptivamente de modo a obter uma representação de domínio AOS - executar (33) uma extensão de ordem do dito componente AOS ambiental residual transformado inversamente de modo a estabelecer um componente AOS ambiental de ordem original - compor (34) os ditos sinais direcionais dominantes decodificados perceptivamente as ditas informações direcionais e o dito componente AOS ambiental estendido de ordem original de modo a obter uma representação de sinal AOS
6. Aparelho para comprimir uma representação de sinal Ambissônico de Ordem Superior AOS o dito aparelho CARACTERIZADO pelo fato de que inclui: - meio (22) adaptado para estimar direções dominantes; - meio (23, 24) adaptado para decompor a representação de sinal AOS em um número de sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas e um componente ambiental residual no domínio AOS , em que o dito componente ambiental residual representa a diferença entre a dita representação de sinal AOS e uma representação dos ditos sinais direcionais dominantes - meio (25) adaptado para comprimir o dito componente ambiental residual reduzindo sua ordem quando comparado à sua ordem original; - meio (26) adaptado para transformar o dito componente AOS ambiental residual de ordem reduzida para o domínio espacial; - meio (27) adaptado para codificar perceptivamente os ditos sinais direcionais dominantes e o dito componente AOS ambiental residual transformado.
7. Aparelho, de acordo com a reivindicação 6, CARACTERIZADO pelo fato de que vetores de entrada (CJ;) de coeficientes de AOS são enquadrados (21) em quadros não sobrepostos (C;/:), e em que uma duração de quadro é de 23??;.s.
8. Aparelho, de acordo com a reivindicação 6 ou 7, CARACTERIZADO pelo fato de que a dita estimativa de direções dominantes (22) é baseada em longos grupos de quadros sobrepostos, de modo que, para cada quadro atual, o conteúdo de quadros adjacentes é levado em consideração.
9. Aparelho, de acordo com qualquer uma das reivindicações 6 a 8, CARACTERIZADO pelo fato de que, para a dita estimativa de direção dominante, uma distribuição de energia direcional dos componentes AOS energeticamente dominantes é utilizada.
10. Aparelho para descomprimir uma representação de sinal Ambissônico de Ordem Superior AOS que foi comprimido pelo método conforme definido na reivindicação 1, o dito aparelho CARACTERIZADO pelo fato de que inclui: - meio (31) adaptado para decodificar perceptivamente os ditos sinais direcionais dominantes codificados perceptivamente e o dito componente AOS ambiental residual transformado codificado perceptivamente - meio (32) adaptado para transformar inversamente o dito componente AOS ambiental residual transformado decodificado perceptivamente de modo a obter uma representação de domínio AOS - meio (33) adaptado para executar uma extensão de ordem do dito componente AOS ambiental residual transformado inversamente de modo a estabelecer um componente AOS ambiental de ordem original - meio (34) adaptado para compor os ditos sinais direcionais dominantes decodificados perceptivamente as ditas informações direcionais e o dito componente AOS ambiental estendido de ordem original de modo a obter uma representação de sinal AOS
11. Representação de sinal AOS CARACTERIZADA por ser comprimida em conformidade com o método conforme definido em qualquer uma das reivindicações 1 a 4.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP12305537.8 | 2012-05-14 | ||
EP12305537.8A EP2665208A1 (en) | 2012-05-14 | 2012-05-14 | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
PCT/EP2013/059363 WO2013171083A1 (en) | 2012-05-14 | 2013-05-06 | Method and apparatus for compressing and decompressing a higher order ambisonics signal representation |
Publications (3)
Publication Number | Publication Date |
---|---|
BR112014028439A2 BR112014028439A2 (pt) | 2017-06-27 |
BR112014028439A8 BR112014028439A8 (pt) | 2017-12-05 |
BR112014028439B1 true BR112014028439B1 (pt) | 2023-02-14 |
Family
ID=48430722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR112014028439-3A BR112014028439B1 (pt) | 2012-05-14 | 2013-05-06 | Método e aparelho para comprimir um sinalambissônico de ordem superior (aos), método e aparelhopara descomprimir um sinal ambissônico de ordemsuperior (aos) comprimido, e representação de sinal aos |
Country Status (10)
Country | Link |
---|---|
US (6) | US9454971B2 (pt) |
EP (5) | EP2665208A1 (pt) |
JP (6) | JP6211069B2 (pt) |
KR (6) | KR102231498B1 (pt) |
CN (10) | CN104285390B (pt) |
AU (6) | AU2013261933B2 (pt) |
BR (1) | BR112014028439B1 (pt) |
HK (1) | HK1208569A1 (pt) |
TW (6) | TWI600005B (pt) |
WO (1) | WO2013171083A1 (pt) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2665208A1 (en) * | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
EP2738962A1 (en) | 2012-11-29 | 2014-06-04 | Thomson Licensing | Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field |
EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
EP2765791A1 (en) | 2013-02-08 | 2014-08-13 | Thomson Licensing | Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field |
EP2800401A1 (en) | 2013-04-29 | 2014-11-05 | Thomson Licensing | Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation |
US9980074B2 (en) * | 2013-05-29 | 2018-05-22 | Qualcomm Incorporated | Quantization step sizes for compression of spatial components of a sound field |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US20150127354A1 (en) * | 2013-10-03 | 2015-05-07 | Qualcomm Incorporated | Near field compensation for decomposed representations of a sound field |
EP2879408A1 (en) * | 2013-11-28 | 2015-06-03 | Thomson Licensing | Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition |
CN111179955B (zh) | 2014-01-08 | 2024-04-09 | 杜比国际公司 | 包括编码hoa表示的位流的解码方法和装置、以及介质 |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9502045B2 (en) * | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
EP2922057A1 (en) * | 2014-03-21 | 2015-09-23 | Thomson Licensing | Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal |
KR102428794B1 (ko) * | 2014-03-21 | 2022-08-04 | 돌비 인터네셔널 에이비 | 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치 |
CN106104681B (zh) | 2014-03-21 | 2020-02-11 | 杜比国际公司 | 对压缩的高阶高保真立体声(hoa)表示进行解码的方法及装置 |
US10412522B2 (en) * | 2014-03-21 | 2019-09-10 | Qualcomm Incorporated | Inserting audio channels into descriptions of soundfields |
CN109036441B (zh) * | 2014-03-24 | 2023-06-06 | 杜比国际公司 | 对高阶高保真立体声信号应用动态范围压缩的方法和设备 |
WO2015145782A1 (en) | 2014-03-26 | 2015-10-01 | Panasonic Corporation | Apparatus and method for surround audio signal processing |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US10134403B2 (en) * | 2014-05-16 | 2018-11-20 | Qualcomm Incorporated | Crossfading between higher order ambisonic signals |
US9620137B2 (en) * | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
EP3860154B1 (en) | 2014-06-27 | 2024-02-21 | Dolby International AB | Method for decoding a compressed hoa dataframe representation of a sound field. |
CN113793618A (zh) * | 2014-06-27 | 2021-12-14 | 杜比国际公司 | 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法 |
EP2960903A1 (en) * | 2014-06-27 | 2015-12-30 | Thomson Licensing | Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values |
KR20230162157A (ko) * | 2014-06-27 | 2023-11-28 | 돌비 인터네셔널 에이비 | Hoa 데이터 프레임 표현의 데이터 프레임들 중 특정 데이터 프레임들의 채널 신호들과 연관된 비차분 이득 값들을 포함하는 코딩된 hoa 데이터 프레임 표현 |
KR102460820B1 (ko) | 2014-07-02 | 2022-10-31 | 돌비 인터네셔널 에이비 | Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치 |
EP2963948A1 (en) * | 2014-07-02 | 2016-01-06 | Thomson Licensing | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation |
US9838819B2 (en) * | 2014-07-02 | 2017-12-05 | Qualcomm Incorporated | Reducing correlation between higher order ambisonic (HOA) background channels |
CN106463132B (zh) * | 2014-07-02 | 2021-02-02 | 杜比国际公司 | 对压缩的hoa表示编码和解码的方法和装置 |
EP2963949A1 (en) * | 2014-07-02 | 2016-01-06 | Thomson Licensing | Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation |
KR102363275B1 (ko) | 2014-07-02 | 2022-02-16 | 돌비 인터네셔널 에이비 | Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치 |
CN106576204B (zh) | 2014-07-03 | 2019-08-20 | 杜比实验室特许公司 | 声场的辅助增大 |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
EP3007167A1 (en) * | 2014-10-10 | 2016-04-13 | Thomson Licensing | Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field |
EP3073488A1 (en) * | 2015-03-24 | 2016-09-28 | Thomson Licensing | Method and apparatus for embedding and regaining watermarks in an ambisonics representation of a sound field |
US12087311B2 (en) | 2015-07-30 | 2024-09-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding an HOA representation |
EP3329486B1 (en) | 2015-07-30 | 2020-07-29 | Dolby International AB | Method and apparatus for generating from an hoa signal representation a mezzanine hoa signal representation |
US10257632B2 (en) | 2015-08-31 | 2019-04-09 | Dolby Laboratories Licensing Corporation | Method for frame-wise combined decoding and rendering of a compressed HOA signal and apparatus for frame-wise combined decoding and rendering of a compressed HOA signal |
JP6797197B2 (ja) | 2015-10-08 | 2020-12-09 | ドルビー・インターナショナル・アーベー | 圧縮された音または音場表現のための層構成の符号化 |
US9959880B2 (en) * | 2015-10-14 | 2018-05-01 | Qualcomm Incorporated | Coding higher-order ambisonic coefficients during multiple transitions |
WO2017087650A1 (en) | 2015-11-17 | 2017-05-26 | Dolby Laboratories Licensing Corporation | Headtracking for parametric binaural output system and method |
US20180338212A1 (en) * | 2017-05-18 | 2018-11-22 | Qualcomm Incorporated | Layered intermediate compression for higher order ambisonic audio data |
US10595146B2 (en) | 2017-12-21 | 2020-03-17 | Verizon Patent And Licensing Inc. | Methods and systems for extracting location-diffused ambient sound from a real-world scene |
US10657974B2 (en) * | 2017-12-21 | 2020-05-19 | Qualcomm Incorporated | Priority information for higher order ambisonic audio data |
JP6652990B2 (ja) * | 2018-07-20 | 2020-02-26 | パナソニック株式会社 | サラウンドオーディオ信号処理のための装置及び方法 |
CN110211038A (zh) * | 2019-04-29 | 2019-09-06 | 南京航空航天大学 | 基于dirac残差深度神经网络的超分辨率重建方法 |
CN113449255B (zh) * | 2021-06-15 | 2022-11-11 | 电子科技大学 | 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质 |
CN115881140A (zh) * | 2021-09-29 | 2023-03-31 | 华为技术有限公司 | 编解码方法、装置、设备、存储介质及计算机程序产品 |
CN115096428B (zh) * | 2022-06-21 | 2023-01-24 | 天津大学 | 一种声场重建方法、装置、计算机设备和存储介质 |
Family Cites Families (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100206333B1 (ko) * | 1996-10-08 | 1999-07-01 | 윤종용 | 두개의 스피커를 이용한 멀티채널 오디오 재생장치및 방법 |
EP1002388B1 (en) * | 1997-05-19 | 2006-08-09 | Verance Corporation | Apparatus and method for embedding and extracting information in analog signals using distributed signal features |
FR2779951B1 (fr) | 1998-06-19 | 2004-05-21 | Oreal | Composition tinctoriale contenant une pyrazolo-[1,5-a]- pyrimidine a titre de base d'oxydation et un coupleur naphtalenique, et procedes de teinture |
US7231054B1 (en) * | 1999-09-24 | 2007-06-12 | Creative Technology Ltd | Method and apparatus for three-dimensional audio display |
US6763623B2 (en) * | 2002-08-07 | 2004-07-20 | Grafoplast S.P.A. | Printed rigid multiple tags, printable with a thermal transfer printer for marking of electrotechnical and electronic elements |
KR20050075510A (ko) * | 2004-01-15 | 2005-07-21 | 삼성전자주식회사 | 통신 단말기를 위한 3차원 입체음향의 재생/저장 장치 및방법 |
CN1930915B (zh) * | 2004-03-11 | 2012-08-29 | Pss比利时股份有限公司 | 用于处理声音信号的方法和系统 |
CN1677490A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
EP1853092B1 (en) * | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
US8712061B2 (en) * | 2006-05-17 | 2014-04-29 | Creative Technology Ltd | Phase-amplitude 3-D stereo encoder and decoder |
US8374365B2 (en) * | 2006-05-17 | 2013-02-12 | Creative Technology Ltd | Spatial audio analysis and synthesis for binaural reproduction and format conversion |
DE102006047197B3 (de) * | 2006-07-31 | 2008-01-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten |
US7558685B2 (en) * | 2006-11-29 | 2009-07-07 | Samplify Systems, Inc. | Frequency resolution using compression |
KR100913092B1 (ko) * | 2006-12-01 | 2009-08-21 | 엘지전자 주식회사 | 믹스신호의 인터페이스 표시 방법 및 장치 |
CN101206860A (zh) * | 2006-12-20 | 2008-06-25 | 华为技术有限公司 | 一种可分层音频编解码方法及装置 |
KR101379263B1 (ko) * | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
US20090043577A1 (en) * | 2007-08-10 | 2009-02-12 | Ditech Networks, Inc. | Signal presence detection using bi-directional communication data |
EP2571024B1 (en) * | 2007-08-27 | 2014-10-22 | Telefonaktiebolaget L M Ericsson AB (Publ) | Adaptive transition frequency between noise fill and bandwidth extension |
WO2009046223A2 (en) * | 2007-10-03 | 2009-04-09 | Creative Technology Ltd | Spatial audio analysis and synthesis for binaural reproduction and format conversion |
WO2009046460A2 (en) * | 2007-10-04 | 2009-04-09 | Creative Technology Ltd | Phase-amplitude 3-d stereo encoder and decoder |
WO2009067741A1 (en) * | 2007-11-27 | 2009-06-04 | Acouity Pty Ltd | Bandwidth compression of parametric soundfield representations for transmission and storage |
BRPI0821091B1 (pt) * | 2007-12-21 | 2020-11-10 | France Telecom | processo e dispositivo de codificação/decodificação por transformada com janelas adaptativas, e memória legível por computador |
CN101202043B (zh) * | 2007-12-28 | 2011-06-15 | 清华大学 | 音频信号的编码方法和装置与解码方法和装置 |
ATE500588T1 (de) * | 2008-01-04 | 2011-03-15 | Dolby Sweden Ab | Audiokodierer und -dekodierer |
ES2404563T3 (es) * | 2008-02-14 | 2013-05-28 | Dolby Laboratories Licensing Corporation | Ampliación estereofónica |
US8812309B2 (en) * | 2008-03-18 | 2014-08-19 | Qualcomm Incorporated | Methods and apparatus for suppressing ambient noise using multiple audio signals |
US8611554B2 (en) * | 2008-04-22 | 2013-12-17 | Bose Corporation | Hearing assistance apparatus |
CA2730355C (en) * | 2008-07-11 | 2016-03-22 | Guillaume Fuchs | Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme |
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
EP2154677B1 (en) * | 2008-08-13 | 2013-07-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a converted spatial audio signal |
US8817991B2 (en) * | 2008-12-15 | 2014-08-26 | Orange | Advanced encoding of multi-channel digital audio signals |
US8964994B2 (en) * | 2008-12-15 | 2015-02-24 | Orange | Encoding of multichannel digital audio signals |
EP2205007B1 (en) * | 2008-12-30 | 2019-01-09 | Dolby International AB | Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction |
CN101770777B (zh) * | 2008-12-31 | 2012-04-25 | 华为技术有限公司 | 一种线性预测编码频带扩展方法、装置和编解码系统 |
GB2467534B (en) * | 2009-02-04 | 2014-12-24 | Richard Furse | Sound system |
RU2586851C2 (ru) * | 2010-02-24 | 2016-06-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство для формирования улучшенного сигнала микширования с понижением, способ формирования улучшенного сигнала микширования с понижением и компьютерная программа |
WO2011104463A1 (fr) * | 2010-02-26 | 2011-09-01 | France Telecom | Compression de flux audio multicanal |
KR101795015B1 (ko) * | 2010-03-26 | 2017-11-07 | 돌비 인터네셔널 에이비 | 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치 |
US20120029912A1 (en) * | 2010-07-27 | 2012-02-02 | Voice Muffler Corporation | Hands-free Active Noise Canceling Device |
NZ587483A (en) * | 2010-08-20 | 2012-12-21 | Ind Res Ltd | Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
EP2451196A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three |
EP2450880A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
FR2969804A1 (fr) * | 2010-12-23 | 2012-06-29 | France Telecom | Filtrage perfectionne dans le domaine transforme. |
EP2541547A1 (en) * | 2011-06-30 | 2013-01-02 | Thomson Licensing | Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation |
EP2665208A1 (en) * | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
US9288603B2 (en) | 2012-07-15 | 2016-03-15 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding |
EP2733963A1 (en) * | 2012-11-14 | 2014-05-21 | Thomson Licensing | Method and apparatus for facilitating listening to a sound signal for matrixed sound signals |
EP2743922A1 (en) * | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
EP2946468B1 (en) * | 2013-01-16 | 2016-12-21 | Thomson Licensing | Method for measuring hoa loudness level and device for measuring hoa loudness level |
EP2765791A1 (en) * | 2013-02-08 | 2014-08-13 | Thomson Licensing | Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field |
US9685163B2 (en) * | 2013-03-01 | 2017-06-20 | Qualcomm Incorporated | Transforming spherical harmonic coefficients |
EP2782094A1 (en) * | 2013-03-22 | 2014-09-24 | Thomson Licensing | Method and apparatus for enhancing directivity of a 1st order Ambisonics signal |
US9980074B2 (en) * | 2013-05-29 | 2018-05-22 | Qualcomm Incorporated | Quantization step sizes for compression of spatial components of a sound field |
EP2824661A1 (en) * | 2013-07-11 | 2015-01-14 | Thomson Licensing | Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals |
KR101480474B1 (ko) * | 2013-10-08 | 2015-01-09 | 엘지전자 주식회사 | 오디오 재생장치와 이를 포함하는 시스템 |
EP3073488A1 (en) * | 2015-03-24 | 2016-09-28 | Thomson Licensing | Method and apparatus for embedding and regaining watermarks in an ambisonics representation of a sound field |
WO2020037280A1 (en) * | 2018-08-17 | 2020-02-20 | Dts, Inc. | Spatial audio signal decoder |
US11429340B2 (en) * | 2019-07-03 | 2022-08-30 | Qualcomm Incorporated | Audio capture and rendering for extended reality experiences |
-
2012
- 2012-05-14 EP EP12305537.8A patent/EP2665208A1/en not_active Withdrawn
-
2013
- 2013-05-03 TW TW102115828A patent/TWI600005B/zh active
- 2013-05-03 TW TW106122256A patent/TWI618049B/zh active
- 2013-05-03 TW TW106146055A patent/TWI634546B/zh active
- 2013-05-03 TW TW107119510A patent/TWI666627B/zh active
- 2013-05-03 TW TW110112090A patent/TWI823073B/zh active
- 2013-05-03 TW TW108114778A patent/TWI725419B/zh active
- 2013-05-06 CN CN201380025029.9A patent/CN104285390B/zh active Active
- 2013-05-06 CN CN201710350455.XA patent/CN107170458B/zh active Active
- 2013-05-06 KR KR1020207016239A patent/KR102231498B1/ko active IP Right Grant
- 2013-05-06 EP EP23168515.7A patent/EP4246511A3/en active Pending
- 2013-05-06 BR BR112014028439-3A patent/BR112014028439B1/pt active IP Right Grant
- 2013-05-06 WO PCT/EP2013/059363 patent/WO2013171083A1/en active Application Filing
- 2013-05-06 JP JP2015511988A patent/JP6211069B2/ja active Active
- 2013-05-06 CN CN202310171516.1A patent/CN116229995A/zh active Pending
- 2013-05-06 EP EP13722362.4A patent/EP2850753B1/en active Active
- 2013-05-06 AU AU2013261933A patent/AU2013261933B2/en active Active
- 2013-05-06 KR KR1020147031645A patent/KR102121939B1/ko active IP Right Grant
- 2013-05-06 CN CN202110183761.5A patent/CN112712810B/zh active Active
- 2013-05-06 CN CN202110183877.9A patent/CN112735447B/zh active Active
- 2013-05-06 US US14/400,039 patent/US9454971B2/en active Active
- 2013-05-06 CN CN201710354502.8A patent/CN106971738B/zh active Active
- 2013-05-06 CN CN201710350511.XA patent/CN107017002B/zh active Active
- 2013-05-06 KR KR1020217008100A patent/KR102427245B1/ko active IP Right Grant
- 2013-05-06 KR KR1020237013799A patent/KR102651455B1/ko active IP Right Grant
- 2013-05-06 KR KR1020227026008A patent/KR102526449B1/ko active IP Right Grant
- 2013-05-06 CN CN202310181331.9A patent/CN116312573A/zh active Pending
- 2013-05-06 KR KR1020247009545A patent/KR20240045340A/ko active Search and Examination
- 2013-05-06 EP EP21214985.0A patent/EP4012703B1/en active Active
- 2013-05-06 EP EP19175884.6A patent/EP3564952B1/en active Active
- 2013-05-06 CN CN201710350454.5A patent/CN107180637B/zh active Active
- 2013-05-06 CN CN201710350513.9A patent/CN107180638B/zh active Active
-
2015
- 2015-09-17 HK HK15109104.7A patent/HK1208569A1/xx unknown
-
2016
- 2016-07-27 US US15/221,354 patent/US9980073B2/en active Active
- 2016-11-25 AU AU2016262783A patent/AU2016262783B2/en active Active
-
2017
- 2017-09-12 JP JP2017174629A patent/JP6500065B2/ja active Active
-
2018
- 2018-03-21 US US15/927,985 patent/US10390164B2/en active Active
-
2019
- 2019-03-05 AU AU2019201490A patent/AU2019201490B2/en active Active
- 2019-03-18 JP JP2019049327A patent/JP6698903B2/ja active Active
- 2019-07-01 US US16/458,526 patent/US11234091B2/en active Active
-
2020
- 2020-04-28 JP JP2020078865A patent/JP7090119B2/ja active Active
-
2021
- 2021-06-09 AU AU2021203791A patent/AU2021203791B2/en active Active
- 2021-12-10 US US17/548,485 patent/US11792591B2/en active Active
-
2022
- 2022-06-13 JP JP2022095120A patent/JP7471344B2/ja active Active
- 2022-08-08 AU AU2022215160A patent/AU2022215160B2/en active Active
-
2023
- 2023-10-16 US US18/487,280 patent/US20240147173A1/en active Pending
-
2024
- 2024-04-09 JP JP2024062459A patent/JP2024084842A/ja active Pending
- 2024-10-04 AU AU2024227096A patent/AU2024227096A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BR112014028439B1 (pt) | Método e aparelho para comprimir um sinalambissônico de ordem superior (aos), método e aparelhopara descomprimir um sinal ambissônico de ordemsuperior (aos) comprimido, e representação de sinal aos | |
RU2623886C2 (ru) | Способ и устройство для сжатия и восстановления представления системы амбисоник высшего порядка для звукового поля | |
JP2015520411A5 (pt) | ||
BR112020018466A2 (pt) | representando áudio espacial por meio de um sinal de áudio e de metadados associados | |
BR122022022357B1 (pt) | Método e aparelho para determinar para a compressão de uma representação de quadro de dados hoa | |
BR122020017110B1 (pt) | Método e aparelho para descomprimir um sinal ambissônico de ordem superior (aos) comprimido e meio legível por computador não transitório | |
BR122020017086B1 (pt) | Método e aparelho para descomprimir um sinal ambissônico de ordem superior (aos) comprimido e meio legível por computador não transitório | |
BR112016029978B1 (pt) | Método para determinar para a compressão de uma representação de quadro de dados hoa um número inteiro mais baixo de bits requeridos para representar valores de ganho não diferenciais |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B25A | Requested transfer of rights approved |
Owner name: DOLBY INTERNATIONAL AB (NL) |
|
B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
B15K | Others concerning applications: alteration of classification |
Free format text: A CLASSIFICACAO ANTERIOR ERA: H04H 20/89 Ipc: H04S 3/02 (2006.01), G10L 19/008 (2013.01) |
|
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B07A | Application suspended after technical examination (opinion) [chapter 7.1 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 06/05/2013, OBSERVADAS AS CONDICOES LEGAIS |