BR112014028439B1 - Método e aparelho para comprimir um sinalambissônico de ordem superior (aos), método e aparelhopara descomprimir um sinal ambissônico de ordemsuperior (aos) comprimido, e representação de sinal aos - Google Patents

Método e aparelho para comprimir um sinalambissônico de ordem superior (aos), método e aparelhopara descomprimir um sinal ambissônico de ordemsuperior (aos) comprimido, e representação de sinal aos Download PDF

Info

Publication number
BR112014028439B1
BR112014028439B1 BR112014028439-3A BR112014028439A BR112014028439B1 BR 112014028439 B1 BR112014028439 B1 BR 112014028439B1 BR 112014028439 A BR112014028439 A BR 112014028439A BR 112014028439 B1 BR112014028439 B1 BR 112014028439B1
Authority
BR
Brazil
Prior art keywords
aos
component
order
environmental
dominant
Prior art date
Application number
BR112014028439-3A
Other languages
English (en)
Other versions
BR112014028439A2 (pt
BR112014028439A8 (pt
Inventor
Alexander Krüger
Sven Kordon
Johannes Boehm
Johann-Markus Batke
Original Assignee
Dolby International Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International Ab filed Critical Dolby International Ab
Publication of BR112014028439A2 publication Critical patent/BR112014028439A2/pt
Publication of BR112014028439A8 publication Critical patent/BR112014028439A8/pt
Publication of BR112014028439B1 publication Critical patent/BR112014028439B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/86Arrangements characterised by the broadcast information itself
    • H04H20/88Stereophonic broadcast systems
    • H04H20/89Stereophonic broadcast systems using three or more audio channels, e.g. triphonic or quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • User Interface Of Digital Computer (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Separation Using Semi-Permeable Membranes (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

MÉTODO E APARELHO PARA COMPRIMIR E DESCOMPRIMIR UMA REPRESENTAÇÃO DE SINAL AMBISONICS DE ORDEM SUPERIOR. Ambisonics de Ordem Superior (AOS) representa um campo sonoro completo nas proximidades de um ponto perfeito, independente da configuração de alto-falante. A resolução espacial elevada requer um número elevado de coeficientes de AOS. Na invenção, direções sonoras dominantes são estimadas e a representação do sinal de AOS é decomposta em sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e um componente ambiental no domínio da AOS, seguido pela compressão do componente ambiental através da redução de sua ordem. O componente ambiental de ordem reduzida é transformado para o domínio espacial, e é codificado perceptivamente junto com os sinais direcionais. No lado do receptor, os sinais direcionais codificados e o componente ambiental codificado de ordem reduzida são perceptivamente descomprimidos, os sinais ambientais perceptivamente descomprimidos são transformados para uma representação do domínio da AOS de ordem reduzida, seguido pela extensão da ordem. A representação de AOS total é recomposta a partir dos sinais direcionais, das informações direcionais correspondentes, e do componente de AOS ambiental de ordem original.

Description

[001]A invenção se refere a um método e a um aparelho para comprimir e descomprimir uma representação de sinal Ambissônico de Ordem Superior, em que componentes direcionais e ambientais são processados de maneira diferente.
Antecedentes
[002]Ambissônico de Ordem Superior (AOS) oferece a vantagem de capturar um campo sonoro completo nas proximidades de um local específico no espaço tridimensional, sendo esse local denominado “ponto perfeito” (sweet spot). Essa representação de AOS independe de uma configuração de alto-falante específica, contrariamente às técnicas baseadas em canal, como estéreo ou surround. Mas esta flexibilidade ocorre à custa de um processo de decodificação necessário para reproduzir a representação de AOS em uma configuração de alto-falante particular.
[003]AOS se baseia na descrição de amplitudes complexas da pressão do ar para números de onda angular individual k para as posições x nas proximidades de uma posição do ouvinte desejado, o qual, sem perda da generalidade, pode ser presumido como sendo a origem de um sistema esférico de coordenadas, utilizando uma expansão truncada da Harmônica Esférica (HE). A resolução espacial desta representação aumenta com uma ordem máxima crescente N da expansão. Infelizmente, o número de coeficientes de expansão 0 cresce quadraticamente com a ordem N, isto é, 0 = (N + 1)2. Por exemplo, representações de AOS típicas que utilizam a ordem N = 4 requerem coeficientes de AOS 0 = 25. Dada uma taxa de amostragem desejada fs e o número Nb de bits por amostra, a taxa de bit total para a transmissão de uma representação de sinal AOS é determinada por 0.fs.Nb, e a transmissão de uma representação de sinal AOS de ordem N = 4 com uma taxa de amostragem de fs=48kHz empregando Nb = 16 bits por amostra está resultando em uma taxa de bit de 19,2 MBits/s. Desse modo, a compressão das representações do sinal de AOS é altamente desejável.
[004]Um panorama das abordagens de compressão de áudio espacial existente pode ser encontrado no pedido de patente EP 10306472.1 ou em I. Elfitri, B. Günel, A.M. Kondoz, "Multichannel Audio Coding Based on Analysis by Synthesis", Proceedings of the IEEE, vol.99, no.4, pp.657-670, Abril de 2011.
[005]As técnicas a seguir são mais relevantes em relação à invenção.
[006]Sinais de formato B, que são equivalentes às representações Ambissônico de primeira ordem, podem ser comprimido utilizando a Codificação de Áudio Direcional (DirAC) conforme descrito in V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Journal of Audio Eng. Society, vol.55 (6), pp.503-516, 2007. Em uma versão sugerida para aplicações em teleconferência, o sinal no formato B é codificado em um único sinal omnidirecional, bem como informações laterais na forma de uma única direção e de um parâmetro de redundância por banda de frequência. No entanto, a redução drástica da taxa de dados resultante implica em menor qualidade do sinal obtido na reprodução. Ademais, a DirAC é limitada à compressão das representações Ambissônico de primeira ordem, que sofrem com a baixíssima resolução espacial.
[007]Os métodos conhecidos para a compressão das representações de AOS com N>1 são raríssimos. Um deles realiza a codificação direta de sequências de coeficiente de AOS individuais empregando o codec perceptivo Codificação de Áudio Avançada (AAC), de acordo com E. Hellerud, I. Burnett, A. Solvang, U. Peter Svensson, "Encoding High Order Ambissônico with AAC", 124th AES Convention, Amsterdam, 2008. No entanto, o problema inerente com tal abordagem é a codificação perceptiva dos sinais que jamais são ouvidos. Os sinais de reprodução reconstruídos são normalmente obtidos por uma soma ponderada das sequências de coeficiente de AOS. Por essa razão é grande a probabilidade de desmascaramento do ruído de codificação perceptiva quando a representação de AOS descomprimida é fornecida em uma configuração de alto-falante particular. Em termos mais técnicos, o principal problema para o desmascaramento do ruído de codificação perceptiva são as correlações cruzadas altas entre as sequências de coeficientes de AOS individuais. Como os sinais de ruído codificados nas sequências de coeficiente de AOS individuais normalmente não são correlacionadas entre si, pode ocorrer uma sobreposição construtiva do ruído de codificação perceptiva, enquanto, ao mesmo tempo, as sequências de coeficiente de AOS livres de ruído são canceladas na sobreposição. Outro problema é que as correlações cruzadas mencionadas levam à eficiência reduzida dos codificadores perceptivos.
[008]A fim de minimizar a extensão destes efeitos, o documento EP 10306472.1 sugere transformar a representação de AOS em uma representação equivalente no domínio espacial antes da codificação perceptiva. Os sinais do domínio espacial correspondem aos sinais direcionais convencionais, e corresponderiam aos sinais de alto-falante se os alto-falantes estivessem posicionados exatamente nas mesmas direções que aquelas assumidas para a transformada do domínio espacial.
[009]A transformada para o domínio espacial reduz as correlações cruzadas entre os sinais do domínio espacial individuais. Entretanto, as correlações cruzadas não são completamente eliminadas. Um exemplo para as correlações cruzadas relativamente altas é um sinal direcional, cuja direção recai entre as direções adjacentes cobertas pelos sinais do domínio espacial.
[010]Outra desvantagem do documento EP 10306472.1 e no citado artigo de Hellerud et al. é que o número de sinais codificados perceptivamente é (N + 1)2, onde N é a ordem da representação de AOS. Portanto, a taxa de dados para a representação de AOS comprimida cresce quadraticamente com a ordem de Ambissônico.
[011]O processamento de compressão da invenção executa uma decomposição de uma representação do campo sonoro de AOS em um componente direcional e em um componente ambiental. Em particular, para a computação do componente direcional do campo do som, descreve-se abaixo um novo processamento para a estimativa de diversas direções sonoras dominantes.
[012]Quanto aos métodos existentes para estimativa de direção baseados em Ambissônico, o artigo de Pulkki já mencionado descreve um método associado à codificação DirAC para a estimativa da direção, com base na representação do campo do som no formato B. A direção é obtida do vetor de intensidade média, que aponta para a direção do fluxo de energia do campo sonoro. Uma alternativa baseada no formato B é sugerida em D. Levin, S. Gannot, E.A.P. Habets, "Direction-of-Arrival Estimation using Acoustic Vector Sensors in the Presence of Noise", IEEE Proc. d ICASSP, pp.105-108, 2011. A estimativa de direção é realizada iterativamente buscando a direção que fornece a energia máxima de um sinal de saída formador de feixe dirigido para aquela direção.
[013]No entanto, ambas as abordagens são limitadas ao formato B para a estimativa de direção, que sofre com uma resolução espacial relativamente baixa. Uma desvantagem adicional é que a estimativa está restrita a uma única direção dominante.
[014]As representações de AOS oferecem uma resolução espacial aprimorada e, portanto, permite uma melhor estimativa das diversas direções dominantes. Os métodos existentes que realizam uma estimativa das diversas direções com base nas representações do campo sonoro de AOS são bastante raros. Uma abordagem baseada na percepção compressiva é sugerida em N. Epain, C. Jin, A. van Schaik, "The Application of Compressive Amostragem to the Analysis and Synthesis of Spatial Sound Fields", 127th Convention of the Audio Eng. Soc, Nova York, 2009, em in A. Wabnitz, N. Epain, A. van Schaik, C Jin, "Time Domain Reconstruction of Spatial Sound Fields Using Compressed Sensing", IEEE Proc. of the ICASSP, pp.465-468, 2011. A ideia principal é assumir que o campo sonoro é espacialmente esparso, isto é, consistir apenas de um pequeno número de sinais direcionais. Em seguida à alocação de um número elevado de direções de teste sobre a esfera, um algoritmo de otimização é utilizado a fim de encontrar o menor número possível de direções de teste junto com os sinais direcionais correspondentes, de modo que são bem descritos pela representação de AOS dada. Este método fornece uma resolução espacial em relação à que é efetivamente fornecida pela dada representação de AOS, já que evita a dispersão espacial resultante de uma ordem limitada da representação de AOS dada. No entanto, o desempenho do algoritmo depende intensamente de a presunção de dispersão ser satisfeita. Em particular, a abordagem falha, se o campo sonoro contiver quaisquer componentes ambientais menores adicionais, ou se a representação de AOS for afetada pelo ruído que ocorrerá quando computado de gravações em múltiplos canais.
[015]Ademais, um método especialmente intuitivo é transformar a representação de AOS dada para o domínio espacial conforme descrito em B. Rafaely, "Plane-wave decomposition of the sound Field on a sphere by spherical convolution", J. Acoust. Soc. Am., vol.4, no.116, pp.2149-2157, Outubro de 2004, e em seguida buscar a máxima nas energias direcionais. A desvantagem desta abordagem é que a presença de componentes ambientais prejudica a distribuição da energia direcional e a um deslocamento da máxima das energias direcionais em comparação à ausência de qualquer componente ambiental.
Invenção
[016]Um problema a ser solucionado pela invenção é fornecer uma compressão para os sinais AOS através da qual a resolução espacial elevada da representação de sinal AOS ainda é mantida. Este problema é solucionado pelos métodos revelados nas reivindicações 1 e 2. Os aparelhos que utilizam estes métodos são revelados nas reivindicações 3 e 4.
[017]A invenção aborda a compressão das representações de AOS Ambissônico de Ordem Superior dos campos sonoros. No presente relatório descritivo, o termo 'AOS' denota a representação Ambissônico de Ordem Superior em tal condição, bem como um sinal de áudio correspondentemente codificado ou representado. As direções sonoras dominantes são estimadas e a representação de sinal AOS é decomposta em diversos sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e em um componente ambiental no domínio AOS, seguido pela compressão do componente ambiental através da redução de sua ordem. Depois dessa decomposição, o componente AOS ambiental de ordem reduzida é transformado para o domínio espacial, e é codificado perceptivamente junto com os sinais direcionais.
[018]No lado do receptor ou do decodificador, os sinais direcionais codificados e o componente ambiental codificado de ordem reduzida são perceptivamente descomprimidos. Os sinais ambientais perceptivamente descomprimidos são transformados para uma representação do domínio AOS de ordem reduzida, seguido pela extensão de ordem. A representação de AOS total é recomposta a partir dos sinais direcionais e das informações direcionais correspondentes e do componente AOS ambiental de ordem original.
[019]Em termos de vantagens, o componente do campo sonoro ambiental pode ser representado com exatidão suficiente por uma representação de AOS com uma ordem inferior à ordem original, e a extração dos sinais direcionais dominantes garante que, após a compressão e descompressão, ainda se obtém uma elevada resolução espacial.
[020]Em princípio, o método da invenção é adequado para comprimir uma representação do sinal Ambissônico de Ordem Superior AOS, sendo que o dito método inclui as etapas de: - estimar as direções dominantes, em que a dita estimativa de direção dominante depende de uma distribuição da energia direcional dos componentes AOS energeticamente dominantes; - decompor ou decodificar a representação de sinal AOS em diversos sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e um componente ambiental residual no domínio AOS, em que o dito componente ambiental residual representa a diferença entre a dita representação de sinal AOS e uma representação dos ditos sinais direcionais dominantes; - comprimir o dito componente ambiental residual reduzindo sua ordem em relação à sua ordem original; - transformar o dito componente AOS ambiental residual de ordem reduzida para o domínio espacial; - codificar perceptivamente os ditos sinais direcionais dominantes e o dito componente AOS ambiental residual transformado.
[021]Em princípio, o método da invenção é adequado para descomprimir uma representação do sinal Ambissônico de Ordem Superior AOS que foi comprimido pelas etapas de: - estimar as direções dominantes, em que a dita estimativa de direção dominante depende de uma distribuição da energia direcional dos componentes AOS energeticamente dominantes; - decompor ou decodificar a representação de sinal AOS em diversos sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e um componente ambiental residual no domínio AOS, em que o dito componente ambiental residual representa a diferença entre a dita representação de sinal AOS e uma representação dos ditos sinais direcionais dominantes; - comprimir o dito componente ambiental residual reduzindo sua ordem em relação à sua ordem original; - transformar o dito componente AOS ambiental residual de ordem reduzida para o domínio espacial; - codificar perceptivamente os ditos sinais direcionais dominantes e o dito componente AOS ambiental residual transformado, sendo que o método inclui as etapas de: - decodificar perceptivamente os ditos sinais direcionais dominantes codificados perceptivamente e o dito componente AOS ambiental residual transformado codificado perceptivamente; - submeter à transformada inversa o dito componente AOS ambiental residual transformado decodificado perceptivamente de modo a obter uma representação do domínio AOS; - executar uma extensão de ordem do dito componente AOS ambiental residual submetido à transformada inversa de modo a estabelecer um componente AOS ambiental de ordem original; - compor os ditos sinais direcionais dominantes decodificados perceptivamente, a dita informação de direção e o dito componente AOS ambiental estendido de ordem original de modo a obter uma representação de sinal AOS.
[022]Em princípio, o aparelho da invenção é adequado para comprimir uma representação do sinal Ambissônico de Ordem Superior AOS, sendo que o aparelho inclui: - meio que é adaptado para estimar as direções dominantes, em que a dita estimativa de direção dominante depende de uma distribuição da energia direcional dos componentes AOS energeticamente dominantes; - meio que é adaptado para decompor ou decodificar a representação de sinal AOS em diversos sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e um componente ambiental residual no domínio AOS, em que o dito componente ambiental residual representa a diferença entre a dita representação de sinal AOS e uma representação dos ditos sinais direcionais dominantes; - meio que é adaptado para comprimir o dito componente ambiental residual reduzindo sua ordem em relação à sua ordem original; - meio que é adaptado para transformar o dito componente AOS ambiental residual de ordem reduzida para o domínio espacial; - meio que é adaptado para codificar perceptivamente os ditos sinais direcionais dominantes e o dito componente AOS ambiental transformado residual.
[023]Em princípio o aparelho da invenção é adequado para descomprimir uma representação do sinal Ambissônico de Ordem Superior AOS que foi comprimido pelas etapas de: - estimar as direções dominantes, em que a dita estimativa de direção dominante depende de uma distribuição da energia direcional dos componentes AOS energeticamente dominantes; - decompor ou decodificar a representação de sinal AOS em diversos sinais direcionais dominantes no domínio do tempo e informações direcionais correlatas, e um componente ambiental residual no domínio AOS, em que o dito componente ambiental residual representa a diferença entre a dita representação de sinal AOS e uma representação dos ditos sinais direcionais dominantes; - comprimir o dito componente ambiental residual reduzindo sua ordem em relação à sua ordem original; - transformar o dito componente AOS ambiental residual de ordem reduzida para o domínio espacial; - codificar perceptivamente os ditos sinais direcionais dominantes e o dito componente AOS ambiental residual transformado, sendo que o aparelho inclui: - meio que é adaptado para decodificar perceptivamente os ditos sinais direcionais dominantes codificados perceptivamente e o dito componente AOS ambiental residual transformado codificado perceptivamente; - meio que é adaptado para submeter à transformada inversa o dito componente AOS ambiental residual transformado decodificado perceptivamente de modo a obter uma representação do domínio AOS; - meio que é adaptado para executar uma extensão de ordem do dito componente AOS ambiental residual submetido à transformada inversa de modo a estabelecer um componente AOS ambiental de ordem original; - meio que é adaptado para compor os ditos sinais direcionais dominantes decodificados perceptivamente, a dita informação de direção e o dito componente AOS ambiental estendido de ordem original de modo a obter uma representação de sinal AOS.
[024]Outras modalidades vantajosas da invenção são reveladas nas respectivas reivindicações dependentes.
Desenhos
[025]Modalidades exemplificativas da invenção são descritas fazendo referência aos desenhos em anexo, que mostram na:
[026]Figura 1 - Função de dispersão normalizada ^N(Θ) para diferentes ordens Ambissônico N e para os ângulos 0 E Iθ.^l;
[027]Figura 2 - Diagrama de bloco do processamento de compressão de acordo com a invenção;
[028]Figura 3 - Diagrama de bloco do processamento de descompressão de acordo com a invenção.
Modalidades exemplificativas
[029]Os sinais Ambissônico descrevem os campos sonoros em áreas livres de fonte utilizando a expansão da Harmônica Esférica (HS). A viabilidade desta descrição pode ser atribuída à propriedade física em que o comportamento temporal e espacial da pressão sonora é essencialmente determinado pela equação da onda. Equação da onda e expansão da Harmônica Esférica
[030]Para uma descrição mais detalhada de Ambissônico, a seguir assume-se um sistema esférico de coordenadas, onde um ponto no espaço
Figure img0001
é representado por um raio r > 0 (isto é, a distância até a origem da coordenada), um ângulo de inclinação 0 E t0^] medido a partir do eixo polar z, e um ângulo do azimute
Figure img0002
medido no plano x=y a partir do eixo x. Neste sistema esférico de coordenadas, a equação da onda para a pressão sonora p(t, x) em uma área livre de fonte conectada, onde t denota tempo, é dada pelo livro de Earl G. Williams, "Fourier Acoustics", vol.93 of Applied Mathematical Sciences, Academic Press, 1999:
[031]
Figure img0003
com cs indicando a velocidade do som. Em consequência disso, a transformada de Fourier da pressão sonora em relação ao tempo
Figure img0004
onde i denota a unidade imaginária, pode ser expandida na série de HS de acordo com o livro de Williams:
Figure img0005
[032]Cabe notar que esta expansão é válida para todos os pontos x em uma área livre de fonte conectada, que corresponde à região de convergência da série.
[033]Na equação (4), k denota o número da onda angular definido por
Figure img0006
e
Figure img0007
indica os coeficientes de expansão HS, que dependem somente do produto kr.
[034]Ademais
Figure img0008
são as funções de HS de ordem n e o grau
Figure img0009
onde
Figure img0010
CcosP) denotam as funções de Legendre associadas e (•)! indica o fatorial.
[035]As funções de Legendre associadas para índices de grau não negativo m são definidas pelas polinomiais de Legendre Pn(x) por m
Figure img0011
[036]Para índices de grau negativo, isto é, m < 0, as funções de Legendre associadas são definidas por
Figure img0012
[037]As polinomiais de Legendre Pn(x) (n> 0), por sua vez, podem ser definidas utilizando a Fórmula de Rodrigues como
Figure img0013
[038]Na técnica anterior, por exemplo, em M. Poletti, "Unified Description of Ambissônico using Real and Complex Spherical Harmonics", Proceedings of the Ambissônico Symposium 2009, 25-27 junho de 2009, Graz, Áustria, também existem definições das funções de HS que divergem daquelas na equação (6) por um fator de (-1)m para os índices de grau negativo m.
[039]Como alternativa, a transformada de Fourier da pressão sonora em relação ao tempo pode ser expressa utilizando funções reais de HS
Figure img0014
como
Figure img0015
[040]Na literatura, existem várias definições de funções reais de HS (vide, por exemplo, o artigo de Poletti citado). Uma possível definição, que é aplicada em todo este documento, é dada por
Figure img0016
onde (•)* denota uma conjugação complexa. Uma expressão alternativa é obtida inserido-se a equação (6) na equação (11):
Figure img0017
com
Figure img0018
[041]Embora as funções reais de HS sejam de valor real por definição, isso não se reproduz para os coeficientes de expansão correspondentes
Figure img0019
em geral.
[042]As funções de HS complexas estão relacionadas às funções reais de HS como segue:
Figure img0020
[043]As funções complexas de HS
Figure img0021
bem como as funções reais de HS
Figure img0022
com o vetor de direção
Figure img0023
formam uma base ortonormal para as funções de valor complexo do quadrado integrável na esfera unitária S2 no espaço tridimensional e, portanto, obedece as condições
Figure img0024
onde δ denota a função delta de Kronecker. O segundo resultado pode ser derivado utilizando a equação (15) e a definição de harmônicas esféricas reais na equação (11). Problema interno e os coeficientes Ambissônico
[044]O propósito do Ambissônico é uma representação de um campo sonoro nas proximidades da origem da coordenada. Sem perda da generalidade, esta região de interesse é aqui assumida como sendo uma bola de raio R centralizado na origem da coordenada, o que é especificado pelo conjunto
Figure img0025
. Uma assunção essencial para a representação é que esta bola supostamente não contém fontes sonoras. Descobrir a representação do campo sonoro no interior desta bola denomina-se “problema interno”, cf. o livro de Williams já mencionado.
[045]Pode-se mostrar que, para o problema interno, os coeficientes de expansão das funções de HS
Figure img0026
podem ser expressas como
Figure img0027
onde jn(.) denotam as funções esféricas de Bessel de primeira ordem. A partir da equação (17) ocorre que a informação completa sobre o campo sonoro está contida nos coeficientes
Figure img0028
denominados coeficientes Ambissônico.
[046]Do mesmo moco, os coeficientes da expansão das funções reais de HS
Figure img0029
podem ser fatorados como
Figure img0030
onde os coeficientes KSã são denominados coeficientes Ambissônico em relação à expansão utilizando as funções de HS de valor real. Eles estão relacionados a
Figure img0031
através de:
Figure img0032
Decomposição da onda plana
[047]O campo sonoro no interior de uma bola livre de fonte sonora centralizada na origem da coordenada pode ser expresso por uma sobreposição de um número infinito de ondas planas de diferentes números da onda angular k, que colidem na bola a partir de todas as direções possíveis, cf. o já citado artigo de Rafaely "Plane-wave decomposition...". Assumindo que a amplitude complexa de uma onda plana com número da onda angular k a partir da direção Qo seja dada por
Figure img0033
, é possível mostrar de modo similar com o uso da equação (11) e da equação (19) que os coeficientes Ambissônico correspondentes em relação à expansão das funções reais de HS são dados por
Figure img0034
[048]Consequentemente, os coeficientes Ambissônico para o campo sonoro resultante da sobreposição de um número infinito de ondas planas do número da onda angular k são obtidos pela integração da equação (20) em todas as direções possíveis
Figure img0035
Figure img0036
[049]A função
Figure img0037
é denominada “densidade de amplitude” e é assumida como sendo o quadrado integrável sobre a esfera unitária S2. É possível expandi-la na série de funções reais de HS como
Figure img0038
onde os coeficientes de expansão
Figure img0039
são iguais à integral que ocorre na equação (22), isto é,
Figure img0040
[050]Inserindo a equação (24) na equação (22) pode-se observar que os coeficientes Ambissônico
Figure img0041
são uma versão escalonada dos coeficientes de expansão
Figure img0042
isto é,
Figure img0043
[051]Ao aplicar a transformada inversa de Fourier em relação ao tempo aos coeficientes Ambissônico escalonados
Figure img0044
e à função da densidade de amplitude
Figure img0045
as quantidades de domínio do tempo correspondentes
Figure img0046
são obtidas. Então, no domínio do tempo, a equação (24) pode ser formulada como
Figure img0047
[052]O sinal direcional do domínio do tempo
Figure img0048
pode ser representado por uma expansão da função de HS real de acordo com
Figure img0049
[053]Usando o fato de que as funções de HS
Figure img0050
são de valor rel, seu conjugado complexo pode ser expresso por
Figure img0051
[054]Assumindo the sinal do domínio do tempo
Figure img0052
seja de valor real, isto é,
Figure img0053
, a partir da comparação da equação (29) com a equação (30) os coeficientes
Figure img0054
são de valor real naquele caso, isto é,
Figure img0055
[055]Os coeficientes
Figure img0056
serão denominados a seguir como coeficientes Ambissônico do domínio do tempo escalonados.
[056]A seguir, assume-se ainda que a representação do campo sonoro é dada por esses coeficientes, que serão descritos mais detalhadamente na seção abaixo que trata da compressão.
[057]Observa-se que a representação de AOS do domínio do tempo pelos coeficientes
Figure img0057
utilizados para o processamento de acordo com a invenção é equivalente a uma representação de AOS de domínio de frequência correspondente
Figure img0058
Portanto, a compressão e descompressão descritas podem ser realizadas equivalentemente no domínio de frequência com as respectivas modificações mínimas das equações. Resolução espacial com ordem finita
[058]Na prática, o campo sonoro nas proximidades da origem da coordenada é descrito utilizando apenas um número finito de coeficientes Ambissônico
Figure img0059
de ordem
Figure img0060
Computar a função da densidade de amplitude a partir da série truncada de funções de HS de acordo com
Figure img0061
introduz um tipo de dispersão espacial comparada à função da densidade de amplitude verdadeira £>Cfc, íl'), cf. o já citado artigo "Planewave decomposition...". Isso pode ser realizado computando a função da densidade de amplitude para uma única onda plana a partir da direção Qo com o uso da equação (31):
Figure img0062
com
Figure img0063
onde
Figure img0064
denota o ângulo entre os dois vetores que apontam para as direções
Figure img0065
satisfazendo a propriedade
Figure img0066
[059]Na equação (34), são empregados os coeficientes Ambissônico para uma onda plana dada na equação (20), enquanto nas equações (35) e (36) alguns teoremas matemáticos são explorados, cf. o já mencionado artigo "Plane-wave decomposition...". A propriedade na equação (33) pode ser mostrada utilizando a equação (14).
[060]Comparando equação (37) à função da densidade de amplitude verdadeira
Figure img0067
onde
Figure img0068
denota a função delta Dirac, a dispersão espacial torna- se óbvia a partir da substituição da função delta Dirac escalonada pela função de dispersão
Figure img0069
que, depois de normalizada por seu valor máximo, é ilustrada na Figura 1 para diferentes ordens Ambissônico N e ângulos
Figure img0070
[061]Como o primeiro zero de
Figure img0071
esta localizado π aproximadamente a
Figure img0072
para
Figure img0073
(vide o já mencionado artigo "Planewave decomposition..."), o efeito da dispersão é reduzido (e, desse modo, a resolução espacial é aprimorada) com ordem de Ambissônico crescente N.
[062]Para
Figure img0074
a função de dispersão
Figure img0075
converge para a função delta Dirac escalonada. Isso pode ser observado se a relação de completude para as polinomiais de Legendre
Figure img0076
for utilizada junto com a equação (35) para expressar o limite de
Figure img0077
para
Figure img0078
como
Figure img0079
[063]Ao definir o vetor das funções reais de HS da ordem
Figure img0080
'por
Figure img0081
onde 0 = (N + 1)2 e onde
Figure img0082
denota transposição, a comparação a equação (37) com a equação (33) mostra que a função de dispersão pode ser expressa através do produto escalar de dois vetores de HS reais como
Figure img0083
[064]A dispersão pode ser equivalentemente expressa no domínio do tempo como
Figure img0084
Amostragem
[065]Para algumas aplicações é desejável determinar os coeficientes , n a partir das amostras da função da densidade de amplitude do domínio do tempo d(t,íl) em um número finito / de direções discretas A integral na equação (28) é então aproximada por uma soma finita de acordo com B. Rafaely, "Analysis and Design of Spherical Microphone Arrays", IEEE Transactions on Speech and Audio Processing, vol.13, n° 1, pp.135-143, Janeiro de 2005:
Figure img0085
onde gj denotam alguns pesos de amostragem corretamente escolhidos. Em oposição ao artigo "Analysis and Design...", a aproximação (50) se refere a uma representação do domínio do tempo que usa funções reais de HS invés de uma representação do domínio de frequência utilizando funções de HS complexas. Uma condição necessária para que a aproximação (50) seja exata é que a densidade de amplitude seja da ordem harmônica limitada N, significando que
Figure img0086
[066]Se esta condição não for satisfeita, a aproximação (50) sofre de erros de aliasing espacial, cf. B. Rafaely, "Spatial Aliasing in Spherical Microphone Arrays", IEEE Transactions on Signal Processing, vol.55, n° 3, pp.1003-1010, Março de 2007. Uma segunda condição necessária requer que os pontos de amostragem e os pesos correspondentes satisfaçam as condições correspondentes dados no artigo "Analysis and Design...":
Figure img0087
[067]As condições (51) e (52) em conjunto são suficientes para a amostragem exata.
[068]A condição da amostragem (52) consiste em um conjunto de equações lineares, que podem ser formuladas compactamente utilizando uma única equação de matriz como
Figure img0088
onde Φ indica a matriz de modo definida por
Figure img0089
e G denota a matriz com os pesos em sua diagonal, isto é,
Figure img0090
[069]A partir da equação (53) pode-se observar que uma condição necessária para que a equação (52) se mantenha é que o número / de pontos de amostragem satisfaça / °. Coletando os valores da densidade de amplitude do domínio do tempo nos pontos de amostragem / no vetor
Figure img0091
e definindo o vetor dos coeficientes Ambissônico do domínio do tempo escalonados por
Figure img0092
ambos os vetores são relacionados através da expansão das funções de HS (29). Esta relação fornece o seguinte sistema de equações lineares:
Figure img0093
[070]Utilizando a notação do vetor introduzido, a computação dos coeficientes Ambissônico do domínio do tempo escalonados a partir dos valores das amostras da função da densidade de amplitude do domínio do tempo pode ser redigida como
Figure img0094
[071]Dada uma ordem de Ambissônico fixa N, em geral não é possível computar um número J — O de pontos de amostragem nj e os pesos correspondentes, de modo que a equação (52) da condição de amostragem se mantém. No entanto, se os pontos de amostragem forem selecionados de modo que a condição da amostragem esteja bem aproximada, então a classe da matriz de modo Φ é 0 e seu número de condição é baixo. Neste caso, a pseudoinversa
Figure img0095
da matriz de modo Φ existe e uma aproximação razoável do vetor do coeficiente Ambissônico do domínio do tempo escalonado c(t) a partir do vetor das amostras da função da densidade de amplitude do domínio do tempo amostras é dada por
Figure img0096
[072]Se
Figure img0097
, e a classe da matriz de modo for 0, então sua pseudoinversa coincide com sua inversa desde
Figure img0098
[073]Se adicionalmente a equação da condição de amostragem (52) for satisfeita, então
Figure img0099
se mantém e ambas as aproximações (59) e (1) são equivalentes e exatas.
[074]O vetor w(t) pode ser interpretado como um vetor dos sinais do domínio do tempo espacial. A transformada do domínio AOS para o domínio espacial pode ser realizada, por exemplo, utilizando a equação (58). Este tipo de transformada é denominada “Transformada Harmônica Esférica” (THE) no presente relatório descritivo e é utilizada quando o componente AOS ambiental de ordem reduzida é transformado para o domínio espacial. Assume-se implicitamente que os pontos de amostragem espaciais para a THE satisfazem aproximadamente a condição de amostragem na equação (52) com
Figure img0100
[075]Sob essas assunções, a matriz da THE satisfaz
Figure img0101
Caso o escalonamento absoluto para a THE não seja importante, a constante — pode ser negligenciada. Compressão
[076]Esta invenção está relacionada à compressão de uma dada representação de sinal AOS. Como mencionado acima, a representação de AOS é decomposta em um número previamente definido de sinais direcionais dominantes no domínio do tempo e em um componente ambiental no domínio AOS, seguido pela compressão da representação de AOS do componente ambiental através da redução de sua ordem. Esta operação explora a assunção, que é sustentada pelos testes de audição, de que o componente do campo sonoro ambiental pode ser representado com exatidão suficiente por uma representação de AOS com uma ordem inferior. A extração dos sinais direcionais dominantes garante que, após essa compressão e uma descompressão correspondente, uma elevada resolução espacial é obtida.
[077]Depois da decomposição, o componente AOS ambiental de ordem reduzida é transformado para o domínio espacial, e é codificado perceptivamente junto com os sinais direcionais conforme descrito na seção de Modalidades exemplificativas do pedido de patente EP 10306472.1.
[078]O processamento de compressão inclui duas etapas sucessivas, que são representadas na Figura 2. As definições exatas dos sinais individuais estão descritas na seção que se segue intitulada Detalhes da compressão.
[079]Na primeira etapa ou estágio mostrada na Figura 2a, em um estimador da direção dominante 22 as direções dominantes são estimadas e é realizada a decomposição do sinal Ambissônico C(l) em um componente direcional e um componente residual ou ambiental, onde I denota o índice do quadro. O componente direcional é calculado em uma etapa ou estágio de computação do sinal direcional 23, e assim a representação Ambissônico é convertida nos sinais do domínio do tempo representados por um conjunto de D sinais direcionais convencionais X(l) com direções correspondentes Í1DOM(0. O componente ambiental residual é calculado em uma etapa ou estágio de computação do componente AOS ambiental 24, e é representado pelos coeficientes de domínio AOS CA(l).
[080]Na segunda etapa mostrada na Figura 2b, uma codificação perceptiva dos sinais direcionais X(l) e do componente AOS ambiental CA(V) é realizada da seguinte maneira: - Os sinais direcionais do domínio do tempo convencionais X(l) podem ser comprimidos individualmente em um codificador perceptivo 27 utilizando qualquer técnica de compressão perceptiva conhecida. - A compressão do componente do domínio AOS ambiental CA(l) é realizada em duas subetapas ou estágios.
[081]A primeira subetapa ou estágio 25 realiza a redução da ordem original de Ambissônico N para NRED, por exemplo, NRED = 2, resultando no componente AOS ambiental CA,RED(l). Aqui, é explorada a assunção de que o componente do campo sonoro ambiental pode ser representado com exatidão por AOS com uma ordem inferior. A segunda subetapa ou estágio 26 baseia-se na compressão descrita no pedido de patente EP 10306472.1. Os 0RED: = (NRED + 1)2 AOS sinais CA,RED(l) do componente do campo sonoro ambiental, que foram computados na subetapa/estágio 25, são transformados em ORED sinais equivalentes WA,RED(l) no domínio espacial através da aplicação de uma Transformada Harmônica Esférica, resultando em sinais de domínio do tempo convencionais que podem ser inseridos em um banco de codecs perceptivos paralelos 27. Qualquer codificação perceptiva ou compressão técnica conhecida pode ser aplicada. Os sinais direcionais codificados e os sinais do domínio espacial codificados de ordem reduzida ^A.REDW são emitidos e podem ser transmitidos ou armazenados.
[082]Como vantagem, a compressão perceptiva de todos os sinais do domínio do tempo X(l) e WA,RED(l) pode ser executada conjuntamente em um codificador perceptivo 27 a fim de aprimorar a eficiência geral da codificação explorando as correlações intercanais potencialmente remanescentes.
Descompressão
[083]O processamento de descompressão para um sinal recebido ou reproduzido é representado na Figura 3. Assim como o processamento de compressão, inclui duas etapas sucessivas.
[084]Na primeira etapa ou estágio mostrado na Figura 3a, em uma decodificação perceptiva 31, realiza-se uma decodificação ou descompressão perceptiva dos sinais direcionais codificados *(0 e dos sinais do domínio espacial codificados de ordem reduzida M'A.REDCO, onde representa o componente e M'A.REDCO representa o componente AOS ambiental. Os sinais do domínio espacial decodificados ou descomprimidos perceptivamente M'A.RED (0 são transformados em um transformador inverso da harmônica esférica 32 em uma representação do domínio AOS T í/') da ^θ'- 'da ordem NRED por meio de uma transformada inversa da Harmônica Esférica. Depois disso, em uma etapa ou estágio de extensão de ordem 33, uma representação apropriada de AOS ^(Oda ordem N é estimada a partir de vA,RED<^pOr extensão de ordem.
[085]Na segunda etapa ou estágio mostrada na Figura 3b, a representação de AOS total £(0é recomposta em um montador do sinal de AOS 34 a partir dos sinais direcionais *(0e das informações direcionais correspondentes ^DOMCO, bem como a partir do componente AOS ambiental de ordem original ^A(9.
[086]Redução da taxa de dados obtenível
[087]Um problema solucionado pela invenção é a redução considerável da taxa de dados em comparação aos métodos de compressão existentes para as representações de AOS. A seguir, discute-se a taxa de compressão obtenível em comparação com a representação de AOS não comprimido. A taxa de compressão resulta da comparação da taxa de dados requerida para a transmissão de um sinal de AOS não comprimido C(l) de ordem N com a taxa de dados requerida para a transmissão de uma representação de sinal comprimido que consiste em D sinais direcionais codificados perceptivamente X(l) com as direções correspondentes Í*DOM(0 e NRED sinais codificados perceptivamente do domínio espacial WA,RED(l) representando o componente AOS ambiental.
[088]Para a transmissão do sinal de AOS não comprimido C(l), uma taxa de dados de 0>fs-wb θ requerida. Por outro lado, a transmissão de D sinais direcionais codificados perceptivamente X(l) requer uma taxa de dados de D /b,COD, onde ZUCOD denota a taxa de bit dos sinais codificados perceptivamente. Do mesmo modo, a transmissão dos NRED sinais codificados perceptivamente do domínio espacial WA,RED(l) sinais requer uma taxa de bit de °RED • /b,cor> •
[089]As direções ^DOMG) são assumidas como sendo computadas com base em uma taxa bem menor do que a taxa de amostragem ^s, isto é, são assumidas como sendo fixas pela duração de um sinal quadro consistindo de amostras B, por exemplo, B = 1200 para uma taxa de amostragem de = 48kHz, e a parcela correspondente da taxa de dados pode ser desprezada para a computação da taxa de dados total do sinal de AOS comprimido.
[090]Portanto, a transmissão da representação comprimida requer uma taxa de dados de aproximadamente .D + °RED) • Á.COD . Consequentemente, a taxa de compressão rcoMPR é
Figure img0102
[091]Por exemplo, a compressão de uma representação de AOS de ordem N = 4 empregando uma taxa de amostragem = 48kHz e Nb = 16 bits por amostra para uma representação com D = 3 direções dominantes utilizando uma ordem de AOS reduzida NRED = 2 e uma taxa de bit de 64 kbits/s resultará em uma taxa de compressão de rcoMPR -25. A transmissão da representação comprimida requer uma taxa dede aproximadamente 768 kbits/s
[092]Probabilidade reduzida para a ocorrência do desmascaramento do ruído da codificação
[093]Conforme explicação na seção de Antecedentes, a compressão perceptiva dos sinais do domínio espacial descrita no pedido de patente EP 103064721 sofre com as correlações cruzadas remanescentes entre os sinais, o que pode levar ao desmascaramento do ruído da codificação perceptiva De acordo com a invenção, os sinais direcionais dominantes são primeiramente extraídos da representação do campo sonoro de AOS antes de serem codificados perceptivamente. Isso significa que, quando se compõe a representação de AOS, após a decodificação perceptiva, o ruído da codificação possui exatamente a mesma diretividade espacial dos sinais direcionais Em particular, as contribuições do ruído da codificação, bem como do sinal direcional para qualquer direção arbitrária, são descritas deterministicamente descrito pela função da dispersão espacial explicada na seção Resolução espacial com ordem finita. Em outras palavras, em qualquer momento instantâneo, o vetor dos coeficientes AOS que representam o ruído da codificação é exatamente um múltiplo do vetor dos coeficientes AOS que representam o sinal direcional. Sendo assim, uma soma ponderada arbitrariamente dos coeficientes AOS com ruído não resultará no desmascaramento do ruído de codificação perceptiva.
[094]Ademais, o componente ambiental de ordem reduzida é processado exatamente como sugere o documento EP 10306472.1, contudo, como, por definição, os sinais do domínio espacial do componente ambiental exibem uma correlação especialmente baixa entre si, a probabilidade para o desmascaramento do ruído da codificação perceptiva é baixa. Estimativa de direção aprimorada
[095]A estimativa de direção da invenção depende da distribuição da energia direcional do componente AOS energeticamente dominante. A distribuição da energia direcional é computada a partir matriz de correlação de classe reduzida da representação de AOS, que é obtida pela decomposição de valor próprio da matriz de correlação da representação de AOS.
[096]Comparada à estimativa de direção utilizada no artigo já mencionado "Plane-wave decomposition...", oferece a vantagem de ser mais precisa, pois se concentra no componente AOS energeticamente dominante invés de utilizar a representação de AOS completa, já que a estimativa de direção reduz o borramento espacial da distribuição de energia direcional.
[097]Comparada à estimativa de direção sugerida nos artigos já mencionados "The Application of Compressive Sampling to the Analysis and Synthesis of Spatial Sound Fields" e "Time Domain Reconstruction of Spatial Sound Fields using Compressed Sensing", oferece a vantagem de ser mais robusta. A razão é que a decomposição da representação de AOS no componente direcional e ambiental praticamente não consegue ser alcançada com perfeição, de modo que ainda resta uma pequena quantidade do componente ambiental no componente direcional. Então, os métodos de amostragem compressiva como os desses dois artigos são falhos em fornecer estimativas de direção razoável em decorrência de sua elevada sensibilidade à presença dos sinais ambientais.
[098]Como vantagem, a estimativa de direção da invenção não demonstra esse problema.
Aplicações alternativas da decomposição da representação de AOS
[099]A decomposição descrita da representação de AOS em diversos sinais direcionais com informações direcionais correlatas e um componente ambiental no domínio AOS pode ser utilizada para uma renderização similar à DirAc adaptativa ao sinal da representação de AOS de acordo com a sugerida no já mencionado artigo de Pulkki "Spatial Sound Reproduction with Directional Audio Coding".
[0100]Cada componente AOS pode ser renderizado distintamente porque as características físicas dos dois componentes são diferentes. Por exemplo, os sinais direcionais podem ser renderizados para os alto-falantes utilizando técnicas de posicionamento de sinal como o Posicionamento da Amplitude Baseada em Vetor (Vetor Based Amplitude Panning - VBAP), cf. V. Pulkki, "Virtual Sound Source Positioning using Vector Base Amplitude Panning", Journal of Audio Eng. Society, vol. 45, n° 6, pp.456-466, 1997. O componente AOS ambiental pode ser renderizado utilizando as técnicas de renderização de AOS convencionais conhecidas.
[0101]Essa renderização não se restringe à representação Ambissônico da ordem ' 1 ' e, assim, pode ser observada como uma extensão da renderização similar à DirAC para as representações de AOS da ordem N > 1.
[0102]A estimativa das diversas direções a partir de uma representação de sinal AOS pode ser utilizada para qualquer tipo relacionado da análise do campo sonoro.
[0103]As seções a seguir descrevem em mais profundidade as etapas de processamento do sinal.
Compressão Definição do formato de entrada
[0104]Como entrada, os coeficientes de AOS do domínio do tempo
Figure img0103
escalonado definidos na equação (26) são assumidos como sendoa mostrados em uma taxa
Figure img0104
[0105]Define-se um vetor c(j) para ser formado de todos os coeficientes pertencentes ao tempo de amostragem
Figure img0105
de acordo com
Figure img0106
Quadros
[0106]Os vetores de entrada c(j) dos coeficientes de AOS escalonados são organizados em quadros na etapa ou estágio de quadros 21 em quadros não sobrepostos de comprimento B de acordo com
Figure img0107
[0107]Assumindo uma taxa de amostragem de 75 = 48kHz, um comprimento de quadro adequado é de B = 1200 amostras, correspondendo a uma duração de um quadro de 25ms.
Estimativa das direções dominantes
[0108]Para a estimativa das direções dominantes a seguinte matriz de correlação é computada.
Figure img0108
[0109]O somatório em relação ao quadro atual l e L-1 quadros anteriores indica que a análise direcional é baseada em grupos de quadros sobrepostos longos com L.B amostras, isto é, para cada quadro atual o conteúdo de quadros adjacentes é levado em consideração. Isso contribui para a estabilidade da análise direcional por duas razões: quadros mais longos estão resultando em um número maior de observações, e as estimativas da direção são suavizada devido aos quadros em sobreposição.
[0110]Assumindo fs = 48kHz e B = 1200, um valor razoável para L é 4, correspondendo a uma duração geral de um quadro de 100ms.
[0111]Em seguida, uma decomposição de valor próprio da matriz de correlação B (l) é determinada de acordo com
Figure img0109
em que a matriz v(i) é formadas de vetores próprios Vi(l), 1< i < 0, como
Figure img0110
e a matriz é uma matriz diagonal com os valores próprios correspondentes
Figure img0111
em sua diagonal:
Figure img0112
[0112]Assume-se que os valores próprios são indexados em ordem não ascendente, isto é,
Figure img0113
Depois disso, o conjunto do índice
Figure img0114
de valores próprios dominantes é computado. Uma possibilidade para administrar isso é definir uma razão de energia direcional-ambiental da largura de banda mínima desejada DARMIN e então determinar JÍZ) de modo que
Figure img0115
para
Figure img0116
[0113]Uma escolha razoável para DARMIN é 15dB. O número de valores próprios dominantes é ainda mais restringido para não ser maior que D a fim de se concentrar em no máximo D direções dominantes. Isso é obtido com a substituição do conjunto do índice
Figure img0117
[0114]Em seguida, a aproximação de ^(0 classe de B(l) é obtida por
Figure img0118
Figure img0119
[0115]Esta matriz deve conter as contribuições dos componente direcionais dominantes para B(l). Depois disso, computa-se o vetor
Figure img0120
onde E denota uma matriz de modo em relação a um número elevado de direções de teste quase igualmente distribuídas
Figure img0121
onde e
Figure img0122
denota o ângulo de inclinação
Figure img0123
medido desde o eixo polar z e
Figure img0124
denota o ângulo do azimute medido no plano x=y desde o eixo x.
[0116]A matriz de modo E é definida por
Figure img0125
Com
Figure img0126
para
Figure img0127
[0117]Os
Figure img0128
elementos de o2(0são aproximações das energias de ondas planas, correspondendo aos sinais direcionais dominantes, partindo das direções em colisão. A explicação teórica para isso é fornecida na seção abaixo intitulada Explicação do algoritmo de busca da direção.
[0118]A partir de tf2(0, um número ^(Ode direções dominantes CURRDOM.d (0 r
[0119] 1 d W), para a determinação dos componentes do sinal direcional é computado. O número de direções dominantes está assim limitado a satisfazer ^(0 a fim de garantir uma taxa de dados constante. No entanto, se permitida uma taxa de dados variável, o número de direções dominantes pode ser adaptado para a cena sonora corrente.
[0120]Uma possibilidade de computar as direções dominantes é estabelecer a primeira direção dominante com a energia máxima, isto é
Figure img0129
e Assumindo que o máximo da energia é criado por um sinal direcional dominante, e considerando o fato de que o uso de uma representação de AOS de ordem finita N resulta em uma dispersão espacial dos sinais direcionais (cf. o já mencionado artigo "Plane-wave decomposition..."), é possível concluir que nas proximidades direcionais de
Figure img0130
deve haver componentes de energia pertencentes ao mesmo sinal direcional. Como a dispersão do sinal espacial pode ser expressa pela função
Figure img0131
(vide a equação (38)), onde
Figure img0132
denota o ângulo entre
Figure img0133
a energia pertencente ao sinal direcional declina de acordo com
Figure img0134
. Portanto, é razoável excluir todas as direções nas proximidades direcionais de com ®p-1 - ®MIN para a busca de outras direções dominantes. A distância ΘMIN pode ser escolhida como o primeiro zero de
Figure img0135
que é π aproximadamente dado por
Figure img0136
para
Figure img0137
. A segunda direção dominante é então estabelecida para isso com a energia máxima nas direções remanescentes
Figure img0138
com
Figure img0139
As direções dominantes remanescentes são determinadas de maneira análoga.
[0121]O número
Figure img0140
de direções dominantes pode ser determinado considerando as energias
Figure img0141
atribuídas às direções dominantes
Figure img0142
e usando o caso em que a razão
Figure img0143
excede o valor de uma razão direcional-ambiental desejada DARMIN. Isso significa que
Figure img0144
satisfaz
Figure img0145
[0122]O processamento geral para a computação de todas as direções dominantes pode ser realizada da seguinte maneira: Algoritmo 1 Busca de direções dominantes dada a distribuição de energia na esfera PowerFlag = verdadeiro
Figure img0146
[0123]Em seguia, as direções
Figure img0147
obtidas no quadro atual são suavizadas com as direções dos quadros anteriores, resultando nas direções suavizadas
Figure img0148
Esta operação pode ser subdividida em duas partes sucessivas: (a) As direções dominantes correntes
Figure img0149
, são atribuídas às direções suavizadas
Figure img0150
do quadro anterior. A função de atribuição
Figure img0151
é determinada de modo que a soma dos ângulos entre direções atribuídas
Figure img0152
é minimizada. Esse problema de atribuição pode ser solucionado utilizando o algoritmo húngaro bastante conhecido, cf. H.W. Kuhn, "The Hungarian method for the attribution problem", Naval research logistics quarterly 2, n° 1-2, pp.83-97, 1955.
[0124]Os ângulos entre as direções correntes
Figure img0153
e as direções inativas (vide abaixo para explicação do termo “direção inativa”) do quadro anterior
Figure img0154
são estabelecidas para 2ΘMIN. Esta operação tem como efeito o fato de que as direções correntes
Figure img0155
que estão mais próximas do que 2®MIN das direções previamente ativas
Figure img0156
estão tentando ser atribuídas a elas. Se a distância exceder 2ΘMIN, a direção corrente correspondente é assumida como pertencendo a um novo sinal, o que significa que estar favorecido para a atribuição de uma direção previamente inativa
Figure img0157
[0125]Nota: quando se permite uma maior latência do algoritmo de compressão total, a atribuição das estimativas de direção sucessivas pode ser executada de forma mais robusta. Por exemplo, mudanças abruptas de direção podem ser mais identificadas sem misturá-las com os valores atípicos resultantes dos erros de estimativa. (b) As direções suavizadas
Figure img0158
são computadas utilizando a atribuição da etapa (a). A suavização se baseia na geometria esférica e não na geometria euclidiana. Para cada uma das direções dominantes correntes
Figure img0159
a suavização é realizada ao longo do arco menor do maior círculo que cruza os dois pontos sobre a esfera, os quais são especificados pelas direções
Figure img0160
Figure img0161
Explicitamente, os ângulos do azimute e da inclinação são suavizados independentemente computando a média ponderada exponencialmente com um fator de suavização αβ. Para o ângulo de inclinação isso resulta na seguinte operação de suavização:
Figure img0162
[0126]Para o ângulo do azimute, a suavização deve ser modificada para que se obtenha a suavização correta na transição de π - ε para -π, ε > 0, e na transição na direção oposta. Isso pode ser levado em consideração computando primeiramente o módulo do ângulo da diferença 2π como
Figure img0163
é convertido para o intervalo [-π,π[ por
Figure img0164
[0127]O módulo do ângulo do azimute dominante suavizado 2π é determinado como
Figure img0165
e é finalmente convertido para recair no intervalo [-π,π[ por
Figure img0166
[0128]No caso
Figure img0167
existem direções
Figure img0168
do quadro anterior que não obtém uma direção dominante corrente atribuída. O conjunto do índice correspondente é denotado por
Figure img0169
[0129]As respectivas direções são copiadas do último quadro, isto é,
Figure img0170
[0130]As direções que não forem atribuídas a um número previamente definido de quadros são denominadas inativas.
[0131]Depois disso, o conjunto do índice das direções ativas denotado por
Figure img0171
é computado. Sua cardinalidade é denotada por
Figure img0172
[0132]Em seguida, todas as direções suavizadas são concatenadas em uma única matriz de direção como
Figure img0173
Computação de sinais direcionais
[0133]A computação dos sinais direcionais se baseia na correspondência de modo. Em particular, realiza-se uma busca para aqueles sinais direcionais cuja representação de AOS resulta na melhor aproximação de dado sinal de AOS. Como as mudanças de direções entre quadros sucessivos podem levar a uma descontinuidade dos sinais direcionais, as estimativas dos sinais direcionais para quadros em sobreposição podem ser computadas, seguida pela suavização dos resultados de quadros sucessivamente sobrepostos utilizando uma função de janela apropriada. A suavização, no entanto, introduz a latência de um único quadro.
[0134]A estimativa detalhada dos sinais direcionais é explicada a seguir:
[0135]Em primeiro lugar, a matriz de modo baseada nas direções suavizadas ativas é computada de acordo com
Figure img0174
em que
Figure img0175
denota os índices das direções ativas.
[0136]Em seguida, é computada uma matriz *iNST®que contém as estimativas não suavizadas de todos os sinais direcionais para o (l -1)-ésimo e (l)-ésimo quadro:
Figure img0176
[0137]Isso é realizado em duas etapas. Na primeira etapa, as amostras do sinal direcional nas fileiras correspondentes às direções inativas são definidas em zero, isto é,
Figure img0177
[0138]Na segunda etapa, as amostras do sinal direcional correspondentes às direções ativas são obtidas primeiramente organizando- as em uma matriz de acordo com
Figure img0178
[0139]Esta matriz é então computada de modo a minimizar a norma euclidiana do erro
Figure img0179
A solução é dada por
Figure img0180
[0140]As estimativas dos sinais direcionais
Figure img0181
são colocadas em janela por uma função de janela apropriada w(j):
Figure img0182
[0141]Um exemplo para a função de janela é dado pela janela de Hamming periódica definida por
Figure img0183
onde KW denota um fator de escalonamento que é determinado de modo que a soma das janelas deslocadas equivale a '1'. Os sinais direcionais suavizados para o (l-1)-ésimo quadro são computados pela sobreposição apropriada de estimativas não suavizadas em janela de acordo com
Figure img0184
[0142]As amostras de todos os sinais direcionais suavizados para o (l-1)-ésimo quadro são arranjadas na matriz X(l-1) como
Figure img0185
Computação do componente AOS ambiental
[0143]O componente AOS ambiental CA(l-1) é obtido subtraindo-se o componente AOS direcional total CDIR(l-1) da representação de AOS total C(l-1) de acordo com
Figure img0186
onde
Figure img0187
é determinado por
Figure img0188
e onde “DOM© denota a matriz de modo baseada em todas as direções suavizadas definidas por
Figure img0189
[0144]Como a computação do componente AOS direcional total também está baseada em uma suavização espacial dos componentes AOS direcionais totais instantâneos sucessivos em sobreposição, o componente AOS ambiental também é obtido com uma latência de um único quadro. Redução da ordem para o componente AOS ambiental
[0145]Ao expressar CA(l-1) através de seus componentes como
Figure img0190
a redução da ordem é realizada causando a queda de todos os coeficientes AOS com n > NRED: 108
Figure img0191
[0146]Transformada Harmônica Esférica para o componente AOS ambiental
[0147]A Transformada Harmônica Esférica é realizada pela multiplicação do componente AOS ambiental de ordem reduzida CA,RED(0 com a inversa da matriz de modo
Figure img0192
baseada em ORED que são as direções uniformemente distribuídas
Figure img0193
Descompressão Transformada Inversa de Harmônica Esférica
[0148]Os sinais do domínio espacial perceptivamente descomprimidos WA,RED (0 são transformados para uma representação do domínio AOS ^A,RED(0 da ordem NRED por meio de um Transformada Inversa de Harmônicas Esféricas por
Figure img0194
Extensão de ordem
[0149]A ordem de Ambissônico da representação de
Figure img0195
é estendida para N através da anexação de zeros de acordo com
Figure img0196
onde θmxn denota uma matriz zero com m fileiras e n colunas
Composição dos coeficientes AOS
[0150]Os coeficientes de AOS descomprimidos finais são adicionalmente formados pelo componente AOS direcional e ambiental de acordo com
Figure img0197
[0151]Neste estágio, novamente uma latência de um único quadro é introduzida para permitir que o componente AOS direcional seja computado com base na suavização espacial. Fazendo isso, potenciais descontinuidades indesejadas no componente direcional do campo sonoro resultante das mudanças das direções entre quadros sucessivos são evitadas.
[0152]Para computar o componente AOS direcional suavizado, dois quadros sucessivos contendo as estimativas de todos os sinais direcionais individuais são concatenados em um único quadro longo como
Figure img0198
[0153]Cada excerto do sinal individual contido neste quadro longo é multiplicado por uma função de janela, por exemplo, como o da equação quadro longo XINST(0 através de seus componentes por
Figure img0199
a operação de colocação em janela pode ser formulada como a computação dos excertos do sinal em janela
Figure img0200
Figure img0201
[0154]Finalmente, o componente AOS direcional total CDIR(l-1) é obtido codificando todos os excertos do sinal direcional em janela nas direções apropriadas e posicionando-os em sobreposição:
Figure img0202
Explicação do algoritmo de busca de direção
[0155]A seguir, o motivo é explicado após o processamento de busca de direção descrito na seção intitulada Estimativa de direções dominantes. A explicação está fundada em algumas assunções que inicialmente são definidas.
Assunções
[0156]Assume-se que vetor dos coeficientes de AOS c(j), que em geral está relacionado à função da densidade de amplitude do domínio do tempo d(ja Φ através de
Figure img0203
[0157]Este modelo declara que o vetor dos coeficientes de AOS c(j), por um lado, é criado pelos / sinais da fonte direcional dominante
Figure img0204
partindo das direções ^-(0 no l-ésimo quadro. Em partcular, assume-se que as direções são fixas pela duração de um único quadro. Assume-se que o número de sinais da fonte dominante / é distintamente menor que o número total de coeficientes AOS 0. Ademais, assume-se que o comprimento do quadro B é distintamente maior que 0. Por outro lado, o vetor c(j) consiste em um componente residual que pode ser considerado como representando o campo sonoro ambiental idealmente isotrópico.
[0158]Assume-se que os componentes do vetor do coeficiente AOS individuais possuam as seguintes propriedades: • Os sinais da fonte dominante presumidamente possuem média zero, isto é,
Figure img0205
e presumidamente não possuem correlação entre si, isto é,
Figure img0206
com
Figure img0207
denotando a energia média do i-ésimo sinal para o l- ésimo quadro. • Os sinais da fonte dominante presumidamente não possuem correlação com o componente ambiental do vetor do coeficiente AOS, isto é,
Figure img0208
• O vetor do componente AOS ambiental presumidamente é uma média zero e presumidamente possui a matriz de covariância
Figure img0209
●A razão da energia direcional/ambiente DAR(l) de cada quadro Z, que é aqui definida por
Figure img0210
é maior que um valor desejado previamente definido DARMIN, isto é,
Figure img0211
Explicação da busca de direção
[0159]Para a explicação, considera-se o caso em que a matriz de correlação B(Z) (vide a equação (67)) é computada em função somente das amostras do l-ésimo quadro sem considerar as amostras dos L-1 quadros corresponde à configuração L = l. de correlação pode ser expressa por
Figure img0212
[0160]Substituindo a assunção do modelo na equação (120) para a equação (128) e utilizando as equações (122) e (123) e a definição na equação (124), a matriz de correlação B(l) pode ser aproximada como
Figure img0213
[0161]A partir da equação (131) pode-se observar que B(l) consiste aproximadamente de dois componentes aditivos atribuíveis ao componente AOS direcional e ambiental. Sua aproximação da classe XO fornece uma aproximação do componente AOS direcional, isto é,
Figure img0214
que acompanha a equação (12) na razão de energia direcional-ambiental.
[0162]No entanto, cabe destacar que alguma parte de ∑A(0 inevitavelmente vazará para BX0, já que ∑A(0 de maneira geral possui classe integral e, portanto, os subespaços abrangidos pelas colunas das matrizes
Figure img0215
não são ortogonais entre si. Com a equação (132), o vetor CT2(0 na equação (77), que é utilizada para a busca das direções dominantes, pode ser expressa por
Figure img0216
Figure img0217
[0163]Na equação (135) a seguinte propriedade da Harmônica Esférica mostrada na equação (47) foi utilizada:
Figure img0218
[0164]A equação (136) mostra que os ^^componentes de
Figure img0219
são aproximações das energias dos sinais originários das direções de teste
Figure img0220

Claims (11)

1. Método para comprimir uma representação de sinal Ambissônico de Ordem Superior AOS
Figure img0221
o dito método CARACTERIZADO pelo fato de que inclui: - estimar (22) direções dominantes; - decompor (23, 24) a representação de sinal AOS em um número de sinais direcionais dominantes
Figure img0222
no domínio do tempo e informações direcionais correlatas
Figure img0223
e um componente ambiental residual no domínio AOS
Figure img0224
em que o dito componente ambiental residual representa a diferença entre a dita representação de sinal AOS
Figure img0225
e uma representação
Figure img0226
dos ditos sinais direcionais dominantes
Figure img0227
- comprimir (25) o dito componente ambiental residual reduzindo sua ordem quando comparado à sua ordem original; - transformar (26) o dito componente AOS ambiental residual
Figure img0228
de ordem reduzida para o domínio espacial; - codificar perceptivamente (27) os ditos sinais direcionais dominantes e o dito componente AOS ambiental residual transformado.
2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que vetores de entrada
Figure img0229
de coeficientes de AOS são enquadrados (21) em quadros não sobrepostos
Figure img0230
e em que uma duração de quadro é de 2•??.?.
3. Método, de acordo com a reivindicação 1 ou 2, CARACTERIZADO pelo fato de que a dita estimativa de direções dominantes (22) é baseada em longos grupos de quadros sobrepostos, de modo que, para cada quadro atual, o conteúdo de quadros adjacentes é levado em consideração.
4. Método, de acordo com qualquer uma das reivindicações 1 a 3, CARACTERIZADO pelo fato de que, para a dita estimativa de direção dominante, uma distribuição da energia direcional dos componentes AOS energeticamente dominantes é utilizada.
5. Método para descomprimir uma representação de sinal Ambissônico de Ordem Superior AOS
Figure img0231
que foi comprimido pelo método conforme definido na reivindicação 1, o dito método CARACTERIZADO pelo fato de que inclui as etapas de: - decodificar perceptivamente (31) os ditos sinais direcionais dominantes codificados perceptivamente
Figure img0232
e o dito componente AOS ambiental residual transformado codificado perceptivamente
Figure img0233
- transformar inversamente (32) o dito componente AOS ambiental residual transformado decodificado perceptivamente
Figure img0234
de modo a obter uma representação de domínio AOS
Figure img0235
- executar (33) uma extensão de ordem do dito componente AOS ambiental residual transformado inversamente de modo a estabelecer um componente AOS ambiental de ordem original
Figure img0236
- compor (34) os ditos sinais direcionais dominantes decodificados perceptivamente
Figure img0237
as ditas informações direcionais
Figure img0238
e o dito componente AOS ambiental estendido de ordem original
Figure img0239
de modo a obter uma representação de sinal AOS
Figure img0240
6. Aparelho para comprimir uma representação de sinal Ambissônico de Ordem Superior AOS
Figure img0241
o dito aparelho CARACTERIZADO pelo fato de que inclui: - meio (22) adaptado para estimar direções dominantes; - meio (23, 24) adaptado para decompor a representação de sinal AOS em um número de sinais direcionais dominantes
Figure img0242
no domínio do tempo e informações direcionais correlatas
Figure img0243
e um componente ambiental residual no domínio AOS
Figure img0244
, em que o dito componente ambiental residual representa a diferença entre a dita representação de sinal AOS
Figure img0245
e uma representação
Figure img0246
dos ditos sinais direcionais dominantes
Figure img0247
- meio (25) adaptado para comprimir o dito componente ambiental residual reduzindo sua ordem quando comparado à sua ordem original; - meio (26) adaptado para transformar o dito componente AOS ambiental residual
Figure img0248
de ordem reduzida para o domínio espacial; - meio (27) adaptado para codificar perceptivamente os ditos sinais direcionais dominantes e o dito componente AOS ambiental residual transformado.
7. Aparelho, de acordo com a reivindicação 6, CARACTERIZADO pelo fato de que vetores de entrada (CJ;) de coeficientes de AOS são enquadrados (21) em quadros não sobrepostos (C;/:), e em que uma duração de quadro é de 23??;.s.
8. Aparelho, de acordo com a reivindicação 6 ou 7, CARACTERIZADO pelo fato de que a dita estimativa de direções dominantes (22) é baseada em longos grupos de quadros sobrepostos, de modo que, para cada quadro atual, o conteúdo de quadros adjacentes é levado em consideração.
9. Aparelho, de acordo com qualquer uma das reivindicações 6 a 8, CARACTERIZADO pelo fato de que, para a dita estimativa de direção dominante, uma distribuição de energia direcional dos componentes AOS energeticamente dominantes é utilizada.
10. Aparelho para descomprimir uma representação de sinal Ambissônico de Ordem Superior AOS
Figure img0249
que foi comprimido pelo método conforme definido na reivindicação 1, o dito aparelho CARACTERIZADO pelo fato de que inclui: - meio (31) adaptado para decodificar perceptivamente os ditos sinais direcionais dominantes codificados perceptivamente
Figure img0250
e o dito componente AOS ambiental residual transformado codificado perceptivamente
Figure img0251
- meio (32) adaptado para transformar inversamente o dito componente AOS ambiental residual transformado decodificado perceptivamente
Figure img0252
de modo a obter uma representação de domínio AOS
Figure img0253
- meio (33) adaptado para executar uma extensão de ordem do dito componente AOS ambiental residual transformado inversamente de modo a estabelecer um componente AOS ambiental de ordem original
Figure img0254
- meio (34) adaptado para compor os ditos sinais direcionais dominantes decodificados perceptivamente
Figure img0255
as ditas informações direcionais
Figure img0256
e o dito componente AOS ambiental estendido de ordem original
Figure img0257
de modo a obter uma representação de sinal AOS
Figure img0258
11. Representação de sinal AOS CARACTERIZADA por ser comprimida em conformidade com o método conforme definido em qualquer uma das reivindicações 1 a 4.
BR112014028439-3A 2012-05-14 2013-05-06 Método e aparelho para comprimir um sinalambissônico de ordem superior (aos), método e aparelhopara descomprimir um sinal ambissônico de ordemsuperior (aos) comprimido, e representação de sinal aos BR112014028439B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12305537.8 2012-05-14
EP12305537.8A EP2665208A1 (en) 2012-05-14 2012-05-14 Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
PCT/EP2013/059363 WO2013171083A1 (en) 2012-05-14 2013-05-06 Method and apparatus for compressing and decompressing a higher order ambisonics signal representation

Publications (3)

Publication Number Publication Date
BR112014028439A2 BR112014028439A2 (pt) 2017-06-27
BR112014028439A8 BR112014028439A8 (pt) 2017-12-05
BR112014028439B1 true BR112014028439B1 (pt) 2023-02-14

Family

ID=48430722

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112014028439-3A BR112014028439B1 (pt) 2012-05-14 2013-05-06 Método e aparelho para comprimir um sinalambissônico de ordem superior (aos), método e aparelhopara descomprimir um sinal ambissônico de ordemsuperior (aos) comprimido, e representação de sinal aos

Country Status (10)

Country Link
US (6) US9454971B2 (pt)
EP (5) EP2665208A1 (pt)
JP (6) JP6211069B2 (pt)
KR (6) KR102231498B1 (pt)
CN (10) CN104285390B (pt)
AU (6) AU2013261933B2 (pt)
BR (1) BR112014028439B1 (pt)
HK (1) HK1208569A1 (pt)
TW (6) TWI600005B (pt)
WO (1) WO2013171083A1 (pt)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2738962A1 (en) 2012-11-29 2014-06-04 Thomson Licensing Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2765791A1 (en) 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US9980074B2 (en) * 2013-05-29 2018-05-22 Qualcomm Incorporated Quantization step sizes for compression of spatial components of a sound field
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US20150127354A1 (en) * 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
EP2879408A1 (en) * 2013-11-28 2015-06-03 Thomson Licensing Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition
CN111179955B (zh) 2014-01-08 2024-04-09 杜比国际公司 包括编码hoa表示的位流的解码方法和装置、以及介质
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) * 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
EP2922057A1 (en) * 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
KR102428794B1 (ko) * 2014-03-21 2022-08-04 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
CN106104681B (zh) 2014-03-21 2020-02-11 杜比国际公司 对压缩的高阶高保真立体声(hoa)表示进行解码的方法及装置
US10412522B2 (en) * 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
CN109036441B (zh) * 2014-03-24 2023-06-06 杜比国际公司 对高阶高保真立体声信号应用动态范围压缩的方法和设备
WO2015145782A1 (en) 2014-03-26 2015-10-01 Panasonic Corporation Apparatus and method for surround audio signal processing
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US10134403B2 (en) * 2014-05-16 2018-11-20 Qualcomm Incorporated Crossfading between higher order ambisonic signals
US9620137B2 (en) * 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
EP3860154B1 (en) 2014-06-27 2024-02-21 Dolby International AB Method for decoding a compressed hoa dataframe representation of a sound field.
CN113793618A (zh) * 2014-06-27 2021-12-14 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法
EP2960903A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
KR20230162157A (ko) * 2014-06-27 2023-11-28 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 데이터 프레임들 중 특정 데이터 프레임들의 채널 신호들과 연관된 비차분 이득 값들을 포함하는 코딩된 hoa 데이터 프레임 표현
KR102460820B1 (ko) 2014-07-02 2022-10-31 돌비 인터네셔널 에이비 Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치
EP2963948A1 (en) * 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
CN106463132B (zh) * 2014-07-02 2021-02-02 杜比国际公司 对压缩的hoa表示编码和解码的方法和装置
EP2963949A1 (en) * 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
KR102363275B1 (ko) 2014-07-02 2022-02-16 돌비 인터네셔널 에이비 Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치
CN106576204B (zh) 2014-07-03 2019-08-20 杜比实验室特许公司 声场的辅助增大
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
EP3007167A1 (en) * 2014-10-10 2016-04-13 Thomson Licensing Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field
EP3073488A1 (en) * 2015-03-24 2016-09-28 Thomson Licensing Method and apparatus for embedding and regaining watermarks in an ambisonics representation of a sound field
US12087311B2 (en) 2015-07-30 2024-09-10 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding an HOA representation
EP3329486B1 (en) 2015-07-30 2020-07-29 Dolby International AB Method and apparatus for generating from an hoa signal representation a mezzanine hoa signal representation
US10257632B2 (en) 2015-08-31 2019-04-09 Dolby Laboratories Licensing Corporation Method for frame-wise combined decoding and rendering of a compressed HOA signal and apparatus for frame-wise combined decoding and rendering of a compressed HOA signal
JP6797197B2 (ja) 2015-10-08 2020-12-09 ドルビー・インターナショナル・アーベー 圧縮された音または音場表現のための層構成の符号化
US9959880B2 (en) * 2015-10-14 2018-05-01 Qualcomm Incorporated Coding higher-order ambisonic coefficients during multiple transitions
WO2017087650A1 (en) 2015-11-17 2017-05-26 Dolby Laboratories Licensing Corporation Headtracking for parametric binaural output system and method
US20180338212A1 (en) * 2017-05-18 2018-11-22 Qualcomm Incorporated Layered intermediate compression for higher order ambisonic audio data
US10595146B2 (en) 2017-12-21 2020-03-17 Verizon Patent And Licensing Inc. Methods and systems for extracting location-diffused ambient sound from a real-world scene
US10657974B2 (en) * 2017-12-21 2020-05-19 Qualcomm Incorporated Priority information for higher order ambisonic audio data
JP6652990B2 (ja) * 2018-07-20 2020-02-26 パナソニック株式会社 サラウンドオーディオ信号処理のための装置及び方法
CN110211038A (zh) * 2019-04-29 2019-09-06 南京航空航天大学 基于dirac残差深度神经网络的超分辨率重建方法
CN113449255B (zh) * 2021-06-15 2022-11-11 电子科技大学 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质
CN115881140A (zh) * 2021-09-29 2023-03-31 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序产品
CN115096428B (zh) * 2022-06-21 2023-01-24 天津大学 一种声场重建方法、装置、计算机设备和存储介质

Family Cites Families (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100206333B1 (ko) * 1996-10-08 1999-07-01 윤종용 두개의 스피커를 이용한 멀티채널 오디오 재생장치및 방법
EP1002388B1 (en) * 1997-05-19 2006-08-09 Verance Corporation Apparatus and method for embedding and extracting information in analog signals using distributed signal features
FR2779951B1 (fr) 1998-06-19 2004-05-21 Oreal Composition tinctoriale contenant une pyrazolo-[1,5-a]- pyrimidine a titre de base d'oxydation et un coupleur naphtalenique, et procedes de teinture
US7231054B1 (en) * 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
US6763623B2 (en) * 2002-08-07 2004-07-20 Grafoplast S.P.A. Printed rigid multiple tags, printable with a thermal transfer printer for marking of electrotechnical and electronic elements
KR20050075510A (ko) * 2004-01-15 2005-07-21 삼성전자주식회사 통신 단말기를 위한 3차원 입체음향의 재생/저장 장치 및방법
CN1930915B (zh) * 2004-03-11 2012-08-29 Pss比利时股份有限公司 用于处理声音信号的方法和系统
CN1677490A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
US8712061B2 (en) * 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US8374365B2 (en) * 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
DE102006047197B3 (de) * 2006-07-31 2008-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten
US7558685B2 (en) * 2006-11-29 2009-07-07 Samplify Systems, Inc. Frequency resolution using compression
KR100913092B1 (ko) * 2006-12-01 2009-08-21 엘지전자 주식회사 믹스신호의 인터페이스 표시 방법 및 장치
CN101206860A (zh) * 2006-12-20 2008-06-25 华为技术有限公司 一种可分层音频编解码方法及装置
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
US20090043577A1 (en) * 2007-08-10 2009-02-12 Ditech Networks, Inc. Signal presence detection using bi-directional communication data
EP2571024B1 (en) * 2007-08-27 2014-10-22 Telefonaktiebolaget L M Ericsson AB (Publ) Adaptive transition frequency between noise fill and bandwidth extension
WO2009046223A2 (en) * 2007-10-03 2009-04-09 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
WO2009046460A2 (en) * 2007-10-04 2009-04-09 Creative Technology Ltd Phase-amplitude 3-d stereo encoder and decoder
WO2009067741A1 (en) * 2007-11-27 2009-06-04 Acouity Pty Ltd Bandwidth compression of parametric soundfield representations for transmission and storage
BRPI0821091B1 (pt) * 2007-12-21 2020-11-10 France Telecom processo e dispositivo de codificação/decodificação por transformada com janelas adaptativas, e memória legível por computador
CN101202043B (zh) * 2007-12-28 2011-06-15 清华大学 音频信号的编码方法和装置与解码方法和装置
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
ES2404563T3 (es) * 2008-02-14 2013-05-28 Dolby Laboratories Licensing Corporation Ampliación estereofónica
US8812309B2 (en) * 2008-03-18 2014-08-19 Qualcomm Incorporated Methods and apparatus for suppressing ambient noise using multiple audio signals
US8611554B2 (en) * 2008-04-22 2013-12-17 Bose Corporation Hearing assistance apparatus
CA2730355C (en) * 2008-07-11 2016-03-22 Guillaume Fuchs Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2154677B1 (en) * 2008-08-13 2013-07-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a converted spatial audio signal
US8817991B2 (en) * 2008-12-15 2014-08-26 Orange Advanced encoding of multi-channel digital audio signals
US8964994B2 (en) * 2008-12-15 2015-02-24 Orange Encoding of multichannel digital audio signals
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
CN101770777B (zh) * 2008-12-31 2012-04-25 华为技术有限公司 一种线性预测编码频带扩展方法、装置和编解码系统
GB2467534B (en) * 2009-02-04 2014-12-24 Richard Furse Sound system
RU2586851C2 (ru) * 2010-02-24 2016-06-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство для формирования улучшенного сигнала микширования с понижением, способ формирования улучшенного сигнала микширования с понижением и компьютерная программа
WO2011104463A1 (fr) * 2010-02-26 2011-09-01 France Telecom Compression de flux audio multicanal
KR101795015B1 (ko) * 2010-03-26 2017-11-07 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치
US20120029912A1 (en) * 2010-07-27 2012-02-02 Voice Muffler Corporation Hands-free Active Noise Canceling Device
NZ587483A (en) * 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
EP2451196A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
FR2969804A1 (fr) * 2010-12-23 2012-06-29 France Telecom Filtrage perfectionne dans le domaine transforme.
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
EP2733963A1 (en) * 2012-11-14 2014-05-21 Thomson Licensing Method and apparatus for facilitating listening to a sound signal for matrixed sound signals
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2946468B1 (en) * 2013-01-16 2016-12-21 Thomson Licensing Method for measuring hoa loudness level and device for measuring hoa loudness level
EP2765791A1 (en) * 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
US9685163B2 (en) * 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients
EP2782094A1 (en) * 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
US9980074B2 (en) * 2013-05-29 2018-05-22 Qualcomm Incorporated Quantization step sizes for compression of spatial components of a sound field
EP2824661A1 (en) * 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
KR101480474B1 (ko) * 2013-10-08 2015-01-09 엘지전자 주식회사 오디오 재생장치와 이를 포함하는 시스템
EP3073488A1 (en) * 2015-03-24 2016-09-28 Thomson Licensing Method and apparatus for embedding and regaining watermarks in an ambisonics representation of a sound field
WO2020037280A1 (en) * 2018-08-17 2020-02-20 Dts, Inc. Spatial audio signal decoder
US11429340B2 (en) * 2019-07-03 2022-08-30 Qualcomm Incorporated Audio capture and rendering for extended reality experiences

Also Published As

Publication number Publication date
CN112712810B (zh) 2023-04-18
EP2850753A1 (en) 2015-03-25
EP4012703B1 (en) 2023-04-19
CN104285390A (zh) 2015-01-14
EP4246511A2 (en) 2023-09-20
CN107180637A (zh) 2017-09-19
TWI618049B (zh) 2018-03-11
KR20210034101A (ko) 2021-03-29
EP2850753B1 (en) 2019-08-14
AU2021203791B2 (en) 2022-09-01
CN107017002B (zh) 2021-03-09
KR102651455B1 (ko) 2024-03-27
US11792591B2 (en) 2023-10-17
KR102526449B1 (ko) 2023-04-28
JP2018025808A (ja) 2018-02-15
TW202205259A (zh) 2022-02-01
JP7471344B2 (ja) 2024-04-19
JP6698903B2 (ja) 2020-05-27
KR20150010727A (ko) 2015-01-28
US9454971B2 (en) 2016-09-27
EP3564952A1 (en) 2019-11-06
CN107180637B (zh) 2021-01-12
KR20220112856A (ko) 2022-08-11
TW201346890A (zh) 2013-11-16
KR20240045340A (ko) 2024-04-05
CN116312573A (zh) 2023-06-23
AU2022215160A1 (en) 2022-09-01
US20180220248A1 (en) 2018-08-02
KR20200067954A (ko) 2020-06-12
CN104285390B (zh) 2017-06-09
KR20230058548A (ko) 2023-05-03
TW201812742A (zh) 2018-04-01
US20220103960A1 (en) 2022-03-31
US20150098572A1 (en) 2015-04-09
WO2013171083A1 (en) 2013-11-21
AU2024227096A1 (en) 2024-10-24
AU2022215160B2 (en) 2024-07-18
TW201738879A (zh) 2017-11-01
TWI634546B (zh) 2018-09-01
KR102121939B1 (ko) 2020-06-11
CN112735447A (zh) 2021-04-30
TWI666627B (zh) 2019-07-21
BR112014028439A2 (pt) 2017-06-27
CN112735447B (zh) 2023-03-31
EP2665208A1 (en) 2013-11-20
JP7090119B2 (ja) 2022-06-23
BR112014028439A8 (pt) 2017-12-05
JP2019133175A (ja) 2019-08-08
CN107170458A (zh) 2017-09-15
JP2022120119A (ja) 2022-08-17
CN107180638B (zh) 2021-01-15
AU2021203791A1 (en) 2021-07-08
TWI823073B (zh) 2023-11-21
TW202006704A (zh) 2020-02-01
JP6500065B2 (ja) 2019-04-10
AU2019201490B2 (en) 2021-03-11
HK1208569A1 (en) 2016-03-04
US20160337775A1 (en) 2016-11-17
KR102231498B1 (ko) 2021-03-24
US9980073B2 (en) 2018-05-22
TWI600005B (zh) 2017-09-21
JP2024084842A (ja) 2024-06-25
AU2016262783B2 (en) 2018-12-06
JP2020144384A (ja) 2020-09-10
CN107170458B (zh) 2021-01-12
AU2013261933B2 (en) 2017-02-02
US10390164B2 (en) 2019-08-20
KR102427245B1 (ko) 2022-07-29
TWI725419B (zh) 2021-04-21
CN112712810A (zh) 2021-04-27
CN116229995A (zh) 2023-06-06
CN107017002A (zh) 2017-08-04
US20190327572A1 (en) 2019-10-24
AU2016262783A1 (en) 2016-12-15
EP3564952B1 (en) 2021-12-29
US11234091B2 (en) 2022-01-25
EP4246511A3 (en) 2023-09-27
CN106971738B (zh) 2021-01-15
JP6211069B2 (ja) 2017-10-11
AU2013261933A1 (en) 2014-11-13
EP4012703A1 (en) 2022-06-15
CN107180638A (zh) 2017-09-19
AU2019201490A1 (en) 2019-03-28
JP2015520411A (ja) 2015-07-16
US20240147173A1 (en) 2024-05-02
CN106971738A (zh) 2017-07-21
TW201905898A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
BR112014028439B1 (pt) Método e aparelho para comprimir um sinalambissônico de ordem superior (aos), método e aparelhopara descomprimir um sinal ambissônico de ordemsuperior (aos) comprimido, e representação de sinal aos
RU2623886C2 (ru) Способ и устройство для сжатия и восстановления представления системы амбисоник высшего порядка для звукового поля
JP2015520411A5 (pt)
BR112020018466A2 (pt) representando áudio espacial por meio de um sinal de áudio e de metadados associados
BR122022022357B1 (pt) Método e aparelho para determinar para a compressão de uma representação de quadro de dados hoa
BR122020017110B1 (pt) Método e aparelho para descomprimir um sinal ambissônico de ordem superior (aos) comprimido e meio legível por computador não transitório
BR122020017086B1 (pt) Método e aparelho para descomprimir um sinal ambissônico de ordem superior (aos) comprimido e meio legível por computador não transitório
BR112016029978B1 (pt) Método para determinar para a compressão de uma representação de quadro de dados hoa um número inteiro mais baixo de bits requeridos para representar valores de ganho não diferenciais

Legal Events

Date Code Title Description
B25A Requested transfer of rights approved

Owner name: DOLBY INTERNATIONAL AB (NL)

B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: A CLASSIFICACAO ANTERIOR ERA: H04H 20/89

Ipc: H04S 3/02 (2006.01), G10L 19/008 (2013.01)

B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 06/05/2013, OBSERVADAS AS CONDICOES LEGAIS