BRPI0912453A2 - equipamento para mesclar fluxos de áudio espacial - Google Patents

equipamento para mesclar fluxos de áudio espacial Download PDF

Info

Publication number
BRPI0912453A2
BRPI0912453A2 BRPI0912453-5A BRPI0912453A BRPI0912453A2 BR PI0912453 A2 BRPI0912453 A2 BR PI0912453A2 BR PI0912453 A BRPI0912453 A BR PI0912453A BR PI0912453 A2 BRPI0912453 A2 BR PI0912453A2
Authority
BR
Brazil
Prior art keywords
wave
representation
merged
audio
audio stream
Prior art date
Application number
BRPI0912453-5A
Other languages
English (en)
Inventor
Galdo Giovanni Del
Markus Kallinger
Fabian Kuech
Mikko-Ville Laitinen
Ville Pulkki
Richard Schultz-Amling
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of BRPI0912453A2 publication Critical patent/BRPI0912453A2/pt
Publication of BRPI0912453B1 publication Critical patent/BRPI0912453B1/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

aparelho para integração de fluxos audio espaciais aparelho (100) para integrar um primeiro fluxo audio espacial com o segundo fluxo audio espacial para obter um sinal audio integrado que comprende um estimador (120) para estimar uma primeira representação de onda que comprende uma primeira medida de direcção de onda e uma primeira medida 10 de campo de onda para o primeiro fluxo audio espacial, tendo o primeiro fluxo audio espacial uma primeira representação audio e uma primeira direcção de chegada. o estimador (120) sendo adaptado para estimar uma segunda representação de onda que comprende uma segunda medida de direcção de onda e uma segunda medida de campo de onda para o segundo fluxo audio espacial, teado o segundo fluxo audio espacial uma segunda epresentação audio e uma segunda direcção de chegada. o aparelho (100) comprende também um processar (130) para processar a primeira representação de onda e a segunda representação de onda para 'obter-"t1ma representação de onda integrada que comprende uma medida de campo de onda integrada e uma medida de direcção de chegada integrada, e para processar a primeira representação audio e a segunda representação audio para obter uma representação audio integrada, e para prover o fluxo audio integrado que comprende a representação audio integrada e a medida de direcção de chegada integrada.

Description

EQUIPAMENTO PARA MESCLAR FLUXOS DE ÁUDIO ESPACIAL
DESCRIÇÃO [0001] A presente invenção está no campo de processamento de áudio, em especial processamento de áudio espacial e mesclagem de múltiplos fluxos de áudio espacial.
[0002] A DirAC (DirAC = Codificação de Áudio Direcional), conforme descrito em V. Pulkki and C. Faller, Directional audio coding in spatial sound reproduction and stereo upmixing, In AES 28th International Conference, Pitea, Sweden, June 2006, and V. Pulkki, A method for reproducing natural or modified spatial impression in Multichannel listening, Patent WO 2004/077884 Al, September 2004, é uma abordagem eficiente para a análise e reprodução de som espacial. A DirAC utiliza uma representação paramétrica de campos de som com base nas características que são relevantes para a percepção do som espacial, ou seja, a direção de chegada (DOA = direção de chegada) e difusão do campo de som em sub-bandas de frequência. De fato, a DirAC assume que as diferenças de tempo interaural (ITD = diferenças de tempo interaural) e as diferenças de nível interaural (ILD = diferenças de nível interaural) são percebidas corretamente quando a DOA de um campo de som é corretamente reproduzida, enquanto a coerência interaural (IC = coerência interaural) é percebida corretamente, se a difusão for reproduzida com precisão.
[0003] Esses parâmetros, a saber, DOA e difusão, representam informações laterais que acompanham um sinal mono no que é chamado de fluxo de DirAC mono. Os parâmetros de DirAC são obtidos a partir de uma representação de tempo-frequência dos sinais de
Petição 870190114062, de 07/11/2019, pág. 10/56
2/37 microfone. Portanto, os parâmetros dependem do tempo e da frequência. No lado de reprodução, essas informações permitem uma interpretação espacial precisa. Para recriar o som espacial em uma posição de audição desejada, uma configuração de múltiplos altofalantes é exigida. No entanto, sua geometria é arbitrária. De fato, os sinais para os alto-falantes são determinados em função dos parâmetros da DirAC.
[0004] Existem diferenças substanciais entre a DirAC e a codificação de áudio multicanal paramétrica, por exemplo, MPEG Surround, embora compartilhem estruturas de processamento muito similares, conforme descrito em Lars Villemoes, Juergen Herre, Jeroen Breebaart, Gerard Hotho, Sascha Disch, Heiko Purnhagen, and Kristofer Kjrlingm, MPEG surround: The forthcoming ISO standard for spatial audio coding, in AES 28th International Conference, Pitea, Sweden, June 2006. Embora o MPEG Surround seja baseado em uma análise de tempo-frequência dos diferentes canais de altofalante, a DirAC assume como entrada os canais de microfones coincidentes, o que efetivamente descreve o campo de som em um ponto. Assim, a DirAC também representa uma eficiente técnica de gravação de áudio espacial.
[0005] Outro sistema convencional que trabalha com áudio espacial é a SAOC (SAOC = codificação de objeto de áudio espacial), conforme descrito em Jonas Engdegard, Barbara Resch, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Leonid Ternetiev, Jeroen Breebaart, Jeroen Koppens, Erik Schuijer, and Werner Oomen, Spatial audio object coding (SAOC) the upcoming MPEG standard on parametric object based audio coding, in 124th AES Convention, May 17-20, 2008, Amsterdam, The Netherlands, 2008,
Petição 870190114062, de 07/11/2019, pág. 11/56
3/37 atualmente em processo de padronização em ISO/MPEG.
[0006] Esta se baseia na ferramenta de interpretação de MPEG Surround e trata diferentes fontes de som como objetos. Essa codificação de áudio oferece altíssima eficiência em termos de taxa de bits e proporciona inovadora liberdade de interação no lado de reprodução. Essa abordagem promete novas características críticas e funcionalidade em sistemas herdados, bem como em várias outras novas aplicações.
[0007] É o objetivo da presente invenção prover um conceito aprovado para mesclar sinais de áudio espacial.
[0008] O objetivo é atingido por um equipamento de mesclagem de acordo com uma das reivindicações 1 ou 14 e um método de mesclagem de acordo com uma das reivindicações 13 ou 15.
[0009] Observe que a mesclagem seria algo simples no caso de um fluxo de DirAC de multicanal, ou seja, se os 4 canais de áudio Bformat estivessem disponíveis. De fato, os sinais de diferentes fontes podem ser diretamente somados para obter os sinais B-format do fluxo mesclado. No entanto, se esses canais não estiverem disponíveis, a mesclagem direta se torna problemática.
[0010] A presente invenção é baseada na descoberta de que os sinais de áudio espacial podem ser representados pela soma de uma representação de onda, por exemplo, uma representação de onda plana e uma representação de campo difuso. A esta última pode ser atribuída uma direção. Ao mesclar diversos fluxos de áudio, as configurações podem permitir a obtenção das informações laterais do fluxo mesclado, ou seja, em termos de uma difusão e uma direção. As configurações podem obter essas informações a partir das representações de onda, bem como dos fluxos de áudio de
Petição 870190114062, de 07/11/2019, pág. 12/56
4/37 entrada. Ao mesclar vários fluxos de áudio, os quais podem ser modelados por uma parte ou representação de onda e uma parte ou representação difusa, as partes ou componentes de onda e as partes ou componentes difusas podem ser mescladas separadamente. A mesclagem da parte de onda resulta em uma parte de onda mesclada, para a qual uma direção mesclada pode ser obtida com base nas direções das representações de parte de onda. Além disso, as partes difusas também podem ser mescladas separadamente, a partir da parte difusa mesclada, um parâmetro geral de difusão pode ser derivado.
[0011] As configurações podem prover um método para mesclar dois ou mais sinais de áudio espacial codificados como fluxos de DirAC mono. O sinal mesclado resultante também pode ser representado como um fluxo de DirAC mono. Em certas configurações, a codificação DirAC mono pode ser uma forma compacta de descrever o áudio espacial, uma vez que somente um único canal de áudio precisa ser transmitido com as informações laterais.
[0012] Em certas configurações, um possível cenário pode ser um aplicativo de teleconferência com mais que duas partes. Por exemplo, permite-se que o usuário A se comunique com os usuários B e C, que geram dois fluxos separados de DirAC mono. No local do usuário A, a configuração pode permitir que os fluxos dos usuários B e C sejam mesclados em um único fluxo de DirAC mono, o qual pode ser reproduzido com a técnica de síntese convencional DirAC. Em uma configuração que utiliza uma topologia de rede que visualiza a presença de uma unidade de controle multiponto (MCU = unidade de controle multiponto), a operação de mesclagem seria realizada pela própria MCU, de modo que o usuário A receberia um único fluxo de
Petição 870190114062, de 07/11/2019, pág. 13/56
5/37
DirAC mono já contendo voz tanto do usuário B como do usuário C. De forma clara, os fluxos DirAC a serem mesclados também podem ser gerados sinteticamente, o que significa que as informações laterais adequadas podem ser adicionadas a um sinal de áudio mono. No exemplo que acabou de ser mencionado, o usuário A pode receber dois fluxos de áudio dos usuários B e C sem quaisquer informações laterais. É então possível designar a cada fluxo uma determinada direção e difusão, adicionando assim as informações laterais necessárias para construir os fluxos DirAC, os quais podem ser então mesclados por uma configuração.
[0013] Outro possível cenário nas configurações pode ser
encontrado em jogos online com múltiplos jogadores e em
aplicativos de realidade virtual . Nesses casos, vários fluxos são
gerados dos j ogadores ou dos obj etos virtuais. Cada fluxo é
caracterizado por uma certa direção de chegada em relação ao ouvinte e, portanto, pode ser expressa por um fluxo DirAC. A configuração pode ser utilizada para mesclar os diferentes fluxos em um único fluxo DirAC, que é então reproduzido na posição do ouvinte.
[0014] As configurações da presente invenção serão detalhadas utilizando as figuras anexas, nas quais:
[0015] A Figura la mostra uma configuração de um equipamento de mesclagem;
[0016] A Figura lb mostra a pressão e os componentes de um vetor de velocidade de partícula em um plano Gaussiano para uma onda plana;
[0017] A Figura 2 mostra uma configuração de um codificador DirAC; [0018] A Figura 3 ilustra uma mesclagem ideal de fluxos de áudio;
Petição 870190114062, de 07/11/2019, pág. 14/56
6/37 [0019] A Figura 4 mostra as entradas e saídas de uma configuração de um bloco de processamento de mesclagem DirAC geral;
[0020] A Figura 5 mostra um diagrama de blocos de uma configuração; e [0021] A Figura 6 mostra um fluxograma de uma configuração de um método de mesclagem.
[0022] A Figura la ilustra uma configuração de um equipamento 100 para mesclar um primeiro fluxo de áudio espacial com um segundo fluxo de áudio espacial para obter um fluxo de áudio mesclado. A configuração ilustrada na Figura la ilustra a mesclagem de dois fluxos de áudio, no entanto não deve ser limitada a dois fluxos de áudio; de forma semelhante, múltiplos fluxos de áudio espacial podem ser mesclados. O primeiro fluxo de áudio espacial e o segundo fluxo de áudio espacial pode, por exemplo, corresponder a fluxos de DirAC mono e o fluxo de áudio mesclado também pode corresponder a um único fluxo de áudio DirAC mono. Como será detalhado a seguir, um fluxo de DirAC mono pode compreender um sinal de pressão, por exemplo, capturado por um microfone omnidirecional e informações laterais. Estas últimas podem compreender medidas de difusão dependentes de tempo-frequência e direção de chegada do som.
[0023] A Figura la mostra uma configuração de um equipamento 100 para mesclar um primeiro fluxo de áudio espacial com um segundo fluxo de áudio espacial para obter um fluxo de áudio mesclado, compreendendo um estimador 120 para estimar uma primeira representação de onda compreendendo uma primeira medida de direção de onda e uma primeira medida de campo de onda para o primeiro fluxo de áudio espacial, o primeiro fluxo de áudio espacial tendo
Petição 870190114062, de 07/11/2019, pág. 15/56
7/37 uma primeira representação de áudio e uma primeira direção de chegada, e para estimar uma segunda representação de onda compreendendo uma segunda medida de direção de onda e uma segunda medida de campo de onda para o segundo fluxo de áudio espacial, o segundo fluxo de áudio espacial tendo uma segunda representação de áudio e uma segunda direção de chegada. Em certas configurações, a primeira e/ou segunda representação de onda pode corresponder a uma representação de onda plana.
[0024] Na configuração mostrada na Figura la, o equipamento 100 compreende ainda um processador 130 para processamento da primeira representação de onda e da segunda representação de onda para obter uma representação de onda mesclada compreendendo uma medida de campo mesclado e uma medida de direção de chegada mesclada e para processamento da primeira representação de áudio e da segunda representação de áudio para obter uma representação de áudio mesclada, o processador 130 é ainda adaptado para prover o fluxo de áudio mesclado compreendendo a representação de áudio mesclada e a medida de direção de chegada mesclada.
[0025] O estimador 120 pode ser adaptado para estimar a primeira medida de campo de onda em termos de uma primeira amplitude de campo de onda, para estimar a segunda medida de campo de onda em termos de uma segunda amplitude de campo de onda e para estimar uma diferença de fase entre a primeira medida de campo de onda e a segunda medida de campo de onda. Em certas configurações, o estimador pode ser adaptado para estimar uma primeira fase de campo de onda e uma segunda fase de campo de onda. Em certas configurações, o estimador 120 pode estimar somente uma troca de fase ou diferença entre a primeira e a segunda representações de
Petição 870190114062, de 07/11/2019, pág. 16/56
8/37 onda, a primeira e a segunda medidas de campo de onda, respectivamente. 0 processador 130 pode ser então devidamente adaptado para processamento da primeira representação de onda e da segunda representação de onda para obter uma representação de onda mesclada compreendendo uma medida de campo de onda mesclada, que pode compreender uma amplitude de campo de onda mesclada, uma fase de campo de onda mesclada e uma medida de direção de chegada mesclada, e para processamento da primeira representação de áudio e da segunda representação de áudio para obter uma representação de áudio mesclada.
[0026] Em certas configurações, o processador 130 pode ser ainda adaptado para processamento da primeira representação de onda e da segunda representação de onda para obter a representação de onda mesclada compreendendo a medida de campo de onda mesclada, a medida de direção de chegada mesclada e um parâmetro de difusão mesclado, e para prover o fluxo de áudio mesclado compreendendo a representação de áudio mesclada, a medida de direção de chegada mesclada e o parâmetro de difusão mesclado.
[0027] Em outras palavras, em certas configurações, um parâmetro de difusão pode ser determinado com base nas representações de onda para o fluxo de áudio mesclado. O parâmetro de difusão pode estabelecer uma medida de uma difusão espacial de um fluxo de áudio, ou seja, uma medida para uma distribuição espacial como, por exemplo, uma distribuição angular em torno de uma determinada direção. Em uma configuração, um possível cenário poderia ser a mesclagem de dois sinais mono sintéticos somente com informações direcionais.
[0028] O processador 130 pode ser adaptado para processamento da
Petição 870190114062, de 07/11/2019, pág. 17/56
9/37 primeira representação de onda e da segunda representação de onda para obter a representação de onda mesclada, onde o parâmetro de difusão mesclado é baseado na primeira medida de direção de onda e na segunda medida de direção de onda. Em certas configurações, a primeira e segunda representações de onda podem ter diferentes direções de chegada e a direção de chegada mesclada pode ficar entre elas. Nesta configuração, embora o primeiro e segundo fluxos de áudio espacial não possam prover quaisquer parâmetros de difusão, o parâmetro de difusão mesclado pode ser determinado a partir da primeira e segunda representações de onda, ou seja, com base na primeira medida de direção de onda e na segunda medida de direção de onda. Por exemplo, se duas ondas planas colidirem a partir de direções diferentes, ou seja, a primeira medida de direção de onda difere da segunda medida de direção de onda, a representação de áudio mesclada pode compreender uma direção de chegada mesclada combinada com um parâmetro de difusão mesclado none-vanishing, a fim de compensar a primeira medida de direção de onda e a segunda medida de direção de onda. Em outras palavras, embora dois fluxos de áudio espacial focados não possam ter ou prover qualquer difusão, o fluxo de áudio mesclado pode ter uma difusão none-vanishing, uma vez que é baseado na distribuição angular estabelecida pelo primeiro e segundo fluxos de áudio.
[0029] As configurações podem estimar um parâmetro de difusão Ψ, por exemplo, para um fluxo DirAC mesclado. De modo geral, as configurações podem ser então definidas ou assumir os parâmetros de difusão dos fluxos individuais em um valor fixo, por exemplo, 0 ou 0,1, ou em um valor variável derivado de uma análise das representações de áudio e/ou representações de direção.
Petição 870190114062, de 07/11/2019, pág. 18/56
10/37 [0030] Em outras configurações, o equipamento 100 para mesclar o primeiro fluxo de áudio espacial com o segundo fluxo de áudio espacial para obter um fluxo de áudio mesclado, pode compreender o estimador 120 para estimar a primeira representação de onda compreendendo uma primeira medida de direção de onda e uma primeira medida de campo de onda para o primeiro fluxo de áudio espacial, o primeiro fluxo de áudio espacial tendo a primeira representação de áudio, a primeira direção de chegada e um primeiro parâmetro de difusão. Em outras palavras, a primeira representação de áudio pode corresponder a um sinal de áudio com uma determinada largura espacial ou sendo difundido até um certo ponto. Em uma configuração, isto pode corresponder ao cenário em um jogo de computador. O primeiro jogador pode estar em um cenário, onde a primeira representação de áudio representa uma fonte de áudio, por exemplo, um trem passando, criando um campo de som difundido até um certo ponto. Nessa configuração, os sons gerados pelo trem podem ser difundidos, um som produzido pela buzina do trem, ou seja, os componentes de frequência correspondentes, não pode ser difundido.
[0031] O estimador 120 pode ser ainda adaptado para estimar a segunda representação de onda compreendendo a segunda medida de direção de onda e a segunda medida de campo de onda para o segundo fluxo de áudio espacial, o segundo fluxo de áudio espacial tendo a segunda representação de áudio, a segunda direção de chegada e um segundo parâmetro de difusão. Em outras palavras, a segunda representação de áudio pode corresponder a um sinal de áudio com uma determinada largura espacial ou sendo difundida até um certo ponto. Novamente, isto pode corresponder ao cenário no jogo de
Petição 870190114062, de 07/11/2019, pág. 19/56
11/37 computador, onde uma segunda fonte de som pode ser representada pelo segundo fluxo de áudio, por exemplo, ruido de fundo de outro trem passando em outro trilho. Para o primeiro jogador no jogo de computador, ambas as fontes de som podem ser difundidas, uma vez que ele está localizado na estação de trem.
[0032] Em certas configurações, o processador 130 pode ser adaptado para processamento da primeira representação de onda e da segunda representação de onda para obter a representação de onda mesclada compreendendo a medida de campo de onda mesclada e a medida de direção de chegada mesclada, e para processamento da primeira representação de áudio e da segunda representação de áudio para obter a representação de áudio mesclada, e para prover o fluxo de áudio mesclado compreendendo a representação de áudio mesclada e a medida de direção de chegada mesclada. Em outras palavras, o processador 130 não pode determinar um parâmetro de difusão mesclado. Isso pode corresponder ao campo de som vivenciado por um segundo jogador no jogo de computador descrito acima. O segundo jogador pode estar localizado mais distante da estação de trem, de modo que as duas fontes de som não podem ser vivenciadas como difundidas pelo segundo jogador, porém representa as fontes de som focadas devido à maior distância.
[0033] Em certas configurações, o equipamento 100 pode compreende ainda um meio 110 para determinar, para o primeiro fluxo de áudio espacial, a primeira representação de áudio e a primeira direção de chegada, e para determinar, para o segundo fluxo de áudio espacial, a segunda representação de áudio e a segunda direção de chegada. Em certas configurações, os meios 110 de determinação podem ser providos de um fluxo de áudio direto, ou seja, a
Petição 870190114062, de 07/11/2019, pág. 20/56
12/37 determinação pode simplesmente se referir à leitura da representação de áudio em termos de, por exemplo, um sinal de pressão e uma DOA e, opcionalmente, também parâmetros de difusão em termos das informações laterais.
[0034] O estimador 120 pode ser adaptado para estimar uma primeira representação de onda do primeiro fluxo de áudio espacial tendo ainda um primeiro parâmetro de difusão e/ou para estimar a segunda representação de onda do segundo fluxo de áudio espacial tendo ainda um segundo parâmetro de difusão, o processador 130 pode ser adaptado para processamento da medida de campo de onda mesclada, a primeira e segunda representações de áudio e o primeiro e segundo parâmetros de difusão para obter o parâmetro de difusão mesclado para o fluxo de áudio mesclado, e o processador 130 pode ser ainda adaptado para prover o fluxo de áudio compreendendo o parâmetro de difusão mesclado. Os meios 110 de determinação podem ser adaptados para determinar o primeiro parâmetro de difusão para o primeiro fluxo de áudio espacial e o segundo parâmetro de difusão para o segundo fluxo de áudio espacial.
[0035] O processador 130 pode ser adaptado para processamento dos fluxos de áudio espacial, as representações de áudio, a DOA e/ou os parâmetros de difusão no sentido do bloco, ou seja, em termos de segmentos de amostras ou valores. Em algumas configurações, um segmento pode compreender um número predeterminado de amostras correspondentes a uma representação de frequência de uma determinada banda de frequência em um determinado tempo de um fluxo de áudio espacial. Esse segmento pode corresponder a uma representação mono e ter associada uma DOA e um parâmetro de difusão.
Petição 870190114062, de 07/11/2019, pág. 21/56
13/37 [0036] Em certas configurações, os meios 110 de determinação podem ser adaptados para determinar a primeira e a segunda representação de áudio, a primeira e segunda direção de chegada e o primeiro e segundo parâmetros de difusão de uma forma dependente do tempofrequência e/ou o processador 130 pode ser adaptado para processamento da primeira e da segunda representações de onda, dos parâmetros de difusão e/ou medidas de DOA e/ou para determinar a representação de áudio mesclada, a medida de direção de chegada mesclada e/ou o parâmetro de difusão mesclado de uma forma dependente do tempo-frequência.
[0037] Em certas configurações, a primeira representação de áudio pode corresponder a uma primeira representação mono e a segunda representação de áudio pode corresponder a uma segunda representação mono e a representação de áudio mesclada pode corresponder a uma representação mono mesclada. Em outras palavras, as representações de áudio podem corresponder a um único canal de áudio.
[0038] Em certas configurações, os meios 110 de determinação podem ser adaptados para determinar e/ou o processador pode ser adaptado para processamento da primeira e da segunda representação mono, da primeira e da segunda DOA e de um primeiro e um segundo parâmetro de difusão e o processador 130 pode prover a representação mono mesclada, a medida DOA mesclada e/ou o parâmetro de difusão mesclado de uma forma dependente do tempo-frequência. Em certas configurações, o primeiro fluxo de áudio espacial já pode ser provido em termos de, por exemplo, uma representação DirAC, os meios 110 de determinação podem ser adaptados para determinar a primeira e segunda representação mono, a primeira e segunda DOA e
Petição 870190114062, de 07/11/2019, pág. 22/56
14/37 o primeiro e segundo parâmetros de difusão simplesmente pela extração do primeiro e do segundo fluxos de áudio, por exemplo, das informações laterais DirAC.
[0039] A seguir, uma configuração será destacada em detalhe, onde a notação e o modelo de dados devem ser introduzidos primeiro. Em certas configurações, os meios 110 de determinação podem ser adaptados para determinar a primeira e a segunda representações de áudio e/ou o processador 130 pode ser adaptado para prover a representação mono mesclada em termos de um sinal de pressão p(t) ou um sinal de pressão transformado de tempo-frequência P(k,n) , onde k denota um Índice de frequência e n denota um Índice de tempo.
[0040] Em certas configurações, a primeira e a segunda medida de direção de ondas, bem como a medida de direção de chegada mesclada, podem corresponder a qualquer quantidade direcional, por exemplo, um vetor, um ângulo, uma direção etc. e podem ser derivados de qualquer medida direcional que representa um componente de áudio, por exemplo, um vetor de intensidade, um vetor de velocidade de partícula etc. A primeira e a segunda medidas de campo de onda, bem como a medida de campo de onda mesclada, podem corresponder a qualquer quantidade fisica que descreve um componente de áudio, que pode ter valor real ou complexo, corresponder a um sinal de pressão, uma amplitude ou magnitude de velocidade de partícula, volume alto etc. Além disso, as medidas podem ser consideradas no dominio de tempo e/ou frequência.
[0041] As configurações podem ser baseadas na estimativa de uma representação de onda plana para as medidas de campo de onda das
Petição 870190114062, de 07/11/2019, pág. 23/56
15/37 representações de onda dos fluxos de entrada, que podem ser realizados pelo estimador 120 na Figura la. Em outras palavras, a medida de campo de onda pode ser modelada utilizando a representação de onda plana. De modo geral, há várias descrições equivalentes e extensas (ou seja, completas) de uma onda plana ou ondas em geral. A seguir, uma descrição matemática será introduzida para computar os parâmetros de difusão e as direções de chegada ou as medidas de direção para diferentes componentes. Embora somente algumas descrições se referem diretamente às quantidades físicas, por exemplo, pressão, velocidade de partícula etc., existe potencialmente um número infinito de diferentes formas de descrever representações de onda, das quais uma será apresentada a seguir como um exemplo, no entanto, não devendo significar qualquer forma de limitação das configurações da presente invenção.
[0042] Para detalhar ainda mais as diferentes descrições em potencial, dois números reais a e b são considerados. As informações contidas em a e b podem ser transferidas enviando-se c e d , quando [0043] onde Ω é uma matriz conhecida de 2x2. O exemplo considera somente as combinações lineares, geralmente qualquer combinação, ou seja, também uma combinação não linear, é concebível.
[0044] A seguir, os escalares são representados por letras minúsculas a,b,c, enquanto os vetores de coluna são representados por letras minúsculas em negrito a,b,c . O sobrescrito ( )r denota a
Petição 870190114062, de 07/11/2019, pág. 24/56
16/37 transposição, respectivamente, ao passo que 0 e (')* denotam conjugação complexa. A notação de fasor complexo é distinguida da notação temporal. Por exemplo, a pressão p(t) , que é um número real e do qual pode ser derivada uma possível medida de campo de onda, pode ser expressa por meio do fasor P , que é um número complexo e do qual pode ser derivada outra possível medida de campo de onda, por p(í) = Re{Pe7,a}, [0045] onde Re{·} denota a parte real e (ü — Zflf é a frequência angular. Além disso, as letras maiúsculas utilizadas para quantidades físicas representam fasores a seguir. Para o exemplo introdutório a seguir e para se evitar confusão, observe que todas as quantidades com subscrito PW consideradas a seguir se referem a ondas planas.
[0046] Para uma onda plana monocromática ideal vetor de velocidade de partícula
U PW pode ser notado como
ΤΊ = Pw e
PW Kd
Poc [0047] onde vetor ed aponta para direção de propagação da onda, ou seja correspondendo uma medida de direção. Pode ser comprovado que
I -—-—|p Pe a 2p0c^ d £ = 9 2 ’ (a>
Ψ = 0 [0048] onde Ia denota a intensidade ativa, p0 denota a densidade
Petição 870190114062, de 07/11/2019, pág. 25/56
17/37 do ar c denota a velocidade do som, E denota a energia de campo do som e Ψ denota a difusão.
[0049] É interessante observar que uma vez que todos os componentes de ed são números reais, os componentes de UPW estão todos em fase com Ppw . A Figura lb ilustra um EPW e Ppw exemplares no plano Gaussiano. Conforme mencionado, todos os componentes de UPW compartilham a mesma fase que Ppw , ou seja, Θ.
Suas magnitudes, por outro lado, estão vinculadas a
[0050] Mesmo quando múltiplas fontes de som estão presentes, a pressão e a velocidade de partícula ainda podem ser expressas como uma soma de componentes individuais. Sem perder a generalidade, o caso de duas fontes de som pode ser destacado. De fato, a extensão para números maiores de fontes é direta.
[0051] Define-se que Pm e P(2) são as pressões que teriam sido registradas para a primeira e segunda fonte, respectivamente, ou seja, representando a primeira e segunda medidas de campo de onda.
[0052] Similarmente, define-se que L/(1) e L/(2) são vetores complexos de velocidade de partícula. Dada a linearidade do fenômeno de propagação, quando as fontes atuam juntas, a pressão
P e velocidade de partícula U observadas são
P — pú) | p(2) u=u(l) +u(2) [0053] Portanto, as intensidades ativas são
Petição 870190114062, de 07/11/2019, pág. 26/56
18/37 /(2) =-ReP(2)-L/(2) “ 2 1
Assim
Observe que além dos casos especiais [0054] Quando as duas ondas a saber, planas, estão exatamente em fase (embora se deslocando em direções diferentes) onde / é um número real. Segue que
7<1) __L “ 2
7(2) “ 2 h(2)|| _|„|2||λ(1) [0055] Quando as ondas estão em fase se deslocando na mesma direção, elas podem ser claramente interpretadas como uma onda.
[0056] Para / = —1 e qualquer direção, a pressão desaparece e pode não haver fluxo de energia, ou seja [0057] Quando as ondas estão perfeitamente em quadratura, então
Petição 870190114062, de 07/11/2019, pág. 27/56
19/37
p(2) = γ, βίπ/2p(\) Ux m = γ·β]πΙ2ϋxm , U y 2) = γ·βίπΙ2υ y m U (2) = v-ejírl2U ω Z ' z
[0058] onde / é um número real. A partir disso, segue que Im =-Re{p(1)L/(1)} a 2 l J Z(2) = —Re{p(2)[/(2)| , a 2 l J e I = a a a
[0059] Utilizando as equações acima, pode ser facilmente provado que, para uma onda plana, cada uma das quantidades exemplares U , P e ed , ou P e Ia pode representar uma descrição equivalente e completa, uma vez que todas as outras quantidades físicas podem ser derivadas delas, ou seja, qualquer combinação delas pode, em certas configurações, ser utilizada no lugar da medida de campo de onda ou da medida de direção de onda. Por exemplo, em certas
configurações, o 2-norm do vetor de intensidade ativa pode ser
utilizado como medida de campo de onda.
[0060] Uma descrição mínima pode ser identificada para realizar a mesclagem conforme especificado pelas configurações. Os vetores de pressão e de velocidade de partícula para iésima onda plana podem
ser expressos como p(O = p(O ρ·ΖΡ<·> |p (/)| 1/ = 1------ Poc
Petição 870190114062, de 07/11/2019, pág. 28/56
20/37 [0061] onde representa a fase de P(l) . Expressando o vetor de intensidade mesclado, ou seja, a medida de campo de onda mesclada e a medida de direção de chegada mesclada, com relação a essas variáveis, segue
\eiZP
Poc \ejApm [0062] Observe que as duas primeiras parcelas são e A equação pode simplificada para em e(2)2) · cos
Introduzindo
Δ(1'2) = |zp(2) - ZP(1) resulta em
. (b) [0063] Essa equação mostra que as informações exigidas para computar Ia podem ser reduzidas para |pw|, , |ZP(2) — ZP(1)| . Em outras palavras, a representação para cada um, ou seja, plana, onda, pode ser reduzida à amplitude da onda e à direção de propagação. Além disso, a diferença relativa de fase entre as
Petição 870190114062, de 07/11/2019, pág. 29/56
21/37 ondas também pode ser considerada. Quando mais que duas ondas precisarem ser mescladas, as diferenças de fase entre todos os pares de ondas podem ser consideradas. Claramente, há várias outras descrições que contêm exatamente as mesmas informações. Por exemplo, conhecendo-se os vetores, a intensidade e a diferença de fase seriam equivalentes.
[0064] De modo geral, uma descrição energética das ondas planas pode não ser suficiente para realizar a mesclagem corretamente. A mesclagem poderia ser aproximada assumindo-se as ondas em quadratura. Um descritor completo das ondas (ou seja, todas as quantidades fisicas da onda são conhecidas) pode ser suficiente para a mesclagem, entretanto podem não ser necessários em todas as configurações. Em certas configurações, realizando-sea mesclagem correta da amplitude de cada onda, a direção de propagação de cada onda e a diferença de fase relativa entre cada par de ondas a ser mesclado pode ser levado em consideração.
[0065] Os meios 110 de determinação podem ser adaptados para prover e/ou o processador 130 pode ser adaptado para processamento da primeira e segunda direções de chegada e/ou para prover a medida de direção de chegada mesclada em termos de um vetor unitário eD0A(k,ri) , com eD0A(k,ri) = e Ia(k,ri) = ||Za(Zr,ra)|| eI(k,n) , com
Ia{k,n)^Re{p(k,rí)-U\k,n)} e
U(k, n) - [í/x (k, n\Uy (k, n\Uz (k, n)[ [0066] denota o vetor de velocidade de partícula u(t)= [Mx(í),My(í),Mz(í)]r transformado em tempo-frequência. Em outras
Petição 870190114062, de 07/11/2019, pág. 30/56
22/37 palavras, define-se que p(t) e u(t)— |wv(/),u (t),wz(í)j são o vetor de pressão e velocidade de partícula, respectivamente, para um ponto específico no espaço, onde [·]Γ denota a transposição. Esses sinais podem ser transformados em um domínio de tempo-frequência permeio de um banco de filtro adequado, ou seja, uma Transformada de Fourier Curta (STFT) conforme sugerido, por exemplo, por V. Pulkki and C. Faller, Directional audio coding: Filterbank and STFT-based design, in 120th AES Convention, May 20-23, 2006, Paris, France, May 2006.
[0067] Define-se que P(k,ri) e U(k,n)=\u/k,n),Uy(k,n),Uz(k,n)^ denotam os sinais transformados, onde ken são índices para frequência (ou banda de frequência) e tempo, respectivamente. O vetor de intensidade ativa Ia(k,n) pode ser definido como
Ia(k,ri) =-^-Re{p(Y,77) · ZL7*(Zc, zi)} (D [0068] onde () denota conjugação complexa e Re{·} extrai a parte real. O vetor de intensidade ativa expressa o fluxo líquido de energia que caracteriza o campo de som, conforme descrito em F.J. Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989, e pode, assim, ser utilizado como uma medida de campo de onda.
[0069] Define-se que c denota a velocidade do som no meio considerado e E a energia de campo do som definida por F.J. Fahy
E(k,n)=^U(k,n^ +—X\P(k,n/ , (2) [0070] onde l· computa o 2-norm. A seguir, o conteúdo de um fluxo
Petição 870190114062, de 07/11/2019, pág. 31/56
23/37 de DirAC mono será detahado.
[0071] O fluxo de DirAC mono pode consistir no sinal mono p(t) e de informações laterais. Essas informações laterais podem compreender a direção de chegada dependente do tempo-frequência e a medida for difusão dependente do tempo-frequência. Esta última
pode ser denotada com eD0A(k,n) , que é um vetor unitário que aponta
na direção a part ir da qual o som chega. Esta última, difusão, é
denotada por
[0072] Em certas configurações , os meios 110 e/ou o processador
130 podem ser adaptados para prover/processar a primeira e a segunda DOAs e/ou a DOA mesclada em termos de um vetor unitário eD0A(k,n) . A direção de chegada pode ser obtida como eD0A(k,ri) --e^k.n) , [0073] onde o vetor unitário el/k,ri) indica a direção na qual a intensidade ativa aponta, a saber
Ζα(^η)=||Ζα(^η)||·^(^η), ^(Ζτ,ζί) = Ζα(Ζτ,ζί)/||Ζα(Ζτ,ζί)|| .
(3) [0074] Alternativamente em certas configurações, a DOA pode ser expressa em termos de azimuth e ângulos de elevação em um sistema de coordenada esférica. Por exemplo, se φ e ϋ forem azimuth e ângulos de elevação, respectivamente, então eD0A(fc,n) = [cos(çf) · cos(tf), sin(ç7) · cos(z?), sin(z?)]r (4) [0075] Em certas configurações, os meios 110 de determinação e/ou
Petição 870190114062, de 07/11/2019, pág. 32/56
24/37 o processador 130 podem ser adaptados para prover/processar o primeiro e segundo parâmetros de difusão e/ou o parâmetro de difusão mesclado por Ψ(1<.,η) de forma dependente do tempofrequência. Os meios 110 de determinação podem ser adaptados para prover o primeiro e/ou segundo parâmetros de difusão e/ou o processador 130 pode ser adaptado para prover um parâmetro de difusão mesclado em termos de c < E(k,n) >t (5) [0076] onde <>t indica uma média temporal.
[0077] Existem diferentes estratégias para se obter P(k,n) e U(k,n) na prática. Uma possibilidade é utilizar um microfone B-format, que distribui 4 sinais, a saber, w(í), x(t), y(f) e z(í) . O primeiro, w(í) , corresponde à leitura de pressão de um microfone omnidirecional. Os três últimos são leituras de pressão de microfones tendo padrões de captação do tipo figure-of-eight direcionados a três eixos de um sistema de coordenadas
Cartesianas. Esses sinais também são proporcionais à velocidade de partícula. Portanto, em algumas configurações
P(k,ri) = W(k,n)
U(k,tí) = ——[%(k,n), Y(k,ri), Z(k,n)]T y/2p0c (6) [0078] onde W(k,ri), X(k,ri), Y(k,ri) e Z(k,ri) são os sinais transformados B-format. Observe que o fator y[2 em (6) é proveniente da convenção utilizada na definição de sinais B
Petição 870190114062, de 07/11/2019, pág. 33/56
25/37 format, conforme descrito em Michael Gerzon, Surround sound psychoacoustics, In Wireless World, volume 80, pages 483-486, December 1974.
[0079] Alternativamente, P(k,rí) e U(k,n) podem ser estimados por meio de uma matriz de microfone omnidirecional conforme sugerido em J. Merimaa, Applications of a 3-D microphone array, in 112th AES Convention, Paper 5501, Munich, May 2002. As etapas de processamento descritas acima também são ilustradas na Figura 2.
[0080] A Figura 2 mostra um codificador DirAC 200 que é adaptado para computar um canal de áudio mono e informações laterais a partir de sinais de entrada adequados, ou seja, sinais de microfone. Em outras palavras, a Figura 2 ilustra um codificador DirAC 200 para determinar difusão e direção de chegada a partir de sinais de microfone adequados. A Figura 2 mostra um codificador DirAC 200 compreendendo uma unidade de estimativa P/U 210. A unidade de estimativa P/U recebe os sinais de microfone como informações de entrada, nas quais a P/U estimativa é baseada. Uma vez que todas as informações estão disponíveis, a estimativa P/U é direta de acordo com as equações acima. Um estágio de análise energética 220 habilita a estimativa da direção de chegada e o parâmetro de difusão do fluxo mesclado.
[0081] Em certas configurações, outros fluxos de áudio que não os fluxos de áudio DirAC mono podem ser mesclados. Em outras palavras, em certas configurações, os meios 110 de determinação podem ser adaptados para converter qualquer outro fluxo de áudio no primeiro e segundo fluxos de áudio, por exemplo, dados de áudio estéreo ou surround. No caso em que as configurações mesclam fluxos DirAC que não mono, eles podem se distinguir entre
Petição 870190114062, de 07/11/2019, pág. 34/56
26/37 diferentes casos. Se o fluxo DirAC portou sinais B-format como sinais de áudio, então os vetores de velocidade de partícula seriam conhecidos e a mesclagem seria simples, como será detalhado a seguir. Quando o fluxo DirAC porta sinais de áudio que não os sinais B-format ou um sinal mono omnidirecional, os meios 110 de determinação podem ser adaptados para conversão em dois fluxos de DirAC mono primeiro, e uma configuração pode então mesclar os fluxos convertidos consequentemente. Em certas configurações, o primeiro e o segundo fluxos de áudio espacial podem então representar fluxos convertidos DirAC mono.
[0082] As configurações podem combinar canais de áudio disponíveis para aproximar um padrão de captação omnidirecional. Por exemplo, no caso de um fluxo DirAC estéreo, isto pode ser realizado somando-se o canal esquerdo L e o canal direito R.
[0083] A seguir, a fisica em um campo gerado por múltiplas fontes de som deve ser destacada. Quando múltiplas fontes de som estão presentes, ainda é possível expressar a pressão e a velocidade de partícula como uma soma de componentes individuais.
[0084] Define-se p(l)(k,n) e como a pressão e a velocidade de partícula que teria sido registrada para a iésima fonte, caso funcionasse isoladamente. Assumindo a linearidade do fenômeno de propagação, quando fontes N funcionam juntas, a pressão P(k,tí) e velocidade de partícula U(k,n) observadas são
N
P(k,n)^^P{i\k,n) i—1 (7) e
Petição 870190114062, de 07/11/2019, pág. 35/56
27/37
N
U(k,n) = YU(i)(k,n) .
i=l (8) [0085] As equações acima mostram que se tanto a pressão como a velocidade de partícula forem conhecidas, a obtenção do fluxo de DirAC mono mesclado seria direta. Essa situação é ilustrada na Figura 3. A Figura 3 ilustra uma configuração que realiza a mesclagem otimizada ou possivelmente ideal de múltiplos fluxos de áudio. A Figura 3 assume que todos os vetores de pressão e velocidade de partícula são conhecidos. Infelizmente, essa mesclagem simples não é possível para fluxos de DirAC mono, para os quais a velocidade de partícula U^‘\k,n) não é conhecida.
[0086] A Figura 3 ilustra fluxos N , para cada um dos quais uma estimativa P/U é realizada em blocos 301, 302-30N. O resultado dos blocos de estimativa P/U são as representações correspondentes de tempo-frequência dos sinais P^‘\k,n) e U^‘\k,n) individuais, que podem ser então combinados de acordo com as equações acima (7) e (8), ilustradas pelos dois somadores 310 e 311. Uma vez que o P (k,tí) e U (k,tí) combinados são obtidos, um estágio de análise energética 320 pode determinar o parâmetro de difusão *P(k,ri) e a direção de chegada eD0A(k,ri) de forma direta.
[0087] A Figura 4 ilustra uma configuração para mesclar múltiplos fluxos de DirAC mono. De acordo com a descrição acima, N fluxos devem ser mesclados pela configuração de um equipamento 100 ilustrado na Figura 4. Conforme ilustrado na Figura 4, cada um dos fluxos N de entrada pode ser representado por uma representação mono P(i)(k,n) dependente do tempo-frequência, uma direção de
Petição 870190114062, de 07/11/2019, pág. 36/56
28/37 chegada e^0A(k,ri) e Tmfk,n), onde (1) representa o primeiro fluxo.
Uma representação correspondente também é ilustrada na Figura 4 para o fluxo mesclado.
[0088] A tarefa de mesclagem de dois ou mais fluxos de DirAC mono é ilustrada na Figura 4. Como a pressão P(k,n) pode ser obtida simplesmente somando-se as quantidades conhecidas como em (7), o problema de mesclagem de dois ou mais fluxos de DirAC mono reduz para a determinação de eD0A(k,ri) e *P(k,ri) . A configuração a seguir é baseada na suposição de que o campo de cada fonte consiste em uma onda plana somada a um campo difuso. Portanto, a pressão e velocidade de partícula para a iésima fonte pode ser expressa como
P{i)(k,n) = P^(k,n) + ^(k,n) (9)
U(i)(k,n) = U^(k,n) + U^(k,n), (10) [0089] onde os subscritos PW e diff denotam a onda plana e o campo difuso, respectivamente. A seguir, é apresentada uma configuração tendo uma estratégia para estimar a direção de chegada do som e difusão. As etapas correspondentes de processamento são ilustradas na Figura 5.
[0090] A Figura 5 ilustra outro equipamento 500 para mesclar múltiplos fluxos de áudio que serão detalhados a seguir. A Figura 5 exemplifica o processamento do primeiro fluxo de áudio espacial em termos de uma primeira representação mono P(1) , uma primeira direção de chegada c^qa e um primeiro parâmetro de difusão . De
Petição 870190114062, de 07/11/2019, pág. 37/56
29/37 acordo com a Figura 5, o primeiro fluxo de áudio espacial é decomposto em uma representação aproximada de onda plana P^(k,rí), bem como o segundo fluxo de áudio espacial e possivelmente outros fluxos de áudio espacial consequentemente em P^(k,n)...Pp^(k,n) . As estimativas são indicadas pelo acento circunflexo acima da respetiva representação por fórmula.
[0091] O estimador 120 pode ser adaptado para estimar diversas representações N de onda Pp^(k,rí) e representações de campo difuso
P&ff(k,ri) como aproximações
P(l\k,n) para diversos fluxos N de áudio espacial, com l<i<N . O processador 130 pode ser adaptado para determinar a direção de chegada mesclada com base em uma estimativa, com
Ia(k,n)=±Re
Ppw<k,rí) = ^?pw(k,rí), i—1
Ppw (k, rí) - a(l) (k, rí) P(l) (k,rí),
ÚPW(k,n)^Ú^(k,n) , i—i
Upw (k,n) = —— βΜ (k, rí) Pw (k,rí) e^0A (k,n),
Poc [0092] onde os números reais CC(t\k,rí), fi^iprí)^ {0...1} .
[0093] A Figura 5 mostra, em linhas pontilhadas, o estimador 120 e o processador 130. Na configuração mostrada na Figura 5, os meios 110 de determinação não estão presentes, pois assume-se que o
Petição 870190114062, de 07/11/2019, pág. 38/56
30/37 primeiro fluxo de áudio espacial e o segundo fluxo de áudio espacial, bem como possivelmente outros fluxos de áudio, são providos na representação DirAC mono, ou seja, a representações mono, a DOA e os parâmetros de difusão são apenas separados do fluxo. Conforme mostrado na Figura 5, o processador 130 pode ser adaptado para determinar a DOA mesclada com base em uma estimativa.
[0094] A direção de chegada de som, ou seja, as medidas de direção, podem ser estimadas por êD0A(k,n), que é computado como ê (kn) = [0095] onde Ia(k,ri) estimativa para a intensidade ativa para o fluxo mesclado. Pode ser obtido como segue [0 096] onde Ppw(k,ri)
UPW(k,n) são as estimativas da pressão velocidade de partícula correspondentes às ondas planas, ou seja somente as medidas de campo de onda.
Estas podem ser definidas como
Ρρ^,η) = ^Ppw(k,n), i—1 (13) (k, ri) = a(i) (k, ri) P(í) (k,n), (14)
Petição 870190114062, de 07/11/2019, pág. 39/56
31/37
ÚPW(k,n) = ^Ú^k,n) , i—1 (15) ύρ„ (k,n) = —— βΜ (k, rí) Pw (k,n) εβ (k,rí) .
Poc (16) [0097] Os fatores e β^ΙΕ,η) são, de modo geral, dependentes da frequência e podem apresentar uma proporcionalidade inversa à difusão Ψω(&,/7) . De fato, quando a difusão Ψω(&,/7) está próxima de 0, pode-se assumir que o campo é composto de uma única onda plana, de modo que
Ppw(k,n)~ P(k,ri) e (17) (k,rí) « —Ρ%η) e^0A(k,n) ,
P<P (18) [0098] implicando que (k,n) = β^ (k,n) = 1 .
[0099] A seguir, duas configurações serão apresentadas, as quais determinam cE\k,n) e β^ίβ-,η) . Primeiro, considerações energéticas dos campos difusos são consideradas. Em certas configurações, o estimador 120 pode ser adaptado para determinar os fatores CK(l)(k,n) e fi(l)(k,rí) com base nos campos difusos. As configurações podem assumir que o campo é composto de uma onda plana somada a um campo difuso ideal. Em certas configurações, o estimador 120 pode ser adaptado para determinar aP\k,rí) e β^ίβ-,η) de acordo com
Petição 870190114062, de 07/11/2019, pág. 40/56
32/37 cAfkiri) — fi(l\k,ri) β'' (k,n) = 71-^W (A «) ' (19) [0100] definindo-se a densidade do ar ρϋ igual a 1, e reduzindo a dependência funcional (k,ti) para simplificar, pode ser escrito Ψα·> = τ__ι < Ιρ(/) I2 > +2c2 <Ε >
^diff 't (20) [0101] Em certas configurações, o processador 130 pode ser adaptado para aproximação dos campos difusos com base em suas propriedades estatísticas, uma aproximação pode ser obtida por <l«l2>,+2^<t,#>,=<|í,T>, (21) [0102] onde Ediff é a energia do campo difuso. As configurações podem então estimar
(22) [0103] Para computar estimativas instantâneas (por exemplo, para cada tile de tempo-frequência), as configurações podem remover os operadores de expectativa, obtendo
P® (k,ri) = ^l-lP(i)(k,n)P(i)(k,n) .
(23) [0104] Explorando a suposição de onda plana, a estimativa para a velocidade de partícula pode ser derivada diretamente
Petição 870190114062, de 07/11/2019, pág. 41/56
33/37 ϋ^Οί,ή) ^-P^(k,rí)-e^\k,n).
cPo (24) [0105] Em certas configurações, um modelamento simplificado da velocidade de partícula pode ser aplicado. Em certas configurações, o estimador 120 pode ser adaptado para aproximação dos fatores a7‘\k,ri) e fl(‘\k,n) com base no modelamento simplificado. As configurações podem utilizar uma solução alternativa, que pode ser derivada pela introdução de um modelamento simplificado da velocidade de partícula a(l\k,ri) = 1 /?w(£,zi) =
1-^’ (k,n) (25) [0106] Uma derivação é dada a seguir. A velocidade de partícula
L/w tk,n) é modelada como p(<)
L/(l)(^,/i) = p\k,n)---e^(k,n) .
(26) [0107] O fator P(l\k,ri) pode ser obtido substituindo-se (26) em (5), levando a
Ψ(ί) (k,n) = l1
Poc < (k, n) Pw (k, )| εβ (k, n) >t
(27) [0108] Para obter valores instantâneos, os operadores de expectativa podem ser removidos e solucionados para
Petição 870190114062, de 07/11/2019, pág. 42/56
34/37 obtendo
1-^1-(1(Μ))2
Ι-Ψ^,η) (28) [0109] Observe que essa abordagem leva a direções de chegada similares de som como aquelas mostradas em (19), no entanto, com uma menor complexidade computacional uma vez que o fator é unitário.
[0110] Em certas configurações, o processador 130 pode ser adaptado para estimar a difusão, ou seja, para estimar o parâmetro de difusão mesclado. A difusão do fluxo mesclado, denotada por pode ser estimada diretamente a partir de quantidades conhecidas e P(l\k,ri) e a partir das estimativas Ia(k,rí), obtidas conforme descrito acima. Seguindo as considerações energéticas introduzidas na seção anterior, as configurações podem utilizar o estimador <Ía(k,n) >t < \\ía(k,n)\\ + (k,tí)· (k,n)\2 >t (29) [0111] O conhecimento de Pp^, e Úp^, permite o uso das representações alternativas dadas na equação (b) em certas configurações. De fato, a direção da onda pode ser obtida por Úp^, , ao passo que Pp^, proporciona a amplitude e a fase da iésima onda. A partir desta última, todas as diferenças de fase Δ7) podem ser facilmente computadas. Os parâmetros da DirAC do fluxo
Petição 870190114062, de 07/11/2019, pág. 43/56
35/37 mesclado podem ser então computados substituindo-se a equação (b) na equação (a), (3) e (5) .
[0112] A Figura 6 ilustra uma configuração de um método para mesclar dois ou mais fluxos DirAC. As configurações podem prover um método para mesclar um primeiro fluxo de áudio espacial com um segundo fluxo de áudio espacial para obter um fluxo de áudio mesclado. Em certas configurações, o método pode compreender uma etapa de determinação, para o primeiro fluxo de áudio espacial, de uma primeira representação de áudio e uma primeira DOA, bem como, para o segundo fluxo de áudio espacial, uma segunda representação de áudio e uma segunda DOA. Em certas configurações, as representações DirAC dos fluxos de áudio espacial podem estar disponíveis, a etapa de determinação então simplesmente lê as representações correspondentes a partir dos fluxos de áudio. Na Figura 6, supõe-se que os dois ou mais fluxos DirAC podem ser simplesmente obtidos a partir dos fluxos de áudio de acordo com a etapa 610.
[0113] Em certas configurações, o método pode compreender uma etapa de estimativa de uma primeira representação de onda compreendendo uma primeira medida de direção de onda e uma primeira medida de campo de onda para o primeiro fluxo de áudio espacial com base na primeira representação de áudio, a primeira DOA e opcionalmente um primeiro parâmetro de difusão. Assim, o método pode compreender uma etapa de estimativa de uma segunda representação de onda compreendendo uma segunda medida de direção de onda e uma segunda medida de campo de onda para o segundo fluxo de áudio espacial com base na segunda representação de áudio, a segunda DOA e opcionalmente um segundo parâmetro de difusão.
Petição 870190114062, de 07/11/2019, pág. 44/56
36/37 [0114] O método pode compreender ainda uma etapa de combinação da primeira representação de onda e da segunda representação de onda para obter uma representação de onda mesclada compreendendo uma medida de campo mesclado e uma medida DOA mesclada e uma etapa de combinação da primeira representação de áudio e da segunda representação de áudio para obter uma representação de áudio mesclada, que é indicada na Figura 6 pela etapa 620 para canais de áudio mono. A configuração ilustrada na Figura 6 compreende uma etapa de computação de (X(l\k,n) e fl(‘\k,ri) de acordo com (19) e (25), permitindo a estimativa dos vetores de pressão e velocidade de partícula para as representações de onda plana na etapa 640. Em outras palavras, as etapas de estimativa da primeira e segunda representações de onda plana são realizadas nas etapas 630 e 640 na Figura 6 em termos de representações de onda plana.
[0115] A etapa de combinação da primeira e segunda representações de onda plana é realizada na etapa 650, onde os vetores de pressão e velocidade de partícula de todos os fluxos podem ser somados.
[0116] Na etapa 660 da Figura 6, a computação do vetor de intensidade ativa e a estimativa da DOA são realizadas com base na representação de onda plana mesclada.
[0117] As configurações podem compreender uma etapa de combinação ou processamento da medida de campo mesclado, a primeira e segunda representações mono e o primeiro e segundo parâmetros de difusão para obter um parâmetro de difusão mesclado. Na configuração ilustrada na Figura 6, a computação da difusão é realizada na etapa 670, por exemplo, com base em (29).
[0118] As configurações podem oferecer a vantagem de que a mesclagem de fluxos de áudio espacial pode ser realizada com alta
Petição 870190114062, de 07/11/2019, pág. 45/56
37/37 qualidade e moderada complexidade.
[0119] Dependendo de determinadas exigências de implementação dos métodos da invenção, os referidos métodos podem ser implementados em hardware ou software. A implementação pode ser realizada utilizando-se um meio de armazenamento digital e, particularmente, uma memória flash, um disco, um DVD ou um CD tendo sinais de controle legíveis eletronicamente neles armazenados, que cooperam com um sistema de computador programável, de modo que os métodos da invenção sejam realizados. De modo geral, a presente invenção é, portanto, um código de programa de computador com um código de programa armazenado em um meio legivel por máquina, sendo o código de programa operacional para realizar os métodos da invenção quando o programa de computador é executado em um computador ou processador. Em outras palavras, os métodos da invenção são, portanto, um programa de computador tendo um código de programa para realizar pelo menos um dos métodos da invenção, quando o programa de computador é executado em um computador.
Petição 870190114062, de 07/11/2019, pág. 46/56

Claims (15)

  1. REIVINDICAÇÕES
    1. EQUIPAMENTO PARA MESCLAR FLUXOS DE ÁUDIO ESPACIAL, onde o equipamento (100) mescla um. primeiro fluxo de áudio espacial com um segundo fluxo de áudio espacial para obter um. fluxo de áudio mesclado, caracterizado por compreender:
    um estimador (120) para estimar uma primeira representação de onda compreendendo uma primeira medida de direção de onda ( ) sendo uma quantidade direcional de uma primeira onda e uma primeira medida de campo de onda (Ppy ) estando relacionada a uma magnitude da primeira onda para o primeiro fluxo de áudio espacial, o primeiro fluxo de áudio espacial tendo uma primeira representação de áudio compreendendo uma medida para uma pressão de uma magnitude de um primeiro sinal de áudio (P<J )) e uma primeira direção de chegada () , e para estimar uma segunda representação de onda compreendendo uma segunda medida de direção de onda sendo uma quantidade direcional de uma segunda onda ( ) e uma segunda medida de campo de onda ( Pp/ ) estando relacionada a uma. magnitude da segunda onda para o segundo fluxo de áudio espacial, o segundo fluxo de áudio espacial, tendo uma segunda
    representação de áudio compreendendo uma medida para uma, pressão ou uma magnitude de um segundo sinal de áudio e uma segunda direção de chegac ia ( ; e
    um processador (130) para processamento da primeira representação de onda e da segunda representação de onda para obter uma representação de onda mesclada compreendendo uma medida de campo de onda mesclada (Ia ), uma medida de direção de
    Petição 870190114062, de 07/11/2019, pág. 47/56 chegada mesclada (êfl0A ) e um parâmetro de difusão mesclado (Ψ), onde o parâmetro de difusão mesclado é baseado na medida de campo de onda mesclada (la ) , na primeira representação de áudio (P!l)) e na segunda representação de áudio (P!2)), e onde a medida de campo de onda mesclada (/J baseada na primeira medida de campo de onda, na segunda medida de campo de onda, na primeira medida de direção de onda (Ú^, ) , e na segunda medida de direção de onda (11)/(), e onde o processador (130) é configurado para processamento da primeira representação de áudio (P'1;) e da segunda representação de áudio (P'2;) para obter uma representação de áudio mesclada (P) , e para prover o fluxo de áudio mesclado compreendendo a representação de áudio mesclada (P) , a medida de direção de chegada mesclada (èDOA ) e o parâmetro de difusão mesclado (Ψ).
  2. 2. Equipamento (100), de acordo com a reivindicação 1, caracterizado pelo fato de que o estimador (12 0) é adaptado para estimar a primeira medida de campo de onda em termos de uma primeira amplitude de campo de onda e para estimar a segunda medida de campo de onda em termos de uma segunda amplitude de campo de onda, e para estimar uma diferença de fase entre a primeira medida de campo de onda e a segunda medida de campo de onda, e/ou para estimar uma primeira fase de campo de onda e uma segunda fase de campo de onda.
  3. 3. Equipamento, de acordo com qualquer uma das reivindicações de 1 a 2, caracterizado por compreender um meio
    Petição 870190114062, de 07/11/2019, pág. 48/56 (110) para determinar, para o primeiro fluxo de áudio espacial, a primeira representação de áudio, a primeira medida de direção de chegada e o primeiro parâmetro de difusão, e para determinar, para o segundo fluxo de áudio espacial, a segunda representação de áudio, a segunda medida de direção de chegada e o segundo parâmetro de difusão.
  4. 4. Equipamento, de acordo com qualquer uma das reivindicações de 1 a 3, caracterizado pelo fato de que o processador (130) é adaptado para determinar a representação de áudio mesclada, a medida de direção de chegada mesclada e o parâmetro de difusão mesclado de uma forma dependente do tempofrequência.
  5. 5. Equipamento (100), de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo fato de que o estimador (120) é adaptado para estimar a primeira e/ou segunda representações de onda, e onde o processador (130) é adaptado para prover a representação de áudio mesclada em termos de um sinal de pressão p(í) ou um sinal de pressão transformado de tempofrequência P(k,n), onde k denota um índice de frequência e n denota um índice de tempo.
  6. 6. Equipamento (100), de acordo com a reivindicação 5, caracterizado pelo fato de que o processador (130) é adaptado para processamento das primeiras e segundas medidas de direções de chegada e/ou para prover a medida de direção de chegada mesclada em termos de um vetor unitário eD0A(k,n) , c om ^οοΑ^,η) = --e,(k,n) e
    Petição 870190114062, de 07/11/2019, pág. 49/56 la (k, ri) = ||Ia (k, h)|| · ei (k,n) onde P(k,n) é a pressão de fluxo mesclado e U(k,n)~ [t/J/c, n),U (k,n),U z (it, n)f denota o vetor de velocidade de partícula u(t)=- 7/z(í)|J transformado' de tempo-frequência do fluxo de áudio mesclado, onde Re{·} denota a parte real.
  7. 7. Equipamento (100), de acordo com. a reivindicação 6, caracterizado pelo fato de que o processador (130) é adaptado para processamento do primeiro e/ou segundo parâmetros de difusão e/ou para prover o parâmetro de difusão mesclado em termos de c<E(k,n) la(k,ri) = |Re{p(l,ri) U*(k,n)}
    velocidade de partícula u(t)= [wt(í),mv(í),mz(/)[ transformado de tempof requência, Re{·} denota a parte real, P(k,n) denotei um sinal de pressão transformado de tempo-frequência p(t) , onde k denota um índice de frequência e n denota um índice de tempo, c é a velocidade do som e E(k,n) — ™||l/(Ã:,n)|| 4---|P(fc.n)! denota a energia
    4 4/.?,.<· 1 de campo do som, onde p0 denota a densidade do ar e < >. denota uma média temporal.
    Petição 870190114062, de 07/11/2019, pág. 50/56
  8. 8. Equipamento (100), de acordo com reivindicação caracterizado pelo tato de que o estimador (12 0) é adaptado para estimar diversas N representações de onda P^(k,n) e representações de campo difuso P^(k,n) como aproximações para diversos N fluxos de áudio espacial P^fkm), com 1 < i < N , e onde o processador (130) é adaptado para determinar a medida de direção de chegada mesclada com base em uma. estimativa,
    Ia(k,n) f pJÁ./n-.y/p U.;/), í-1
    P^,(k,n) -a(í)(k,n)· P'l)(k,n),
    ÚPW(k,n) = f
    Ú^v(k,n) = —^—β'^ίΡ,η) P{Í>(,k,n) e(p0A(k,n),
    Ptfonde os números reais a('l\k,nY β(ι) (k,n)&{¢)...1} e
    UU. n) - k/, (>. n), Uy (k, n\Uz (k.n)f denotam um vetor de velocidade de partícula u(t) — \ux(t ),«„ (í), wz(í)]r transformado em tempo-f requência,
    Rc{} denota O. parte real, P(‘'’(k,n) denota Ui m sinal de pressão transformado de t empo- -f requência p(!,(í) , onde k denota um i ndice de frequência e n denot a um índice de tempo, N o número d· e fluxos de áudio es pac :i alz c é a velocidade do s om e p0 d Lenota a
    densidade do ar.
    Petição 870190114062, de 07/11/2019, pág. 51/56
  9. 9. Equipamento (100), de acordo com rei vi n di' é adapta' reivindi' (130) é <
    cação caracterizado pelo tato de do para determinar e
    - β''!(κ,η) β'ι) (k, n)-^l - (k, n)
  10. 10. Equipamento (100), cação 8, caracterizado pelo fato que o imador de acordo com de acordo (12 0) com. a de que o processador adaptado para determinar c/‘}(k,n) e β^'ί/,η) p l-ψ (km)
  11. 11. Equipamento (100), de acordo com qualquer uma das reiv processa·:
    difusão ’ indicações de 9 a 10, caracterizado pelo fato de que o lor (130) é adaptado para determinar o parâmetro de iescl ado por
    ΨΜ,η)^Ι--L---------------------i--------------------------— < |/. (k, n)\\ + V Ψω (km)· \P(l> (k.n{ >t
  12. 12. Equipamento (100), de acordo com a reivindi’ de áudii difusão ainda um calcular parâmetr;
    1, caracterizado pelo fato de que o primeiro fluxo espacial compreende ainda um. primeiro parâmetro de (Ψ(!·' ) , onde o segundo fluxo de áudio espacial compreende segundo parâmetro de difusão (Ψ' ) , e onde o processador (130) é configurado para ainda o parâmetro de difusão mesclado (Ψ) com base no primeiro o de difusão (Ψ'·1·' ) e no segundo parâmetro de difusão
    Petição 870190114062, de 07/11/2019, pág. 52/56
    Ί /9 ( Ψ(2) )
  13. 13. Método para mesclar um primeiro fluxo de áudio espacial com um segundo fluxo de áudio espacial para obt um. fluxo de áudio mesclado, caracterizado por compreender: estimativa de uma primeira representação de onda ίΓτ' ü compreendendo uma primeira medida de direção de onda ( U'w ) sendo a quantidade direcional de uma primeira onda e uma primeira medida de campo de onda {) estando relacionada a uma magnitude da primeira onda para o pr meiro fluxo de áudio espacial o primeiro fluxo de áudio espacial tendo compreendendo uma medida para uma primeira representação de áudio uma pressão ou uma magnitude de um primeiro sinal de áudio (Pu)) e uma primeira direção de chegada estimativa de uma segunda representação de onda compreendendo uma segunda medida de direção de onda ( ) sendo uma. quantidade direcional de uma segunda onda e uma segunda medida de campo de onda {ÍJ/ ) estando relacionada a uma magnitude da segunda onda para o segundo fluxo de áudio espacial, o segundo fluxo de áudio espacial tendo uma segunda representação de áudio compreendendo uma medida para uma pressão ou uma magnitude de um segundo sinal de áudio (P<z)) e uma segunda direção de chegada processamento da primeira representação de onda e da segunda representação de onda para obter uma representação de onda mesclada tendo uma medida de camoo de onda mesclada (I ) , uma.
    Petição 870190114062, de 07/11/2019, pág. 53/56
    Ei / 9 medida de direção de chegada mesclada (êD0A ) e um parâmetro de difusão mesclado (Ψ), onde o parâmetro de difusão mesclado (Ψ) é baseado na medida de campo de onda mesclada (Iri ) , na primeira representação de áudio (P<1)) e na segunda representação de áudio (P1'’), e onde a medida de campo de onda mesclada () é baseada na primeira medida de campo de onda, na segunda medida de campo de onda, na primeira medida de direção de onda ( Ü< ) , e na segunda
    Uv (2) medida de direção de onda ( V PW ) ;
    processamento da primeira representação de áudio (P!1)) e da segunda representação de áudio (Pu)) para obter uma representação de áudio mesclada (P); e provisão do fluxo de áudio mesclado compreendendo a representação de áudio mesclada (P) , uma medida de direção de chegada mesclada (êD04) e o parâmetro de difusão mesclado (Ψ ) .
  14. 14. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que o primeiro fluxo de áudio espacial compreende ainda um primeiro parâmetro de difusão { Ψ' ) , onde o segundo fluxo de áudio espacial compreende ainda um segundo parâmetro de difusão (Ψ1*”), e onde o parâmetro de difusão mesclado (Ψ) é calculado na etapa de processamento adiciona com base no primeiro parâmetro de difusão (Ψ111 e no segundo parâmetro de difusão.
    ( Ψ '2' )
  15. 15. Programa de computador, caracterizado por ser executado em um computador ou processador para realizar o métoda
    Petição 870190114062, de 07/11/2019, pág. 54/56
    9/9 de acordo com a reivindicação 14.
BRPI0912453-5A 2008-08-13 2009-08-11 equipamento para mesclar fluxos de áudio espacial BRPI0912453B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US8852008P 2008-08-13 2008-08-13
US61/088,520 2008-08-13
EP09001397A EP2154910A1 (en) 2008-08-13 2009-02-02 Apparatus for merging spatial audio streams
EP09001397.0 2009-02-02
PCT/EP2009/005827 WO2010017966A1 (en) 2008-08-13 2009-08-11 Apparatus for merging spatial audio streams

Publications (2)

Publication Number Publication Date
BRPI0912453A2 true BRPI0912453A2 (pt) 2019-11-19
BRPI0912453B1 BRPI0912453B1 (pt) 2020-12-01

Family

ID=40605771

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0912453-5A BRPI0912453B1 (pt) 2008-08-13 2009-08-11 equipamento para mesclar fluxos de áudio espacial

Country Status (15)

Country Link
US (1) US8712059B2 (pt)
EP (2) EP2154910A1 (pt)
JP (1) JP5490118B2 (pt)
KR (1) KR101235543B1 (pt)
CN (1) CN102138342B (pt)
AT (1) ATE546964T1 (pt)
AU (1) AU2009281355B2 (pt)
BR (1) BRPI0912453B1 (pt)
CA (1) CA2734096C (pt)
ES (1) ES2382986T3 (pt)
HK (1) HK1157986A1 (pt)
MX (1) MX2011001653A (pt)
PL (1) PL2324645T3 (pt)
RU (1) RU2504918C2 (pt)
WO (1) WO2010017966A1 (pt)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101415026B1 (ko) * 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
EP2375410B1 (en) * 2010-03-29 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal
US9055371B2 (en) 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
US9456289B2 (en) 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
RU2570359C2 (ru) 2010-12-03 2015-12-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Прием звука посредством выделения геометрической информации из оценок направления его поступления
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
CN104335599A (zh) 2012-04-05 2015-02-04 诺基亚公司 柔性的空间音频捕捉设备
BR122021021487B1 (pt) * 2012-09-12 2022-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d
EP2733965A1 (en) 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
US10635383B2 (en) 2013-04-04 2020-04-28 Nokia Technologies Oy Visual audio processing apparatus
US9706324B2 (en) 2013-05-17 2017-07-11 Nokia Technologies Oy Spatial object oriented audio apparatus
EP2824661A1 (en) * 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
US9693009B2 (en) 2014-09-12 2017-06-27 International Business Machines Corporation Sound source selection for aural interest
CN106716525B (zh) * 2014-09-25 2020-10-23 杜比实验室特许公司 下混音频信号中的声音对象插入
CA2999393C (en) 2016-03-15 2020-10-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method or computer program for generating a sound field description
GB2549532A (en) 2016-04-22 2017-10-25 Nokia Technologies Oy Merging audio signals with spatial metadata
US10820097B2 (en) 2016-09-29 2020-10-27 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
CA3134343A1 (en) * 2017-10-04 2019-04-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
EP3711047B1 (en) * 2017-11-17 2022-10-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions
GB2574238A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
SG11202007629UA (en) * 2018-07-02 2020-09-29 Dolby Laboratories Licensing Corp Methods and devices for encoding and/or decoding immersive audio signals
CN110517703B (zh) 2019-08-15 2021-12-07 北京小米移动软件有限公司 一种声音采集方法、装置及介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7231054B1 (en) * 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
AU2003285787A1 (en) 2002-12-28 2004-07-22 Samsung Electronics Co., Ltd. Method and apparatus for mixing audio stream and information storage medium
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
ATE430360T1 (de) 2004-03-01 2009-05-15 Dolby Lab Licensing Corp Mehrkanalige audiodekodierung
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
KR20060122692A (ko) * 2005-05-26 2006-11-30 엘지전자 주식회사 공간 정보 비트스트림이 임베드된 다운믹스 오디오 신호를인코딩 및 디코딩하는 방법
JP2009508560A (ja) * 2005-09-21 2009-03-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 遠隔に位置するマイクロフォンを使用して音声起動される制御を有する超音波イメージングシステム
JP2007269127A (ja) 2006-03-30 2007-10-18 Mitsubishi Fuso Truck & Bus Corp 後車軸の傾斜角調整構造および調整方法
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
ES2396072T3 (es) * 2006-07-07 2013-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para combinar múltiples fuentes de audio paramétricamente codificadas
EP2595149A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Apparatus for transcoding downmix signals
US8213623B2 (en) * 2007-01-12 2012-07-03 Illusonic Gmbh Method to generate an output audio signal from two or more input audio signals
JP2008184666A (ja) 2007-01-30 2008-08-14 Phyzchemix Corp 成膜装置
JPWO2009050896A1 (ja) * 2007-10-16 2011-02-24 パナソニック株式会社 ストリーム合成装置、復号装置、方法

Also Published As

Publication number Publication date
US20110216908A1 (en) 2011-09-08
ATE546964T1 (de) 2012-03-15
JP2011530720A (ja) 2011-12-22
AU2009281355A1 (en) 2010-02-18
AU2009281355B2 (en) 2014-01-16
EP2324645A1 (en) 2011-05-25
EP2324645B1 (en) 2012-02-22
RU2011106582A (ru) 2012-08-27
EP2154910A1 (en) 2010-02-17
JP5490118B2 (ja) 2014-05-14
WO2010017966A1 (en) 2010-02-18
HK1157986A1 (en) 2012-07-06
CA2734096A1 (en) 2010-02-18
MX2011001653A (es) 2011-03-02
KR101235543B1 (ko) 2013-02-21
CN102138342A (zh) 2011-07-27
KR20110055622A (ko) 2011-05-25
BRPI0912453B1 (pt) 2020-12-01
CN102138342B (zh) 2014-03-12
US8712059B2 (en) 2014-04-29
ES2382986T3 (es) 2012-06-15
PL2324645T3 (pl) 2012-07-31
RU2504918C2 (ru) 2014-01-20
CA2734096C (en) 2015-12-01

Similar Documents

Publication Publication Date Title
BRPI0912453A2 (pt) equipamento para mesclar fluxos de áudio espacial
ES2523793T3 (es) Aparato para determinar una señal de audio espacial convertida
RU2491657C2 (ru) Способы и устройства для эффективного использования поэтапно передаваемой информации в кодировании и декодировании звука
ES2682073T3 (es) Codificación conjunta paramétrica de fuentes de audio
ES2461601T3 (es) Procedimiento y aparato para generar una señal de audio binaural
BRPI0515623B1 (pt) Dispositivo e método para a geração de um sinal multicanais codificado e dispositivo e método para a decodificação de um sinal multicanais codificado
BRPI0707969B1 (pt) codificador de áudio, decodificador de áudio, método de codificação de áudio, receptor para receber um sinal de áudio, transmissor, método para transmitir um fluxo de dados de saída de áudio, e produto de programa de computador
PT1829026T (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial
KR20090053958A (ko) 멀티 채널 파라미터 변환 장치 및 방법
BRPI0913460B1 (pt) Aparelho e método para prover um conjunto de indicadores espaciais na base de um sinal de microfone e aparelho para prover um sinal de áudio de dois canais e um conjunto de indicadores espaciais
BRPI0613734B1 (pt) decodificador, método e receptor para gerar um sinal de áudio de multi-canais, unidade legível por computador, sistema de transmissão, método para transmitir e receber um sinal de áudio, e, dispositivo de reprodução de áudio
BR112015018522B1 (pt) Método, aparelho e meio não transitório que tem um método armazenado no mesmo para controlar a coerência entre canais de sinais de áudio com upmix.
BRPI0518507B1 (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 01/12/2020, OBSERVADAS AS CONDICOES LEGAIS.