BR112014013336B1 - Aparelho e método para combinar fluxos de codificação de áudio espacial com base em geometria - Google Patents

Aparelho e método para combinar fluxos de codificação de áudio espacial com base em geometria Download PDF

Info

Publication number
BR112014013336B1
BR112014013336B1 BR112014013336-0A BR112014013336A BR112014013336B1 BR 112014013336 B1 BR112014013336 B1 BR 112014013336B1 BR 112014013336 A BR112014013336 A BR 112014013336A BR 112014013336 B1 BR112014013336 B1 BR 112014013336B1
Authority
BR
Brazil
Prior art keywords
audio data
data streams
sound
value
layer
Prior art date
Application number
BR112014013336-0A
Other languages
English (en)
Other versions
BR112014013336A2 (pt
Inventor
Giovanni Del Galdo
Thiergart Oliver
Herre Jürgen
Küch Fabian
Habets Emanuel
Craciun Alexandra
Kuntz Achim
Original Assignee
Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. filed Critical Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V.
Publication of BR112014013336A2 publication Critical patent/BR112014013336A2/pt
Publication of BR112014013336B1 publication Critical patent/BR112014013336B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

aparelho e método para combinar fluxos de codificação de áudio espacial com base em geometria. um aparelho para gerar um fluxo de dados de áudio combinado é fornecido. o aparelho compreende um demultiplexador (180) para obter uma pluralidade de fluxos de dados de áudio de camada única, caracterizado pelo demultiplexador (180) ser adaptado para receber um ou mais fluxos de dados de áudio de entrada, em que cada fluxo de dados de áudio de entrada compreende uma ou mais camadas, em que o demultiplexador (180) é adaptado para demultiplexar cada um dos fluxos de dados de áudio de entrada tendo uma ou mais camadas nos dois ou mais fluxos de dados de áudio demultiplexados tendo exatamente uma camada, de modo que os dois ou mais fluxos de dados de áudio demultiplexados juntos compreendam uma ou mais camadas do fluxo de dados de áudio de entrada. além disso, o aparelho compreende um módulo de combinação (190) para gerar o fluxo de dados de áudio combinado, tendo uma ou mais camadas, com base na pluralidade dos fluxos de dados de áudio de camada única. cada camada dos fluxos de áudio de dados de entrada, dos fluxos de dados de áudio demultiplexados, dos fluxos de dados de camada única e do fluxo de dados de áudio combinado compreende um valor de pressão de um sinal de pressão, um valor de posição e um valor de difusão as dados de áudio.

Description

DESCRIÇÃO
[0001] A presente invenção refere-se ao processamento de áudio e, em particular, a um aparelho e um método para gerar um fluxo de dados de áudio combinado é fornecido.
[0002] O processamento de áudio e, em particular, a codificação de áudio espacial se torna cada vez mais importante. A gravação de som espacial tradicional tem o objetivo de capturar um campo de som, de modo que no lado da reprodução um ouvinte percebe a imagem do som como se estivesse no local da gravação. Diferentes abordagens para a gravação de som espacial e técnicas de reprodução são conhecidas a partir do estado da técnica, que pode ser baseado nas representações por canal, objeto ou paramétricas.
[0003] Representações com base em canal representam a cena de som por meios de sinais de áudio discretos N a ser reproduzidos por alto-falantes dispostos em uma configuração conhecida, por exemplo, uma configuração de som surround 5.1. A abordagem para a gravação de som espacial geralmente emprega microfones omnidirecionais espaçados, por exemplo, em estereofonia AB, ou microfones direcionais coincidentes, por exemplo, na estereofonia de intensidade. De modo alternativo, mais microfones sofisticados, como um microfone em formato B, podem ser empregados, por exemplo, em Ambisonics, vide:
[0004] [1] Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859-871, 1985.
[0005] Os sinais de alto-falante desejados para a configuração conhecida são derivados diretamente dos sinais de microfone gravados e são então transmitidos ou armazenados discretamente. Uma representação mais eficiente é obtida aplicando a codificação de áudio aos sinais discretos, que em alguns casos, codifica a informação dos diferentes canais conjuntamente para a eficiência aumentada, por exemplo, em MPEG-Surround para 5.1, vide:
[0006] [21] J. Herre, K. Kjõrling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Rõdén, W. Oomen, K. Linzmeier, K.S. Chong: "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", 122nd AES Convention, Vienna, Austria, 2007, Preprint 7084.
[0007] Uma desvantagem importante destas técnicas é que a cena de som, uma vez que os sinais do alto-falante foram computados, não pode ser modificada.
[0008] As representações com base no objeto são, por exemplo, utilizadas na Codificação de Objeto de Áudio Espacial (SAOC I Spatial Audio Objeto Coding) , vide
[0009] [25] Jeroen Breebaart, Jonas Engdegârd, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Jeroens Koppens, Werner Oomen, Barbara Resch, Erik Schuijers, and Leonid Terentiev. Spatial audio object coding (saoc) - the upcoming mpeg standard on parametric object based audio coding. In Audio Engineering Society Convention 124, 5 2008.
[00010] As representações com base no objeto representam a cena de som com N objetos de áudio discretos. Esta representação fornece alta flexibilidade no lado da reprodução, visto que a cena de som pode ser manipulada mudando, por exemplo, a posição e ruido de cada objeto. Embora esta representação possa estar rapidamente disponível a partir de, por exemplo, uma gravação multipista, é muito difícil de ser obtida a partir de uma cena complexa de som gravada com alguns microfones (vide, por exemplo, [21]). De fato, os transmissores (ou outros objetos que emitem som) devem ser primeiro localizados e, então, extraídos da mistura, que pode causar interferências.
[00011] Representações paramétricas geralmente empregam microfones espaciais para determinar um ou mais sinais downmix de áudio juntos com a informação lateral descrevendo o som espacial. Um exemplo é a Codificação de Áudio Direcional (DirAC | Directional Audio Coding) , conforme discutido em
[00012] [29] Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503-516, June 2007.
[00013] O termo "microfone espacial" refere-se a qualquer aparelho para a aquisição de som espacial capaz de recuperar a direção da chegada do som (por exemplo, combinação de microfones direcionais, matrizes de microfone, etc.).
[00014] O termo "microfone não espacial" refere-se a qualquer aparelho que não é adaptado para recuperar a direção da chegada do som, como um único microfone omnidirecional ou diretivo.
[00015] Outro exemplo é proposto em:
[00016] [4] C. Faller. Microphone front-ends for spatial audio coders. In Proc, of the AES 125th International Convention, San Francisco, Oct. 2008.
[00017] Em DirAC, a informação de sugestão espacial compreende a direção de chegada (DOA | direction of arrival) de som e a difusão do campo de som calculado em um domínio de tempo- frequência. Para a reprodução de som, os sinais de reprodução de áudio podem ser derivados com base na descrição paramétrica. Estas técnicas oferecem ótima flexibilidade no lado da reprodução, pois uma configuração do alto-falante arbitrário pode ser em pregada, pois a representação é particularmente flexível e compacta, e compreende um sinal monoáudio de downmix e informação lateral, e porque permite fáceis modificações na cena de som, por exemplo, zoom acústico, filtragem direcional, combinação de cena, etc.
[00018] Entretanto, estas técnicas ainda são limitadas pelo fato de que a imagem espacial gravada é sempre relativa ao microfone espacial utilizado. Assim, o ponto de vista acústico não pode ser variado e a posição de audição dentro da cena de som não pode ser mudada.
[00019] Uma abordagem do microfone virtual é apresentada em
[00020] [22] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA'll), Edinburgh, United Kingdom, May 2011.
[00021] que permite calcular os sinais de saída de urn microfone espacial arbitrário virtualmente colocado à disposição (ou seja, posição arbitrária e orientação) no ambiente. A flexibilidade que caracteriza a abordagem do microfone virtual (VM I virtual microphone) permite que a cena de som seja virtualmente capturada em uma etapa pós-processamento, mas nenhuma representação do campo de som se torna disponível, que pode ser utilizada para transmitir e/ou armazenar e/ou modificar a cena de som eficientemente. Ainda apenas uma fonte por posição de tempo- frequência é assumida como ativa, e assim, não pode descrever corretamente a cena de som se duas ou mais fontes são ativas na mesma posição de tempo-frequência. Ainda, se o microfone virtual (VM) é aplicado no lado do receptor, todos os sinais do microfone precisam ser enviados sobre o canal, que torna a representação ineficiente, em que se o VM é aplicado no lado do transmissor, a cena de som não pode ser mais manipulada e o modelo perde a flexibilidade e se torna limitado em uma determinada configuração do alto-falante. Ainda, não considera uma manipulação da cena de som com base na informação paramétrica.
[00022] Em
[00023] [24] Emmanuel Gallo and Nicolas Tsingos. Extracting and re-rendering structured auditory scenes from field recordings. In AES 30th International Conference on Intelligent Audio Environments, 2007,
[00024] a estimativa da posição de fonte sonora é com base na diferença de tempo em pares da chegada medida por meios de microfones distribuídos. Ainda, o receptor é dependente da gravação e exige que todos os sinais do microfone para a sintese (por exemplo, a geração dos sinais do alto-falante) .
[00025] O método apresentado em
[00026] [28] Svein Berge, Device and method for converting spatial audio signal. US patent application, Appl. No. 10/547,151,
[00027] utiliza, semelhantemente à DirAC, a direção de chegada como um parâmetro, limitando, assim, a representação a um ponto de vista da cena de som específico. Ainda, não propõe a possibilidade de transmitir/armazenar a representação da cena de som, visto que a análise e síntese precisam ser aplicadas no mesmo lado do sistema de comunicação.
[00028] Outro exemplo pode ser aplicações de videoconferência, em que as partes que estão sendo gravadas em diferentes ambientes precisam ser reproduzidas em uma única cena de som. Uma Unidade de Controle Multiponto (MCU I Multipoint Control Unit) deve ter certeza que uma única cena de som é reproduzida.
[00029] Em
[00030] [22] G. Del Galdo, F.Kuech, M. Kallinger, and R. Schultz-Amling. Efficient merging of multiple audio streams for spatial sound reproduction in directional audio coding. In International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2009), 2009
[00031] e em
[00032] [23] US 20110216908: Apparatus for Merging Spatial Audio Streams
[00033] a ideia de combinar duas ou mais representações paramétricas de uma cena de som foi proposta.
[00034] Entretanto, seria altamente benéfico se conceitos fossem fornecidos para criar uma única cena de som de duas ou mais representações das cenas de som em uma forma eficiente, suficientemente flexível para modificar a cena de som.
[00035] O objetivo da presente invenção é fornecer conceitos melhorados para gerar um fluxo de dados de áudio combinado, por exemplo, um fluxo GAC. O objetivo da presente invenção é solucionado por um aparelho de acordo com a reivindicação 1, por um método, de acordo com a reivindicação 17 e por um programa de computador, de acordo com a reivindicação 18.
[00036] De acordo com uma aplicação, um aparelho para gerar um fluxo de dados de áudio combinado é fornecido. O aparelho compreende um demultiplexador para obter uma pluralidade de fluxos de dados de áudio de camada única, em que o demultiplexador é adaptado para receber um ou mais fluxos de dados de áudio de entrada, em que cada fluxo de dados de áudio de entrada compreende uma ou mais camadas, em que o demultiplexador é adaptado para demultiplexar cada um dos fluxos de dados de áudio de entrada tendo uma ou mais camadas em dois ou mais fluxos de dados de áudio demultiplexados tendo exatamente uma camada, de modo que um ou mais fluxos de dados de áudio demultiplexados juntos compreendam uma ou mais camadas dos fluxos de dados de áudio de entrada, fornecendo dois ou mais dos fluxos de dados de áudio de camada única. Ainda, o aparelho compreende um módulo de combinação para gerar o fluxo de dados de áudio combinado, tendo uma ou mais camadas, com base na pluralidade de fluxos de dados de áudio de camada única, por exemplo, com base na pluralidade de fluxos de dados de áudio de camada única demultiplexados. Cada camada dos fluxos de áudio de dados de entrada, dos fluxos de dados de áudio demultiplexados, dos fluxos de dados de camada única e do fluxo de dados de áudio combinado compreende um valor de pressão de um sinal de pressão, um valor de posição e um valor de difusão as dados de áudio.
[00037] Em outra aplicação, o aparelho pode compreender um demultiplexador para obter uma pluralidade de fluxos de dados de áudio de camada única, em que o demultiplexador é adaptado para receber dois ou mais fluxos de dados de áudio de entrada, em que cada fluxo de dados de áudio de entrada compreende uma ou mais camadas, em que o demultiplexador é adaptado para demultiplexar cada um dos fluxos de dados de áudio de entrada tendo duas ou mais camadas em dois ou mais fluxos de dados de áudio demultiplexados tendo exatamente uma camada, de modo que os dois ou mais fluxos de dados de áudio demultiplexados juntos compreendam as duas ou mais camadas dos fluxos de dados de áudio de entrada, para obter dois ou mais dos fluxos de dados de áudio de camada única. Ainda, o aparelho pode compreender um módulo de combinação para gerar o fluxo de dados de áudio combinado, tendo uma ou mais camadas, com base na pluralidade de fluxos de dados de áudio de camada única.
[00038] Em uma aplicação, o aparelho pode ser adaptado para inserir um ou mais fluxos de dados de áudio de entrada recebidos tendo exatamente uma camada diretamente no módulo de combinação sem inseri-los ao demultiplexador.
[00039] Cada camada dos fluxos de áudio de dados de entrada, dos fluxos de dados de áudio demultiplexados, dos fluxos de dados de camada única e do fluxo de dados de áudio combinado compreende um valor de pressão de um sinal de pressão, um valor de posição e um valor de difusão as dados de áudio, os dados de áudio sendo definidos para uma posição de tempo-frequência de uma pluralidade de posições de tempo-frequência.
[00040] De acordo com esta aplicação, duas ou mais cenas de som gravadas são combinadas em uma por meios de combinação de dois ou mais fluxo de dados de áudios, por exemplo, fluxos GAC, e pela emissão de um único fluxo de dados de áudio, por exemplo, um único fluxo GAC.
[00041] Combinação das cenas de som podem ser utilizadas, por exemplo, em aplicações de videoconferência, nas quais partes sendo gravadas em diferentes ambientes precisam ser reproduzidas em uma única cena de som. A combinação pode, então, ocorrer em uma Unidade de Controle Multiponto (MCU | Multipoint Control Unit) , para reduzir o tráfego de rede ou, nos usuários finais, para reduzir o custo computacional da sintese (por exemplo, a computação dos sinais do alto-falante).
[00042] Em uma aplicação, o módulo de combinação pode compreender um módulo de função de custo para atribuir um valor de custo a cada um dos fluxos de dados de áudio de camada única, e em que o módulo de combinação pode ser adaptado para gerar o fluxo de dados de áudio combinado com base nos valores de custo atribuídos aos fluxos de dados de áudio de camada única.
[00043] De acordo com outra aplicação, o módulo de função de custo pode ser adaptado para atribuir o valor de custo a cada um dos fluxos de dados de áudio de camada única dependendo de pelo menos um dos valores de pressão ou dos valores de difusão do fluxo de dados de áudio de camada única.
[00044] Em outra aplicação, o módulo de função de custo pode ser adaptado para atribuir um valor de custo a cada fluxo de dados de áudio do grupo de fluxos de dados de áudio de camada única, aplicando a fórmula:
Figure img0001
[00045] caracterizado por P± ser o valor de pressão e Φi ser o valor de difusão da camada de um fluxo de dados de áudio i- th do grupo de fluxos de dados de áudio de camada única, por exemplo, para cada posição de tempo-frequência.
[00046] De acordo com outra aplicação, o módulo de combinação pode, ainda, compreender uma unidade de combinação de pressão, em que a unidade de combinação de pressão pode ser adaptada para determinar um primeiro grupo compreendendo um ou mais fluxos de dados de áudio de camada única da pluralidade de fluxos de dados de áudio de camada única e para determinar um segundo grupo compreendendo um ou mais diferentes fluxos de dados de áudio de camada única da pluralidade de fluxos de dados de áudio de camada única, em que o valor de custo de cada um dos fluxos de dados de áudio de camada única do primeiro grupo pode ser maior do que o valor de custo de cada um dos fluxos de dados de áudio de camada única do segundo grupo, ou em que o valor de custo de cada um dos fluxos de dados de áudio de camada única do primeiro grupo pode ser menor do que o valor de custo de cada um dos fluxos de dados de áudio de camada única do segundo grupo, em que a unidade de combinação de pressão pode ser adaptada para gerar um ou mais valores de pressão de uma ou mais camadas do fluxo de dados de áudio combinado, de modo que cada valor de pressão de cada um dos fluxos de dados de áudio de camada única do primeiro grupo pode ser um valor de pressão de uma das camadas do fluxo de dados de áudio combinado, e de modo que uma combinação do valores de pressão dos fluxos de dados de áudio de camada única do segundo grupo pode ser um valor de pressão de uma das camadas do fluxo de dados de áudio combinado.
[00047] Em outra aplicação, o módulo de combinação pode, ainda, compreender uma unidade de combinação de difusão, em que a unidade de combinação de difusão pode ser adaptada para determinar um terceiro grupo compreendendo um ou mais fluxos de dados de áudio de camada única da pluralidade de fluxos de dados de áudio de camada única e para determinar um quarto grupo compreendendo um ou mais diferentes fluxos de dados de áudio de camada única da pluralidade de fluxos de dados de áudio de camada única. 0 valor de custo de cada um dos fluxos de dados de áudio de camada única do terceiro grupo pode ser maior do que o valor de custo de cada um dos fluxos de dados de áudio de camada única do quarto grupo, ou em que o valor de custo de cada um dos fluxos de dados de áudio de camada única do terceiro grupo pode ser menor do que o valor de custo de cada um dos fluxos de dados de áudio de camada única do quarto grupo, em que a unidade de combinação de difusão pode ser adaptada para gerar um ou mais valores de difusão de uma ou mais camadas do fluxo de dados de áudio combinado, de modo que cada valor de difusão de cada um dos fluxos de dados de áudio de camada única do terceiro grupo possa ser um valor de difusão de uma das camadas do fluxo de dados de áudio combinado, e de modo que uma combinação dos valores de difusão dos fluxos de dados de áudio de camada única do quarto grupo possa ser um valor de difusão de uma das camadas do fluxo de dados de áudio combinado.
[00048] De acordo com outra aplicação, o módulo de combinação pode, ainda, compreender uma unidade de mistura de posição (1403), em que a unidade de mistura de posição (1403) pode ser adaptada para determinar um quinto grupo compreendendo um ou mais fluxos de dados de áudio de camada única da pluralidade de fluxos de dados de áudio de camada única, em que o valor de custo de cada um dos fluxos de dados de áudio de camada única do quinto grupo pode ser maior do que o valor de custo de qualquer fluxo de dados de áudio de camada única não compreendido no quinto grupo da pluralidade de fluxos de dados de áudio de camada única, ou em que o valor de custo de cada um dos fluxos de dados de áudio de camada única do quinto grupo é menor do que o valor de custo de qualquer fluxo de dados de áudio de camada única não compreendido no quinto grupo da pluralidade de fluxos de dados de áudio de camada única. A unidade de mistura de posição (1403) pode ser adaptada para gerar um ou mais valores de posição de uma ou mais camadas do fluxo de dados de áudio combinado, de modo que cada valor de posição de cada um dos fluxos de dados de áudio de camada única do quinto grupo possa ser um valor de posição de uma das camadas do fluxo de dados de áudio combinado.
[00049] Em outra aplicação, o módulo de combinação pode, ainda, compreender um módulo de adaptação da cena sonora para manipular o valor de posição de um ou mais dos fluxos de dados de áudio de camada única da pluralidade de fluxos de dados de áudio de camada única.
[00050] De acordo com outra aplicação, o módulo de adaptação da cena sonora pode ser adaptado para manipular o valor de posição de um ou mais dos fluxos de dados de áudio de camada única da pluralidade de fluxos de dados de áudio de camada única aplicando uma rotação, uma tradução ou uma transformação não linear no valor de posição.
[00051] Em outra aplicação, o demultiplexador pode compreender uma pluralidade de unidades de demultiplexação, em que cada uma das unidades de demultiplexação pode ser configurada para demultiplexar um ou mais dos fluxos de dados de áudio de entrada.
[00052] De acordo com outra aplicação, o aparelho pode, ainda, compreender um gerador de fonte sonora artificial para gerar um fluxo de dados artificial compreendendo exatamente uma camada, em que o gerador de fonte artificial pode ser adaptado para receber informação de pressão sendo representada em um dominio de tempo e para receber uma informação de posição, em que o gerador de fonte artificial pode ser adaptado para replicar a informação de pressão para gerar informação de posição para uma pluralidade de posições de tempo-frequência, e em que o gerador de fonte artificial pode ainda ser adaptado para calcular a informação de difusão com base na informação de pressão.
[00053] Em outra aplicação, o gerador de fonte artificial pode ser adaptado para transformar a informação de pressão sendo representada em um dominio de tempo a um dominio de tempo- frequência .
[00054] De acordo com outra aplicação, o gerador de fonte artificial pode ser adaptado para adicionar a reverberação à informação de pressão.
[00055] Outra aplicação permite inserir uma fonte sonora artificial à cena de som. A inserção de uma fonte sonora artificial é particularmente útil na realidade virtual e aplicações como videogames, nas quais uma cena de som complexa pode ser multiplicada por fontes sintéticas. Em cenários de teleconferência a inserção é útil ao combinar as partes que se comunicam através de um monocanal, por exemplo, discando através de telefones.
[00056] Aplicações preferidas da presente invenção serão descritas a seguir, em que:
[00057] A Fig. 1 ilustra um aparelho para gerar um fluxo de dados de áudio combinado de acordo com uma aplicação,
[00058] A Fig. 2a ilustra um aparelho para gerar, pelo menos, um sinal de saida de áudio com base em um fluxo de dados de áudio compreendendo dados de áudio referentes a uma ou mais fontes sonoras de acordo com uma aplicação,
[00059] A Fig. 2b ilustra uma aparelho para gerar um fluxo de dados de áudio compreendendo dados de fonte sonora referentes a uma ou mais fontes sonoras de acordo com uma aplicação,
[00060] A Fig. 3a-3c ilustram fluxos de dados de áudio de acordo com diferentes aplicações,
[00061] A Fig. 4 ilustra um aparelho para gerar um fluxo de dados de áudio compreendendo dados de fonte sonora referentes a uma ou mais fontes sonoras de acordo com outra aplicação,
[00062] A Fig. 5 ilustra uma cena de som composta por duas fontes sonoras e duas matrizes de microfone lineares uniformes,
[00063] A Fig. 6a ilustra um aparelho 600 para gerar, pelo menos, um sinal de saida de áudio com base em um fluxo de dados de áudio de acordo com uma aplicação,
[00064] A Fig. 6b ilustra um aparelho 660 para gerar um fluxo de dados de áudio compreendendo dados de fonte sonora referentes a uma ou mais fontes sonoras de acordo com uma aplicação,
[00065] A Fig. 7 descreve um módulo de modificação de acordo com uma aplicação,
[00066] A Fig. 8 descreve um módulo de modificação de acordo com outra aplicação,
[00067] A Fig. 9 ilustra unidades do transmissor/análise e unidades do receptor/sintese de acordo com uma aplica ção,
[00068] A Fig. 10a descreve um módulo de sintese de acordo com uma aplicação,
[00069] A Fig. 10b descreve uma primeira unidade do estágio da sintese de acordo com uma aplicação,
[00070] A Fig. 10c descreve uma segunda unidade do estágio da sintese de acordo com uma aplicação,
[00071] A Fig. 11 descreve um módulo de sintese de acordo com outra aplicação,
[00072] A Fig. 12 ilustra um aparelho para gerar um sinal de saida de áudio de um microfone virtual de acordo com uma aplicação,
[00073] A Fig. 13 ilustra as entradas e saidas de um aparelho e um método para gerar um sinal de saida de áudio de um microfone virtual de acordo com uma aplicação,
[00074] A Fig. 14 ilustra a estrutura básica de um aparelho para gerar um sinal de saida de áudio de um microfone virtual de acordo com uma aplicação que compreende um avaliador de posição dos eventos de som e um módulo de computação de informação,
[00075] A Fig. 15 mostra um cenário exemplar no qual os microfones espaciais reais são descritos como Matrizes Lineares Uniformes de 3 microfones cada,
[00076] A Fig. 16 descreve dois microfones espaciais em 3D para estimar a direção de chegada no espaço 3D,
[00077] A Fig. 17 ilustra uma geometria onde uma fonte sonora do tipo ponto isotrópico da posição de tempo-frequência (k, n) atual está localizada em uma posição pIPLs (k, n) ,
[00078] A Fig. 18 descreve o módulo de computação de informação de acordo com uma aplicação,
[00079] A Fig. 19 descreve o módulo de computação de informação de acordo com outra aplicação,
[00080] A Fig. 20 mostra dois microfones espaciais reais, um evento de som localizado e a posição de um microfone espacial virtual,
[00081] A Fig. 21 ilustra como obter a direção de chegada com relação a um microfone virtual de acordo com uma aplicação,
[00082] A Fig. 22 descreve uma possível forma de derivar a DOA do som do ponto de vista do microfone virtual de acordo com uma aplicação,
[00083] A Fig. 23 ilustra um bloco de cálculo de informação compreendendo uma unidade de cálculo de difusão de acordo com uma aplicação,
[00084] A Fig. 24 descreve uma unidade de cálculo de difusão de acordo com uma aplicação,
[00085] A Fig. 25 ilustra um cenário, onde a estimativa da posição do eventos sonoros não é possível,
[00086] A Fig. 26 ilustra um aparelho para gerar um fluxo de dados virtuais do microfone de acordo com uma aplicação, e
[00087] A Fig. 27 ilustra um aparelho para gerar, pelo menos, um sinal de saída de áudio com base em um fluxo de dados de áudio de acordo com outra aplicação,
[00088] A Fig. 28 descreve as entradas e saídas de um aparelho para gerar um fluxo de dados de áudio combinado de acordo com outra aplicação,
[00089] A Fig. 23 ilustra um aparelho para gerar um fluxo de dados de áudio combinado de acordo com outra aplicação,
[00090] A Fig. 30 descreve um módulo de combinação de acordo com uma aplicação,
[00091] A Fig. 31a - 31c descrevem possiveis cenas de som cenário, e
[00092] As Figs. 32a -32b ilustram geradores de fonte artificial de acordo com as aplicações.
[00093] As Figs. 33a-33c ilustram cenários onde duas matrizes de microfone recebem som direto, som refletido por uma parede e som difuso.
[00094] Antes de fornecer uma descrição detalhada das aplicações da presente invenção, um aparelho para gerar um sinal de saida de áudio de um microfone virtual é descrito para fornecer informação anterior referente aos conceitos da presente invenção.
[00095] A figura 12 ilustra um aparelho para gerar um sinal de saida de áudio para simular uma gravação de um microfone em uma posição virtual configurável posVmic em um ambiente. O aparelho compreende um avaliador da posição dos eventos de som 110 e um módulo de computação de informação 120. O avaliador da posição dos eventos de som 110 recebe uma primeira informação de direção dil de um primeiro microfone espacial real e uma segunda informação de direção di2 de um segundo microfone espacial real. 0 avaliador da posição dos eventos de som 110 é adaptado para estimar uma posição de fonte sonora SSP indicando uma posição de uma fonte sonora no ambiente, a fonte sonora emitindo uma onda de som, em que o avaliador da posição dos eventos de som 110 é adaptado para estimar a posição de fonte sonora ssp com base em uma primeira informação de direção dil fornecida por um primeiro microfone espacial real sendo localizado em uma primeira posição do microfone real poslmic no ambiente, e com base em uma segunda informação de direção di2 fornecida por um segundo microfone espacial real estando localizado em uma segunda posição do microfone real no ambiente. O módulo de computação de informação 120 é adaptado para gerar o sinal de saida de áudio com base em um primeiro sinal de entrada de áudio gravado isl sendo gravado pelo primeiro microfone espacial real, com base na primeira posição do microfone real poslmic e com base na posição virtual posVmic do microfone virtual. O módulo de computação de informação 120 compreende um compensador de propagação sendo adaptado para gerar um primeiro sinal de áudio modificado pela modificação do primeiro sinal de entrada de áudio gravado isl compensando um primeiro atraso ou declinio de amplitude entre uma chegada da onda de som emitida pela fonte sonora no primeiro microfone espacial real e uma chegada da onda de som no microfone virtual ajustando um valor de amplitude, um valor de magnitude ou um valor de fase do primeiro sinal de entrada de áudio gravado isl, para obter o sinal de saida de áudio.
[00096] A figura 13 ilustra as entradas e saidas de um aparelho e um método de acordo com uma aplicação. Informação de dois ou mais microfones espaciais reais 111, 112, 11N é inserida ao aparelho/é processada pelo método. Esta informação compreende sinais de áudio coletados pelos microfones espaciais reais bem como informação de direção dos microfones espaciais reais, por exemplo, estimativas da direção de chegada (DOA). Os sinais de áudio e a informação de direção, como as estimativas da direção de chegada podem ser expressos em um dominio de tempo- frequência. Se, por exemplo, uma reconstrução da geometria 2D é desejada e um dominio tradicional STFT (short time Fourier transformation | transformada de Fourier de curta duração) é escolhido para a representação dos sinais, a DOA pode ser expressa como ângulos de azimute dependentes de k e n, a saber os indices de frequência e tempo.
[00097] Nas aplicações, a localização do evento de som no espaço, bem como descrição da posição do microfone virtual pode ser conduzida com base nas posições e orientações dos microfones espaciais virtuais e reais em um sistema de coordenada comum. Esta informação pode ser representada pelas entradas 121 . . . 12N e entrada 104 na figura 13. A entrada 104 pode adicionalmente especificar a característica do microfone espacial virtual, por exemplo, sua posição e padrão de coleta, como será discutido a seguir. Se o microfone espacial virtual compreende vários sensores virtuais, suas posições e os diferentes padrões de coleta correspondentes podem ser considerados.
[00098] A saida do aparelho ou um método correspondente pode ser, quando desejada, um ou mais sinais de som 105, que pode ter sido coletada por um microfone espacial definido e colocado conforme especificado por 104. Ainda, o aparelho (ou ainda o método) pode fornecer como emissão da informação lateral espacial correspondente 106 que pode ser estimada empregando o microfone espacial virtual.
[00099] A figura 14 ilustra um aparelho de acordo com uma aplicação, que compreende duas unidades de processamento principais, um avaliador da posição dos eventos de som 201 e um módulo de computação de informação 202. O avaliador da posição dos eventos de som 201 pode realizar a reconstrução geométrica com base nas DOA's compreendidas nas entradas 111 ... UN e com base no conhecimento da posição e orientação dos microfones espaciais reais, onde as DOA's foram calculadas. A saida do avaliador da posição dos eventos de som 205 compreende as estimativas da posição (tanto em 2D quanto em 3D) das fontes sonoras onde os eventos de som ocorrem em cada parte de tempo e frequência. O segundo bloco de processamento 202 é um módulo de computação de informação. De acordo com a aplicação da figura 14, o segundo bloco de processamento 202 calcula um sinal do microfone virtual e informação lateral espacial. É, ainda, também referido como o bloco do sinal do microfone virtual e cálculo de informação lateral 202. O bloco do sinal do microfone virtual e cálculo de informação lateral 202 utiliza as posições dos eventos de som 205 para processar os sinais de áudio compreendidos em 111...11N para emitir o sinal de áudio do microfone virtual 105. O bloco 202, se solicitado, pode também calcular a informação lateral espacial 106 correspondente ao microfone espacial virtual. As aplicações abaixo ilustram possibilidades, como os blocos 201 e 202 podem operar.
[000100] A seguir, a estimativa de posição de um avaliador da posição dos eventos de som de acordo com uma aplicação é descrita em mais detalhes.
[000101] Dependendo da dimensionalidade do problema (2D ou 3D) e o número de microfones espaciais, várias soluções para a estimativa de posição são possiveis.
[000102] Se dois microfones espaciais em 2D existem, (o caso possível mais simples) uma única triangulação é possível. A figura 15 mostra um cenário exemplar, no qual os microfones espaciais reais são descritos como Matrizes Lineares Uniformes (ULA's I Uniform Linear Arrays) de 3 microfones cada. A DOA, expressa como os ângulos de azimute al(k, n) e a2(k, n) , são calculados para a posição de tempo-frequência (k, n) . Isso é atingido empregando um avaliador adequado de DOA, como ESPRIT,
[000103] [13] R. Roy, A. Paulraj, and T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986,
[000104] ou (raiz) MUSIC, vide
[000105] [14] R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986
[000106] aos sinais de pressão transformados no domínio de tempo-frequência.
[000107] Na figura 15, dois microfones espaciais reais, aqui, duas matrizes do microfone espacial real 410, 420 são ilustrados. As duas DOA's al(k, n) e a2(k, n) estimadas são representadas por duas linhas, uma primeira linha 430 representando a DOA al(k, n) e uma segunda linha 440 representando a DOA a2(k, n) . A triangulação é possível através das simples considerações aritméticas conhecendo a posição e orientação de cada matriz.
[000108] A triangulação falha quando as duas linhas 430, 440 são exatamente paralelas. Nas aplicações reais, entretanto, isso é muito improvável. Entretanto, em todos os resultados de triangulação correspondem a uma posição física ou prática para o evento de som no espaço considerado. Por exemplo, a posição estimada do evento de som pode estar muito distante ou ainda fora do espaço assumido, indicando que a probabilidade que as DOA's não correspondem a qualquer evento de som que pode ser fisicamente interpretada com o modelo utilizado. Estes resultados podem ser causados pelo ruído do sensor ou reverberação ambiente muito forte. Assim, de acordo com uma aplicação, estes resultados indese j ados são marcados de modo que o módulo de computação de informação 202 possa tratá-los corretamente.
[000109] A figura 16 descreve um cenário, onde a posição de um evento de som é estimada no espaço 3D. Microfones espaciais corretos são empregados, por exemplo, uma matriz de microfone plana ou 3D. Na figura 16, um primeiro microfone espacial 510, por exemplo, uma primeira matriz de microfone 3D, e um segundo microfone espacial 520, por exemplo, uma primeira matriz de microfone 3D, é ilustrado. A DOA no espaço 3D, pode, por exemplo, ser expressa como azimute e elevação. Vetores de unidade 530, 540 podem ser empregados para expressar as DOA's. Duas linhas 550, 560 são projetadas de acordo com as DOA's. Em 3D, ainda com estimativas muito confiáveis, as duas linhas 550, 560 projetadas de acordo com as DOA's podem não cruzar. Entretanto, a triangulação pode ainda ser realizada, por exemplo, escolhendo o ponto médio do menor segmento que conecta as duas linhas.
[000110] Semelhantemente ao caso 2D, a triangulação pode falhar ou pode produzir resultados impraticáveis para determinadas combinações de direções que podem, então, ser marcadas, por exemplo, ao módulo de computação de informação 202 da figura 14.
[000111] Se mais do que dois microfones espaciais existem, várias soluções são possíveis. Por exemplo, a triangulação explicada acima, poderia ser realizada para todos os pares de microfones espaciais reais (se N = 3, 1 com 2, 1 com 3, e 2 com 3) . As posições resultantes podem então ser variadas (por x e y, e, se 3D for considerado, z).
[000112] De modo alternativo, conceitos mais complexos podem ser utilizados. Por exemplo, abordagens probabilisticas podem ser aplicadas conforme descrito em
[000113] [15] J. Michael Steele. "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553.
[000114] De acordo com uma aplicação, o campo de som pode ser analisado no dominio de tempo-frequência, por exemplo, obtido através de uma transformada de Fourier de curta duração (STFT), na qual k e n denotam o índice de frequência k e índice de tempo n, respectivamente. A pressão complexa Pv(k, n) em uma posição arbitrária pv para um determinado k e n é modelada como uma única onda esférica emitida por uma fonte do tipo ponto isotrópico de banda estreita, por exemplo, empregando a fórmula:
Figure img0002
[000115] onde PIPLS(k, n) é o sinal emitido por IPLS na sua posição piPLs(k, n) . O fator complexo y(k, PIPLSZ Pv) expressa a propagação de PiPLs(k, n) a pv, por exemplo, introduz modificações de fase e magnitude apropriadas. Aqui, a suposição pode ser aplicada que em cada posição de tempo-frequência apenas uma IPLS é ativo. Independentemente, vários IPLS's de banda estreita localizados em diferentes posições podem ainda ser ativos em um único instante de tempo.
[000116] Cada IPLS modela o som direto ou uma reflexão ambiente distinta. Sua posição piPLs(k, n) pode idealmente corresponder a uma fonte sonora real localizada dentro da sala, ou uma fonte sonora da imagem do espelho localizada fora, respectivamente. Assim, a posição pIPLS(k, n) pode ainda indicar a posição de um evento de som.
[000117] Por favor observe que o termo "fontes sonoras reais" denota as fontes sonoras reais fisicamente existentes no ambiente de gravação, como transmissores ou instrumentos musicais. Ao contrário, com "fontes sonoras" ou "eventos de som" ou "IPLS" referimos a fontes sonoras efetivas, que são ativas em determinados instantes de tempo ou em determinadas posições de tempo-frequência, em que as fontes sonoras podem, por exemplo, representar fontes sonoras reais ou fontes de imagem de espelho.
[000118] As figuras 33a-33b ilustram matrizes de microfone que localizam fontes sonoras. As fontes sonoras localizadas podem ter diferentes interpretações fisicas dependendo da sua natureza. Quando as matrizes de microfone recebem som direto, elas podem localizar a posição de uma fonte sonora verdadeira (por exemplo, transmissores). Quando as matrizes de microfone recebem reflexões, elas podem localizar a posição de uma fonte de imagem de espelho. As fontes de imagem de espelho são também fontes sonoras.
[000119] A figura 33a ilustra um cenário, onde duas matrizes de microfone 151 e 152 recebem som direto de uma fonte sonora real (uma fonte sonora fisicamente existente) 153.
[000120] A figura 33b ilustra um cenário, onde duas matrizes de microfone 161, 162 recebem som refletido, em que o som foi refletido por uma parede. Por causa da reflexão, as matrizes de microfone 161, 162 localizam a posição, onde o som aparece vindo, em uma posição de uma fonte de imagem de espelho 165, que é diferente da posição do orador 163.
[000121] Tanto a fonte sonora real 153 da figura 33a, bem como a fonte de imagem de espelho 165 são fontes sonoras.
[000122] A figura 33c ilustra um cenário, onde duas matrizes de microfone 171, 172 recebem som difuso e não podem localizar uma fonte sonora.
[000123] Enquanto este modelo de onda única é precisa apenas para ambientes levemente reverberantes dado que os sinais da fonte realizam a condição de ortogonalidade disjunta por W (WDO), ou seja a sobreposição de tempo-frequência é suficientemente pequena. Isso é normalmente verdadeiro para os sinais de discurso, veja, por exemplo,
[000124] [12] S. Rickard e Z. Yilmaz. "On the approximate W-disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1.
[000125] Entretanto, o modelo ainda fornece uma boa estimativa para outros ambientes e é, portanto, aplicável para estes ambientes.
[000126] A seguir, a estimativa das posições piPLs(k, n) de acordo com uma aplicação é explicada. A posição PiPLs(k, n) de uma IPLS ativo em uma determinada posição de tempo-frequência, e assim a estimativa de um evento de som em uma posição de tempo- frequência, é estimada através da triangulação com base na direção de chegada (DOA) de som medida pelo menos em dois diferentes pontos de observação.
[000127] A figura 17 ilustra uma geometria, onde a IPLS do compartimento de tempo-frequência atuais (k, n) é localizado na posição desconhecida PiPLs(k, n) . Para determinar a informação de DOA necessária, dois microfones espaciais reais, aqui, duas matrizes de microfone, são empregados tendo uma geometria, posição e orientação conhecidas que são colocadas nas posições 610 e 620, respectivamente. Os vetores p2 e p2 aponta nas posições 610, 620, respectivamente. As orientações da matriz são definidas pelos vetores de unidade Ci e c2. A DOA do som é determinada nas posições 610 e 620 para cada (k, n) utilizando um algoritmo de estimativa de DOA, por exemplo, conforme fornecido pela análise DirAC (vide [2], [3]). Por isso, um primeiro vetor da unidade do ponto de vista
Figure img0003
e um segundo vetor da unidade do ponto de vista
Figure img0004
com relação a um ponto de vista das matrizes de microfone (ambas não mostradas na figura 17) pode ser fornecido como saida da análise DirAC. Por exemplo, ao operar em 2D, o primeiro vetor da unidade do ponto de vista resulta em:
Figure img0005
[000128] Aqui, cpi(k, n) representa o azimute da DOA estimada na primeira matriz de microfone, conforme descrito na figura 17. Os vetores da unidade de DOA correspondentes θi(k, n) e e2(k, n) , com relação ao sistema de coordenada global na origem, podem ser calculados aplicando a fórmula:
Figure img0006
[000129] onde R são matrizes de transformação de coordenada, por exemplo,
Figure img0007
[000130] ao operar em 2D e C1=[c1x,c1y]TPara realizar a triangulação, os vetores de direção di(k, n) e d2(k, n) podem ser calculados como:
Figure img0008
[000131] onde djk, n) = lldjk, n) | | e d2(k, n) = | |d2(k, n) I I são as distâncias desconhecidas entre a IPLS e as duas matrizes de microfone. A seguinte equação
Figure img0009
[000132] pode ser solucionada para di(k, n) . Finalmente, a posição PiPLs(k, n) de IPLS é dada por
Figure img0010
[000133] Em outra aplicação, a equação (6) pode ser solucionada para d2(k, n) e PiPLS(k, n) é analogamente calculada empregando d2(k, n) .
[000134] A equação (6) sempre fornece uma solução ao operar em 2D, a menos que ex(k, n) e e2(k, n) sejam paralelos. Entretanto, ao utilizar mais do que duas matrizes de microfone ou ao operar em 3D, uma solução não pode ser obtida quando os vetores de direção d não se cruzam. De acordo com uma aplicação, neste caso, o ponto que é mais próximo a todos os vetores de direção d deve ser calculado e o resultado pode ser utilizado como a posição da IPLS.
[000135] Em uma aplicação, todos os pontos de observação pi, p2, ... deveriam ser localizados de modo que o som emitido pela IPLS caia no mesmo bloco temporal n. Esta exigência pode simplesmente ser realizada quando a distância Δ entre qualquer um dos dois pontos de observação é menor do que
Figure img0011
(8)
[000136] onde nFFT é o comprimento da janela STFT, 0 < R < 1 especifica a sobreposição entre sucessivas estruturas de tempo e fs é a frequência de amostragem. Por exemplo, para um STFT de 1024 pontos em 48 kHz com 50 % de sobreposição (R = 0,5), o espaçamento máximo entre as matrizes para cumprir com a exigência acima é Δ = 3.65 m.
[000137] A seguir, um módulo de computação de informação 202, por exemplo, um sinal do microfone virtual e módulo de computação de informação lateral, de acordo com uma aplicação é descrito em mais detalhes.
[000138] A figura 18 ilustra uma visão geral esquemática de um módulo de computação de informação 2 02 de acordo com uma aplicação. A unidade de computação de informação compreende um compensador de propagação 500, um combinador 510 e uma unidade de ponderação espectral 520. O módulo de computação de informação 202 recebe as estimativas da posição de fonte sonora ssp estimadas por um avaliador da posição dos eventos de som, um ou mais sinais da entrada de áudio é gravado por um ou mais do microfones espaciais reais, posições posRealMic de um ou mais do microfones espaciais reais, e a posição virtual posVmic do microfone virtual. Emite um sinal de saida de áudio os representando um sinal de áudio do microfone virtual.
[000139] A figura 19 ilustra um módulo de computação de informação de acordo com outra aplicação. O módulo de computação de informação da figura 19 compreende um compensador de propagação 500, um combinador 510 e uma unidade de ponderação espectral 520. O compensador de propagação 500 compreende um módulo de computação de parâmetros de propagação 501 e um módulo de compensação de propagação 504. O combinador 510 compreende uma módulo de computação dos fatores de combinação 502 e um módulo de combinação 505. A unidade de ponderação espectral 520 compreende uma unidade de computação de pesos espectrais 503, um módulo de aplicação de ponderação espectral 506 e um módulo de computação da informação lateral espacial 507.
[000140] Para computar o sinal de áudio do microfone virtual, a informação geométrica, por exemplo, a posição e orientação dos microfones espaciais reais 121 . . . 12N, a posição, orientação e características do microfone espacial virtual 104, e as estimativas da posição dos eventos de som 205 são inseridos ao módulo de computação de informação 202, em particular, ao módulo de computação de parâmetros de propagação 501 do compensador de propagação 500, ao módulo de compensação dos fatores de combinação 502 do combinador 510 e à unidade de computação de pesos espectrais 503 da unidade de ponderação espectral 520. O módulo de computação de parâmetros de propagação 501, o módulo de compensação dos fatores de combinação 502 e a unidade de computação de pesos espectrais 503 calculam os parâmetros utilizados na modificação dos sinais de áudio 111 . . . 11N no módulo de compensação de propagação 504, no módulo de combinação 505 e no módulo de aplicação de ponderação espectral 506.
[000141] No módulo de computação de informação 202, os sinais de áudio 111 . . . 11N podem primeiramente ser modificados para compensar os efeitos dados pelos diferentes comprimentos de propagação entre as posições do evento de som e os microfones espaciais reais. Os sinais podem então ser combinados para melhorar, por exemplo, o indice de sinal-para-ruido (SNR). Finalmente, o sinal resultante pode, então, ser espectralmente ponderado para considerar o padrão de coleta direcional do microfone virtual, bem como qualquer função de ganho dependente da distância. Estas três etapas são discutidas em mais detalhes abaixo.
[000142] A compensação de propagação é agora explicada em mais detalhes. Na parte superior da figura 20, dois microfones espaciais reais (uma primeira matriz de microfone 910 e uma segunda matriz de microfone 920), a posição de um evento de som localizado 930 para a posição de tempo-frequência (k, n) , e a posição do microfone espacial virtual 940 são ilustrados.
[000143] A parte inferior da figura 20 descreve um eixo temporal. É assumido que um evento de som é emitido no tempo t0 e então propaga aos microfones espaciais virtuais e reais. Os atrasos da chegada bem como as amplitudes mudam com a distância, de modo que outro comprimento de propagação, quanto mais fraca a amplitude mais longo o atraso da chegada será.
[000144] Os sinais nas duas matrizes reais são comparáveis apenas se o atraso relativo Dtl2 entre eles for pequeno. Caso contrário, um dos dois sinais precisa ser temporalmente realinhado para compensar o atraso relativo Dtl2, e possivelmente, para ser escalado para compensar os diferentes declínios.
[000145] Compensar o atraso entre a chegada no microfone virtual e a chegada nas matrizes de microfone real (em um dos microfones espaciais reais) muda o atraso independentemente da localização do evento de som, tornando-o supérfluo para a maioria das aplicações.
[000146] Retornando à figura 19, o módulo de computação de parâmetros de propagação 501 é adaptado para calcular os atrasos a ser corrigidos para cada microfone espacial real e para cada evento de som. Se desejado, ainda calcula os fatores de ganho a ser considerados para compensar as diferentes declínios de amplitude.
[000147] O módulo de compensação de propagação 504 é configurado para utilizar esta informação para modificar os sinais de áudio corretamente. Se os sinais devem ser mudados por uma pequena quantidade de tempo (comparado a janela de tempo do banco de filtro), então uma simples rotação de fase é o suficiente. Se os atrasos são maiores, implementações mais complicadas são necessárias.
[000148] A saida do módulo de compensação de propagação 504 são os sinais de áudio modificados expressos no dominio de tempo-frequência original.
[000149] A seguir, uma estimativa particular da compensação de propagação para um microfone virtual, de acordo com uma aplicação, será descrita com referência à figura 17 que, inter alia, ilustra uma posição 610 de um primeiro microfone espacial real e a posição 620 de um segundo microfone espacial real.
[000150] Na aplicação que é agora explicada, assume-se que pelo menos um primeiro sinal de entrada de áudio gravado, por exemplo, um sinal de pressão de pelo menos um dos microfones espaciais reais (por exemplo, as matrizes de microfone) está disponível, por exemplo, o sinal de pressão de um primeiro microfone espacial real. Nos referimos ao microfone considerado como microfone de referência, a sua posição como posição de referência pref e ao seu sinal de pressão como sinal de pressão de referência Pref(k, n). Entretanto, a compensação de propagação pode não apenas ser conduzida com relação a apenas um sinal de pressão, mas ainda com relação aos sinais de pressão de uma pluralidade ou de todos os microfones espaciais reais.
[000151] A relação entre o sinal de pressão PiPLstk, n) emitido pela IPLS e um sinal de pressão de referência Pref(k, n) de um microfone de referência localizado em pref pode ser expressa pela fórmula (9):
Figure img0012
[000152] No general, o fator complexo y(k, pa, pb) expressa a rotação de fase e declinio de amplitude introduzida pela propagação de uma onda esférica de sua origem em pa a pb. Entretanto, testes práticos indicados que considerando apenas a declinio de amplitude em y leva a impressões plausíveis do sinal do microfone virtual com poucos interferência significativos comparados a outra consideração da rotação de fase.
[000153] A energia do som que pode ser medida em um determinado ponto no espaço depende muito da distância r da fonte sonora, na figura 6 da posição pIPLs da fonte sonora. Em muitas situações, esta dependência pode ser modelada com precisão suficiente utilizando os princípios físicos bem conhecidos, por exemplo, o declinio 1/r da pressão do som no campo distante de uma fonte do ponto. Quando a distância de um microfone de referência, por exemplo, o primeiro microfone real da fonte sonora é conhecido, e quando outra distância do microfone virtual da fonte sonora é conhecida, então, a energia do som na posição do microfone virtual pode ser estimada do sinal e da energia do microfone de referência, por exemplo, o primeiro microfone espacial real. Isso significa que o sinal de saida do microfone virtual pode ser obtido aplicando ganhos corretos ao sinal de pressão de referência.
[000154] Assumindo que o primeiro microfone espacial real é o microfone de referência, então pref = pi. Na figura 17, o microfone virtual está localizado em pv. Visto que a geometria na figura 17 é conhecida em detalhes, a distância dx(k, n) = | |di (k, n) I I entre o microfone de referência (na figura 17: o primeiro microfone espacial real) e a IPLS pode facilmente ser determinada, bem como a distância s(k, n) = I |s(k, n) I I entre o microfone virtual e a IPLS, a saber
Figure img0013
[000155] A pressão do som Pv(k, n) na posição do microfone calculada combinando fórmulas (1) e (9), levando
Figure img0014
[000156] Conforme mencionado acima, em algumas aplicações, os fatores y podem apenas considerar o declinio de amplitude devido à propagação. Assumindo, por exemplo, que a pressão do som reduz com 1/r, então
Figure img0015
[000157] Quando o modelo na fórmula (1) permanece, por exemplo, quando apenas o som direto está presente, então a fórmula (12) pode precisamente reconstruir a informação de magnitude. Entretanto, no caso dos campos de exemplo, quando as suposições do modelo não são cumpridas, o método apresentado produz uma desreverberação implícita do sinal ao mover o microfone virtual longe das posições das matrizes do sensor. De fato, conforme discutido acima, nos campos de som difusos, esperamos que a maioria dos IPLS estejam localizados próximos às duas matrizes do sensor. Assim, ao mover o microfone virtual longe destas posições, provavelmente aumentamos a distância s = | |sI I na figura 17. Assim, a magnitude da pressão de referência é reduzida ao aplicar uma ponderação de acordo com a fórmula (11). Correspondentemente, ao mover o microfone virtual próximo a uma fonte sonora real, as posições de tempo-frequência correspondentes ao som direto serão amplificadas de modo que todo o sinal de áudio será percebido menos difuso. Pelo ajuste da regra na fórmula (12), um pode controlar a amplificação do som direto e supressão do som difuso à vontade.
[000158] Pela condução da compensação de propagação no sinal de entrada de áudio gravado (por exemplo, o sinal de pressão) do primeiro microfone espacial real, um primeiro sinal de áudio modificado é obtido.
[000159] Nas aplicações, um segundo sinal de áudio modificado pode ser obtido conduzindo a compensação de propagação em um segundo sinal de entrada de áudio gravado (segundo sinal de pressão) do segundo microfone espacial real.
[000160] Em outras aplicações, outros sinais de áudio podem ser obtidos conduzindo a compensação de propagação nos outros sinais da entrada de áudio gravados (outros sinais de pressão) de outros microfones espaciais reais.
[000161] Agora, a combinação em blocos 502 e 505 na figura 19 de acordo com uma aplicação é explicada em mais detalhes. Assume-se que dois ou mais sinais de áudio de uma pluralidade diferentes microfones espaciais reais foram modificados para compensar as diferentes passagens de propagação para obter dois ou mais sinais de áudio modificados. Visto que os sinais de áudio dos diferentes microfones espaciais reais foram modificados para compensar as diferentes passagens de propagação, eles podem ser combinados para melhorar a qualidade do áudio. Fazendo isso, por exemplo, o SNR pode ser aumentado ou a reverberância pode ser reduzida.
[000162] Possíveis soluções para a combinação compreendem:
[000163] Média ponderada, por exemplo, considerando o SNR, ou a distância ao microfone virtual, ou a difusão que foi estimada pelos microfones espaciais reais. Soluções tradicionais, por exemplo, Combinação de índice Máximo (MRC I Maximum Ratio Combining) ou Combinação de Ganho Igual (EQC | Equal Gain Combining) podem ser empregadas, ou
[000164] Combinação linear de alguns ou todos os sinais de áudio modificados para obter um sinal de combinação. Os sinais de áudio modificados podem ser ponderados na combinação linear para obter o sinal de combinação, ou
[000165] Seleção, por exemplo, apenas de um sinal é utilizado, por exemplo, dependente do SNR ou distância ou difusão.
[000166] A tarefa do módulo 502 é, se aplicável, para calcular os parâmetros para a combinação, que é realizada no módulo 505.
[000167] Agora, a ponderação espectral de acordo com as aplicações é descrita em mais detalhes. Para isso, a referência é feita aos blocos 503 e 506 da figura 19. Nesta etapa final, o sinal de áudio resultante da combinação ou da compensação de propagação dos sinais de entrada de áudio é ponderado no dominio de tempo-frequência de acordo com as características espaciais do microfone espacial virtual conforme especificado pela entrada 104 e/ou de acordo com a geometria reconstruída (dado em 205) .
[000168] Para cada posição de tempo-frequência a reconstrução geométrica nos permite obter facilmente a DOA com relação ao microfone virtual, conforme mostrado na figura 21. Ainda, a distância entre o microfone virtual e a posição do evento de som pode ainda ser prontamente calculada.
[000169] O peso para a posição de tempo-frequência é então calculado considerando o tipo de microfone virtual desejado.
[000170] No caso de microfones direcionais, os pesos espectrais podem ser calculados de acordo com um padrão de coleta predefinido. Por exemplo, de acordo com uma aplicação, um microfone cardioide pode ter um padrão de coleta definido pela função g(theta), g (theta) = 0,5 + 0,5 cos(theta),
[000171] onde theta é o ângulo entre a direção de visualização do microfone espacial virtual e a DOA do som do ponto de vista do microfone virtual.
[000172] Outra possibilidade é as funções de declinio artístico (não físico). Em determinadas aplicações, pode ser desejado suprimir os eventos de som longes do microfone virtual com um fator maior do que uma propagação de campo livre caracterizante. Para esta finalidade, algumas aplicações introduzem uma função de ponderação adicional que depende da distância entre o microfone virtual e o evento de som. Em uma aplicação, apenas eventos de som originados de uma determinada distância (por exemplo, em metros) do microfone virtual devem ser coletados.
[000173] Com relação à diretividade do microfone virtual, os padrões de diretividade arbitrária podem ser aplicados para o microfone virtual. Fazendo isso, um pode por exemplo separar uma fonte de uma cena de som complexa.
[000174] Visto que a DOA do som pode ser calculada na posição pv do microfone virtual, a saber
Figure img0016
[000175] onde cv é um vetor da unidade descrevendo a orientação do microfone virtual, as diretividades arbitrárias para o microfone virtual podem ser realizadas. Por exemplo, assumindo que Pv(k,n) indica o sinal de combinação ou o sinal de áudio modificado compensado por propagação, então a fórmula:
Figure img0017
[000176] calcula a saida de um microfone virtual com a diretividade cardioide. Os padrões direcionais, que podem potencialmente ser gerados desta forma, dependem da precisão da estimativa de posição.
[000177] Nas aplicações, um ou mais microfones não espaciais reais, por exemplo, um microfone omnidirecional ou um microfone direcional como um cardioide, são colocados na cena de som além dos microfones espaciais reais para melhorar ainda mais a qualidade do som dos sinais do microfone virtual 105 na figura 8. Estes microfones não são utilizados para obter qualquer informação geométrica, mas apenas para fornecer um sinal de áudio mais limpo. Estes microfones podem ser colocados mais próximos às fontes sonoras do que os microfones espaciais. Neste caso, de acordo com uma aplicação, os sinais de áudio dos microfones não espaciais reais e suas posições são simplesmente inseridos ao módulo de compensação de propagação 504 da figura 19 para processar, ao invés dos sinais de áudio do microfones espaciais reais. A compensação de propagação é então conduzida para um ou mais sinais de áudio gravados dos microfones não espaciais com relação à posição de um ou mais microfones não espaciais. Por isso, uma aplicação é realizada utilizando microfones não espaciais adicionais.
[000178] Em outra aplicação, o cálculo da informação lateral espacial do microfone virtual é realizado. Para calcular a informação lateral espacial 106 do microfone, o módulo de computação de informação 202 da figura 19 compreende um módulo de computação da informação lateral espacial 507, que é adaptado para receber como entrada as posições das fontes sonoras 205 e a posição, orientação e características 104 do microfone virtual. Nas aplicações determinadas, de acordo com a informação lateral 106 que precisa ser calculada, o sinal de áudio do microfone virtual 105 pode ainda ser considerado como entrada ao módulo de computação da informação lateral espacial 507.
[000179] A saida do módulo de computação da informação lateral espacial 507 é a informação lateral do microfone virtual 106. Esta informação lateral pode ser, por exemplo, a DOA ou a difusão de som para cada posição de tempo-frequência (k, n) do ponto de vista do microfone virtual. Outra possivel informação lateral poderia, por exemplo, ser o vetor de intensidade de som ativo Ia(k, n) que seria medido na posição do microfone virtual. Como estes parâmetros podem ser derivados será descrito agora.
[000180] De acordo com uma aplicação, a estimativa da DOA para o microfone espacial virtual é realizada. O módulo de computação de informação 120 é adaptado para estimar a direção de chegada no microfone virtual como informação lateral espacial, com base em um vetor de posição do microfone virtual e com base em um vetor de posição do evento de som conforme ilustrado pela figura 22.
[000181] A figura 22 descreve uma possivel forma de derivar a DOA do som do ponto de vista do microfone virtual. A posição do evento de som, fornecida pelo bloco 205 na figura 19, pode ser descrita para cada posição de tempo-frequência (k, n) com um vetor de posição r(k, n), o vetor de posição do evento de som. Semelhantemente, a posição do microfone virtual, fornecida como entrada 104 na figura 19, pode ser descrita com um vetor de posição s(k,n), o vetor de posição do microfone virtual. A direção de visualização do microfone virtual pode ser descrita por um vetor v(k, n) . A DOA com relação ao microfone virtual é dada por a(k,n). Representa o angulo entre v e a passagem de propagação do som h(k,n). h(k, n) pode ser calculada empregando a fórmula: h(k, n) = s(k,n) - r(k, n) ,
[000182] A DOA desejada a(k, n) pode agora ser calculada para cada (k, n) por exemplo através da definição do produto interno de h(k, n) e v(k,n), a saber
[000183] a(k, n) = arcos (h(k, n) • v(k,n) / ( ||h(k, n)|| I|v(k,n)II ).
[000184] Em outra aplicação, o módulo de computação de informação 120 pode ser adaptado para estimar a intensidade do som ativo no microfone virtual como informação lateral espacial, com base em um vetor de posição do microfone virtual e com base em um vetor de posição do evento de som conforme ilustrado pela figura 22.
[000185] Da DOA a(k, n) definida acima, podemos derivar a intensidade do som ativo Ia(k, n) na posição do microfone virtual. Para isso, assume-se que o sinal de áudio do microfone virtual 105 na figura 19 corresponde à saida de um microfone omnidirecional, por exemplo, assumimos que o microfone virtual é um microfone omnidirecional. Ainda, a direção de visualização v na figura 22 é assumida ser paralela ao eixo x do sistema de coordenada. Visto que o vetor de intensidade de som ativo Ia(k, n) desejado descreve o flux liquido de energia através da posição do microfone virtual, podemos calcular Ia(k, n) pode ser calculado, por exemplo, de acordo com a fórmula:
[000186]
Figure img0018
Figure img0019
[000187] onde [ ]T denota um vetor transposto, rho é a densidade do ar, e Pv (k, n) é a pressão do som medida pelo microfone espacial virtual, por exemplo, a saída 105 do bloco 506 na figura 19.
[000188] Se o vetor de intensidade ativa deve ser calculado expresso no sistema de coordenada geral, mas ainda na posição do microfone virtual, a seguinte fórmula pode ser aplicada:
[000189]
Figure img0020
Figure img0021
[000190] A difusão do som expressa o quão difuso o campo de som é em um dado compartimento de tempo-frequência (veja, por exemplo, [2]) . A difusão é expressa pelo valor x[r, em que 0 á p á 1. Uma difusão de 1 indica que o campo de energia do som total de um campo de som é completamente difuso. Esta informação é importante, por exemplo, na reprodução do som espacial. Tradicionalmente, a difusão é calculada no ponto especifico no espaço em que uma matriz de microfone é colocada.
[000191] De acordo com uma aplicação, a difusão pode ser calculada como um parâmetro adicional à informação lateral gerada para o microfone virtual (VM) , que pode ser colocada em uma posição arbitrária na cena de som. Por causa disso, um aparelho que ainda calcula a difusão além do sinal de áudio em uma posição virtual de um microfone virtual pode ser visto como um DirAC virtual dianteiro, como é possivel para produzir um fluxo de DirAC, a saber um sinal de áudio, direção de chegada, e difusão, para um ponto arbitrário na cena de som. O fluxo de DirAC pode ser ainda processado, armazenado, transmitido e reproduzido em uma configuração arbitrária multi-alto-falante. Neste caso, o ouvinte vê a cena de som como se ele ou ela estivesse na posição especificada pelo microfone virtual e estivesse olhando na direção determinada por esta orientação.
[000192] A figura 23 ilustra um bloco de cálculo de informação de acordo com uma aplicação compreendendo uma unidade de cálculo de difusão 801 para calcular a difusão no microfone virtual. O bloco de cálculo de informação 202 é adaptado para receber entradas 111 a 11N, que além das entradas da figura 14 ainda incluem a difusão nos microfones espaciais reais. Deixe ΦtSM11 a ^(SMN) denotar estes valores. Estas entradas adicionais são inseridas ao módulo de computação de informação 202. A saida 103 da unidade de cálculo de difusão 801 é o parâmetro de difusão calculado na posição do microfone virtual.
[000193] Uma unidade de cálculo de difusão 801 de uma aplicação é ilustrada na figura 24 descrevendo mais detalhes. De acordo com uma aplicação, a energia do som difuso e direto em cada um dos N microfones espaciais é estimada. Então, utilizar a informação sobre as posições da IPLS, e a informação sobre as posições dos microfones espaciais e virtuais, N estimativas destas energias na posição do microfone virtual são obtidas. Finalmente, as estimativas podem ser combinadas para melhorar a precisão da estimativa e o parâmetro de difusão no microfone virtual pode ser prontamente calculado.
[000194] Deixe
Figure img0022
denotarem as estimativas das energias de som difuso e direto para os N microfones espaciais calculados pela unidade de análise de energia 810. Se Pi é o sinal de pressão complexo e Φi é a difusão para o microfone espacial i-th, então as energias podem, por exemplo, ser calculadas de acordo com a fórmula:
Figure img0023
[000195] A energia do som difuso deve ser igual em todas as posiçoes, assim, uma estimativa da energia do som difuso Ediff no microfone virtual pode ser calculada simplesmente pela média de
Figure img0024
, por exemplo, em uma unidade de combinação de difusão 820, por exemplo, de acordo com a fórmula:
Figure img0025
[000196] Uma combinação mais efetiva das estimativas
Figure img0026
a
Figure img0027
poderia ser realizada considerando a variancia dos avaliadores, por exemplo, considerando o SNR.
[000197] A energia do som direto depende da distância à fonte devido à propagação. Assim,
Figure img0028
a
Figure img0029
podem ser modificado para considerar isso. Isso pode ser realizado, por exemplo, pela unidade de ajuste da propagação de som direto 830. Por exemplo, se assume-se que a energia do campo de som direto decline com 1 sobre a distância elevada ao quadrado, então a estimativa para o som direto no microfone virtual para o microfone espacial i-th pode ser calculada de acordo com a fórmula:
Figure img0030
[000198] Semelhantemente à unidade de combinação de difusão 820, as estimativas da energia do som direto obtidas em diferentes microfones espaciais podem ser combinadas, por exemplo, pela unidade de combinação de som direto 840. O resultado é EjArMl , por exemplo, a estimativa para a energia do som direto no microfone virtual. A difusão no microfone virtual pode ser calculada, por exemplo, pela subcalculadora de difusão 850, por exemplo, de acordo com a fórmula:
Figure img0031
[000199] Conforme mencionado acima, em alguns casos, a estimativa da posição dos eventos sonoros realizados pelo avaliador da posição dos eventos de som falha, por exemplo, no caso de uma estimativa errada da direção de chegada. A figura 25 ilustra tal cenário. Nestes casos, independente dos parâmetros de difusão estimados nos diferentes microfones espaciais e conforme recebido como entradas 111 a 11N, a difusão para o microfone virtual 103 pode ser definida a 1 (ou seja, completamente difusa), pois nenhuma reprodução espacialmente coerente é possivel.
[000200] Adicionalmente, a confiabilidade das estimativas da DOA nos N microfones espaciais pode ser considerada. Isso pode ser expresso, por exemplo, em termos de variância do avaliador de DOA ou SNR. Tal informação pode ser considerada pela subcalculadora de difusão 850, de modo que a difusão VM 103 possa ser artificialmente aumentada no caso que as estimativas da DOA são inconfiáveis. De fato, como uma consequência, as estimativas da posição 205 serão ainda inconfiáveis.
[000201] A figura 2a ilustra um aparelho 150 para gerar, pelo menos, um sinal de saida de áudio com base em um fluxo de dados de áudio compreendendo dados de áudio referentes a uma ou mais fontes sonoras de acordo com uma aplicação.
[000202] O aparelho 150 compreende um receptor 160 para receber o fluxo de dados de áudio compreendendo os dados de áudio. Os dados de áudio compreendem um ou mais valores de pressão para cada uma de uma ou mais fontes sonoras. Ainda, os dados de áudio compreendem um ou mais valores de posição indicando uma posição de uma das fontes sonoras para cada uma das fontes sonoras. Ainda, o aparelho compreende um módulo de síntese 170 para gerar, pelo menos, um sinal de saída de áudio com base em pelo menos um de um ou mais valores de pressão dos dados de áudio do fluxo de dados de áudio e com base em pelo menos um de um ou mais valores de posição dos dados de áudio do fluxo de dados de áudio. Os dados de áudio são definidos para uma posição de tempo-frequência de uma pluralidade de posições de tempo-frequência. Para cada uma das fontes sonoras, pelo menos um valor de pressão é compreendido nos dados de áudio, em que pelo menos um valor de pressão pode ser um valor de pressão referente a uma onda de som emitida, por exemplo, originando da fonte sonora. 0 valor de pressão pode ser um valor de um sinal de áudio, por exemplo, um valor de pressão de um sinal de saida de áudio gerado por um aparelho para gerar um sinal de saida de áudio de um microfone virtual, em que este microfone virtual é colocado na posição da fonte sonora.
[000203] Assim, a figura 2a ilustra um aparelho 150 que pode ser empregado para receber ou processar o fluxo de dados de áudio mencionado, ou seja, o aparelho 150 pode ser empregado em um lado do receptor/sintese. O fluxo de dados de áudio compreende dados de áudio que compreende um ou mais valores de pressão e um ou mais valores de posição para cada uma de uma pluralidade de fontes sonoras, ou seja, cada um dos valores de pressão e dos valores de posição se refere a uma fonte sonora particular de uma ou mais fontes sonoras da cena de áudio gravada. Isso significa que os valores de posição indicam as posições das fontes sonoras ao invés dos microfones de gravação. Com relação ao valor de pressão isso significa que o fluxo de dados de áudio compreende um ou mais valores de pressão para cada uma das fontes sonoras, ou seja, os valores de pressão indicam um sinal de áudio que está relacionado a uma fonte sonora ao invés de estar relacionada a uma gravação de um microfone espacial real.
[000204] De acordo com uma aplicação, o receptor 160 pode ser adaptado para receber o fluxo de dados de áudio compreendendo os dados de áudio, em que os dados de áudio compreendem, ainda, um ou mais valores de difusão para cada uma das fontes sonoras. O módulo de síntese 170 pode ser adaptado para gerar, pelo menos, um sinal de saída de áudio com base em pelo menos um de um ou mais valores de difusão.
[000205] A figura 2b ilustra um aparelho 200 para gerar um fluxo de dados de áudio compreendendo dados de fonte sonora referentes a uma ou mais fontes sonoras de acordo com uma aplicação. O aparelho 200 para gerar um fluxo de dados de áudio compreende um determinador 210 para determinar os dados de fonte sonora com base em pelo menos um sinal de entrada de áudio gravado por pelo menos um. microfone espacial e com base na informação lateral de áudio fornecida pelo menos por dois microfones espaciais. Ainda, o aparelho 200 compreende um gerador de fluxo de dados 220 para gerar o fluxo de dados de áudio de modo que o fluxo de dados de áudio compreende os dados de fonte sonora. Os dados de fonte sonora compreende um ou mais valores de pressão para cada uma das fontes sonoras. Ainda, os dados de fonte sonora compreendem, ainda, um ou mais valores de posição indicando uma posição de fonte sonora para cada uma das fontes sonoras. Ainda, os dados de fonte sonora são definidos para uma posição de tempo- frequência de uma pluralidade de posições de tempo-frequência.
[000206] O fluxo de dados de áudio gerado pelo aparelho 200 pode, então, ser transmitido. Assim, o aparelho 200 pode ser empregado em um lado de análise/transmissor. O fluxo de dados de áudio compreende dados de áudio que compreende um ou mais valores de pressão e um ou mais valores de posição para cada uma de uma pluralidade de fontes sonoras, ou seja, cada um dos valores de pressão e dos valores de posição se refere a uma fonte sonora particular de uma ou mais fontes sonoras da cena de áudio gravada. Isso significa que com relação aos valores de posição, os valores de posição indicam posições das fontes sonoras ao invés de microfones de gravação.
[000207] Em outra aplicação, o determinador 210 pode ser adaptado para determinar os dados de fonte sonora com base na informação de difusão pelo menos por um microfone espacial. O gerador de fluxo de dados 220 pode ser adaptado para gerar o fluxo de dados de áudio de modo que o fluxo de dados de áudio compreende os dados de fonte sonora. Os dados de fonte sonora compreendem, ainda, um ou mais valores de difusão para cada uma das fontes sonoras.
[000208] A figura 3a ilustra um fluxo de dados de áudio de acordo com uma aplicação. O fluxo de dados de áudio compreende dados de áudio referentes a duas fontes sonoras estando ativas em uma posição de tempo-frequência. Em particular, a figura 3a ilustra os dados de áudio que são transmitidos para uma posição de tempo-frequência (k, n) , em que k denota o indice de frequência e n denota o indice de tempo. Os dados de áudio compreendem um valor de pressão Pl, um valor de posição Q1 e um valor de difusão i[rl de uma primeira fonte sonora. 0 valor de posição Q1 compreende três valores de coordenada XI, Y1 e Z1 indicando a posição da primeira fonte sonora. Ainda, os dados de áudio compreendem um valor de pressão P2, um valor de posição Q2 e um valor de difusão i|i 2 de uma segunda fonte sonora. O valor de posição Q2 compreende três valores de coordenada X2, Y2 e Z2 indicando a posição da segunda fonte sonora.
[000209] A figura 3b ilustra um fluxo de áudio de acordo com outra aplicação. Novamente, os dados de áudio compreendem um valor de pressão Pl, um valor de posição Q1 e um valor de difusão ~1 de uma primeira fonte sonora. 0 valor de posição Q1 compreende três valores de coordenada XI, Yl e Z1 indicando a posição da primeira fonte sonora. Ainda, os dados de áudio compreendem um valor de pressão P2, um valor de posição Q2 e um valor de difusão I|Í 2 de uma segunda fonte sonora. 0 valor de posição Q2 compreende três valores de coordenada X2, Y2 e Z2 indicando a posição da segunda fonte sonora.
[000210] A figura 3c fornece outra ilustração do fluxo de dados de áudio. Como o fluxo de dados de áudio fornece informação de codificação de áudio espacial (GAC | geometry-based spatial audio coding) com base na geometria, é ainda referido como "fluxo de codificação de áudio espacial com base na geometria" ou "fluxo GAC". O fluxo de dados de áudio compreende informação que se refere a uma ou mais fontes sonoras, por exemplo, uma ou mais fontes do tipo ponto isotrópico (IPLS | isotropic point-like source). Conforme já explicado acima, o fluxo GAC pode compreender os seguintes sinais, em que k e n denotam o indice de frequência e o indice de tempo da posição de tempo-frequência considerada: • P(k, n) : Pressão complexa na fonte sonora, por exemplo, na IPLS. Este sinal possivelmente compreende som direto (o som originando da própria IPLS) e som difuso. • Q(k,n): Posição (por exemplo, Coordenadas cartesianas em 3D) da fonte sonora, por exemplo, da IPLS: a posição pode, por exemplo, compreender Coordenadas cartesianas X(k,n) , Y(k,n) , Z (k,n) . • Difusão na IPLS: Φ(k,n). Este parâmetro está relacionado ao indice de potência do som direto ao difuso compreendido em
Figure img0032
então, uma possibilidade para expressar a difusão
Figure img0033
Figure img0034
é conhecido, outras representações equivalentes são concebíveis, por exemplo, o índice Direto ao Difuso (DDR I Direct to Diffuse Ratio)
Figure img0035
.
[000211] Conforme já mencionado, k e n denotam os indices de frequência e tempo, respectivamente. Se desejado e se a análise permitir isso, mais do que uma IPLS pode ser representada em um dado compartimento de tempo-frequência. Isso é descrito na figura 3c como M múltiplas camadas, de modo que o sinal de pressão para a camada i-th (ou seja, para i-th IPLS) seja denotada com Pi(k, n). Por conveniência, a posição da IPLS pode ser expressa como o vetor
Figure img0036
. Diferentemente do estado da técnica, todos os parâmetros no fluxo GAC são expressos com relação a uma ou mais fontes sonoras, por exemplo, com relação a IPLS, assim atingindo a independência da posição de gravação. Na figura 3c, bem como na figura 3a e 3b, todas as quantidades na figura são consideradas no domínio de tempo-frequência; a notação (k,n) foi ignorada por razões de simplicidade, por exemplo, Pi significa Pi(k,n), por exemplo
Figure img0037
[000212] A seguir, um aparelho para gerar um fluxo de dados de áudio de acordo com uma aplicação é explicado em mais detalhes. Como o aparelho da figura 2b, o aparelho da figura 4 compreende um determinador 210 e um gerador de fluxo de dados 220 que pode ser semelhante ao determinador 210. Como o determinador analisa os dados de entrada de áudio para determinar os dados de fonte sonora com base no qual o gerador de fluxo de dados gera o fluxo de dados de áudio, o determinador e o gerador de fluxo de dados podem juntos ser referidos como um "módulo de análise" (vide módulo de análise 410 na figura 4).
[000213] O módulo de análise 410 calcula o fluxo GAC das gravações dos N microfones espaciais. Dependendo do número M de camadas desejadas (por exemplo, o número de fontes sonoras para as quais a informação deve ser compreendida no fluxo de dados de áudio para uma posição de tempo-frequência particular), o tipo e número N de microfones espaciais, diferentes métodos para a análise são concebíveis. Alguns exemplos são dados a seguir.
[000214] Como um primeiro exemplo, a estimativa do parâmetro para uma fonte sonora, por exemplo, uma IPLS, por compartimento de tempo-frequência é considerada. No caso de M = 1, o fluxo GAC pode ser prontamente obtido com os conceitos explicados acima para o aparelho gerar um sinal de saída de áudio de um microfone virtual, em que um microfone espacial virtual pode ser colocado na posição da fonte sonora, por exemplo, na posição da IPLS. Isso permite que os sinais de pressão sejam calculados na posição da IPLS, juntos com a estimativas da posição correspondentes, e possivelmente a difusão. Estes três parâmetros são agrupados juntos em um fluxo GAC e podem ser ainda manipulados pelo módulo 102 na figura 8 antes de ser transmitido ou armazenado.
[000215] Por exemplo, o determinador pode determinar a posição de uma fonte sonora empregando os conceitos propostos para a estimativa da posição dos eventos sonoros do aparelho para gerar um sinal de saída de áudio de um microfone virtual. Ainda, o determinador pode compreender um aparelho para gerar um sinal de saida de áudio e pode usar a posição da fonte sonora determinada como a posição do microfone virtual para calcular os valores de pressão (por exemplo, os valores do sinal de saida de áudio a ser gerados) e a difusão na posição da fonte sonora.
[000216] Em particular, o determinador 210, por exemplo, na figura 4), é configurado para determinar os sinais de pressão, as estimativas da posição correspondentes, e a difusão correspondente, enquanto o gerador de fluxo de dados 220 é configurado para gerar o fluxo de dados de áudio com base nos sinais de pressão calculados, estimativas da posição e difusão.
[000217] Como outro exemplo, a estimativa do parâmetro para 2 fontes sonoras, por exemplo, 2 IPLS, por compartimento de tempo-frequência é considerada. Se o módulo de análise 410 é para estimar duas fontes sonoras por posição de tempo-frequência, então o seguinte conceito com base nos avaliadores do estado da técnica pode ser utilizado.
[000218] A figura 5 ilustra uma cena de som composta por duas fontes sonoras e duas matrizes de microfone lineares uniformes. A referência é feita a ESPRIT, veja
[000219] [26] R. Roy e T. Kailath. ESPRIT-estimation of signal parameters via rotational invariance techniques. Acoustics, Speech and Signal Processing, IEEE Transactions on, 37 (7):984-995, July 1989.
[000220] ESPRIT ([26]) pode ser empregado separadamente em cada matriz para obter duas estimativas de DOA para cada posição de tempo-frequência em cada matriz. Devido a uma ambiguidade de pareamento, isso leva a duas possiveis soluções para a posição das fontes. Como pode ser visto da figura 5, as duas possiveis soluções são dadas por (1, 2) e (1' , 2'). Para solucionar esta ambiguidade, a seguinte solução pode ser aplicada. O sinal emitido em cada fonte é estimado utilizando um formador de feixe orientado na direção das posições da fonte estimada e aplicando um fator correto para compensar a propagação (por exemplo, multiplicando pelo inverso da atenuação apresentada pela onda) . Isso pode ser realizado para cada fonte em cada matriz para cada uma das possiveis soluções. Podemos então definir um erro de estimativa para cada par de fontes (i, j) como:
Figure img0038
[000221] onde (i, j) £ {(1, 2), (1', 2')} (veja a figura 5) e Pi#1 é responsável pela energia do sinal compensado visto pela matriz r da fonte sonora i. O erro é minimo para o par de fonte sonora verdadeira. Visto que a questão do pareamento é solucionada e as estimativas da DOA corretas são calculadas, estes são agrupados, juntos com as estimativas dos sinais de pressão e difusão correspondentes a um fluxo GAC. As estimativas dos sinais de pressão e difusão podem ser obtidas utilizando o mesmo método já descrito para a estimativa do parâmetro para uma fonte sonora.
[000222] A figura 6a ilustra um aparelho 600 para gerar, pelo menos, um sinal de saida de áudio com base em um fluxo de dados de áudio de acordo com uma aplicação. O aparelho 600 compreende um receptor 610 e um módulo de sintese 620. O receptor 610 compreende um módulo de modificação 630 para modificar os dados de áudio do fluxo de dados de áudio recebido pela modificação de pelo menos um dos valores de pressão dos dados de áudio, pelo menos um dos valores de posição dos dados de áudio ou pelo menos um dos valores de difusão dos dados de áudio referentes a pelo menos uma da fontes sonoras.
[000223] A figura 6b ilustra um aparelho 660 para gerar um fluxo de dados de áudio compreendendo dados de fonte sonora referentes a uma ou mais fontes sonoras de acordo com uma aplicação. O aparelho para gerar um fluxo de dados de áudio compreende um determinador 670, um gerador de fluxo de dados 680 e outro módulo de modificação 690 para modificar o fluxo de dados de áudio gerado pelo gerador de fluxo de dados modificando pelo menos um dos valores de pressão dos dados de áudio, pelo menos um dos valores de posição dos dados de áudio ou pelo menos um dos valores de difusão dos dados de áudio referentes a pelo menos uma da fontes sonoras.
[000224] Enquanto o módulo de modificação 610 da figura 6a é empregado em um lado do receptor/síntese, o módulo de modificação 660 da figura 6b é empregado em um lado do transmissor/análise.
[000225] As modificações do fluxo de dados de áudio conduzidas pelo módulo de modificações 610, 660 podem ainda ser consideradas como modificações da cena de som. Assim, o módulo de modificações 610, 660 pode ainda ser referido como os módulos de manipulação da cena de som.
[000226] A representação do campo de som fornecida pelo fluxo GAC permite diferentes tipos de modificações do fluxo de dados de áudio, ou seja, como uma consequência, manipulações da cena de som. Alguns exemplos neste contexto são: 1. Expandir as seções arbitrárias de espaço/volumes na cena de som (por exemplo, expansão de uma fonte sonora do tipo ponto para fazê-la parecer mais ampla ao ouvinte); 2. Transformar uma seção selecionada de espaço/volume a qualquer outra seção arbitrária de espaço/volume na cena de som (o espaço/volume transformado poderia, por exemplo, conter uma fonte que é exigida para ser movida para uma nova localização); 3. Filtrar com base na posição, onde as regiões selecionadas da cena de som são melhoradas ou parcialmente/completamente suprimidas
[000227] A seguir uma camada de um fluxo de dados de áudio, por exemplo, um fluxo GAC, é assumido compreender todos os dados de áudio de uma das fontes sonoras com relação à posição de tempo-frequência particular.
[000228] A figura 7 descreve um módulo de modificação de acordo com uma aplicação. A unidade de modificação da figura 7 compreende um demultiplexador 401, um processador de manipulação 420 e um multiplexador 405.
[000229] O demultiplexador 401 é configurado para separar as diferentes camadas do fluxo GAC da camada M e formar os fluxos GAC's da única camada M. Ainda, o processador de manipulação 420 compreende unidades 402, 403 e 404, que são aplicadas em cada um dos fluxos GAC separadamente. Ainda, o multiplexador 405 é configurado para formar o fluxo GAC da camada M dos fluxos GAC' s da única camada manipulada.
[000230] Com base nos dados da posição do fluxo GAC e no conhecimento sobre a posição das fontes reais (por exemplo, transmissores), a energia pode ser associada com uma determinada fonte real para cada posição de tempo-frequência. Os valores de pressão P são então ponderados corretamente para modificar o ruido da respectiva fonte real (por exemplo, falador) . Isso exige uma informação prévia ou uma estimativa da localização das fontes sonoras reais (por exemplo, transmissores).
[000231] Em algumas aplicações, se o conhecimento sobre a posição das fontes reais está disponível, então com base nos dados da posição do fluxo GAC, a energia pode ser associada com uma determinada fonte real para cada posição de tempo-frequência.
[000232] A manipulação do fluxo de dados de áudio, por exemplo, o fluxo GAC pode ocorrer no módulo de modificação 630 do aparelho 600 para gerar, pelo menos, um sinal de saida de áudio da figura 6a, ou seja, em um lado do receptor/sintese e/ou no módulo de modificação 690 do aparelho 660 para gerar um fluxo de dados de áudio da figura 6b, ou seja, em um lado do transmissor/análise.
[000233] Por exemplo, o fluxo de dados de áudio, ou seja, o fluxo GAC, pode ser modificado antes da transmissão, ou antes da sintese após a transmissão.
[000234] Diferente do módulo de modificação 630 da figura 6a no lado do receptor/sintese, o módulo de modificação 690 da figura 6b no lado do transmissor/análise pode explicar a informação adicional das entradas 111 a 11N (os sinais gravados) e 121 s 12N (posição e orientação relativas dos microfones espaciais), como esta informação está disponivel no lado do transmissor. Usando esta informação, uma unidade de modificação de acordo com uma aplicação alternativa pode ser realizada, que é descrita na figura 8.
[000235] A figura 9 descreve uma aplicação ilustrando uma visão geral esquemática de um sistema, em que um fluxo GAC é gerado em um lado do transmissor/análise, onde, opcionalmente fluxo GAC pode ser modificado pelo módulo de modificação 102 em um lado do transmissor/análise, onde o fluxo GAC pode, opcionalmente, ser modificado em um lado do receptor/sintese pelo módulo de modificação 103 e em que o fluxo GAC é utilizado para gerar uma pluralidade de sinais de saida de áudio 191 ... 19L.
[000236] No lado do transmissor/análise, a representação do campo de som (por exemplo, o fluxo GAC) é calculada na unidade 101 das entradas 111 a 11N, ou seja, os sinais gravado com N > 2 microfones espaciais, e das entradas 121 a 12N, ou seja, posição e orientação positivas dos microfones espaciais.
[000237] A saida da unidade 101 é a representação do campo de som previamente mencionada, que seguindo é denotada como fluxo de codificação de áudio espacial (GAC) com base na geometria. Semelhantemente à proposta em
[000238] [20] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA 'll), Edinburgh, United Kingdom, May 2011,
[000239] e conforme descrito para o aparelho gerar um sinal de saida de áudio de um microfone virtual em uma posição virtual conf igurável, uma cena de som complexa é modelada por meios de fontes sonoras, por exemplo, fontes do tipo ponto isotrópico sonoras (IPLS), que são ativas em compartimentos específicos em uma representação de tempo-frequência, como um fornecido pela Transformada de Fourier de curta duração (STFT).
[000240] O fluxo GAC pode ser ainda processado no módulo de modificação opcional 102, que pode ainda ser referido como uma unidade de manipulação. O módulo de modificação 102 permite várias aplicações. O fluxo GAC pode, então, ser transmitido ou armazenado. A natureza paramétrica do fluxo GAC é altamente eficiente. No lado da sintese/receptor, um módulo de modificações mais opcional (unidades de manipulação) 103 pode ser empregado. O fluxo GAC resultante entra na unidade da sintese 104 que gera os sinais do alto-falante. Dada a independência da representação da gravação, o usuário final no lado da reprodução pode potencialmente manipular a cena de som e decidir a posição de audição e orientação dentro da cena de som livremente.
[000241] A modificação/manipulação do fluxo de dados de áudio, por exemplo, o fluxo GAC pode ocorrer no módulo de modificações 102 e/ou 103 na figura 9, modificando o fluxo GAC corretamente tanto antes da transmissão no módulo 102 quanto após a transmissão antes da síntese 103. Diferente do módulo de modificação 103 no lado do receptor/síntese, o módulo de modificação 102 no lado do transmissor/análise pode explicar a informação adicional das entradas 111 a 11N (os dados de áudio fornecidos pelos microfones espaciais) e 121 a 12N (posição e orientação positivas do microfones espaciais), pois esta informação está disponível no lado do transmissor. A figura 8 ilustra uma aplicação alternativa de um módulo de modificação que emprega esta informação.
[000242] Exemplos de diferentes conceitos para a manipulação do fluxo GAC são descritos a seguir com referência à figura 7 e à figura 8. Unidades com sinais de referência iguais têm função igual. 1.
Expansão do volume
[000243] Assume-se que a determinada energia na cena é localizada dentro do volume V. O volume V pode indicar uma área predefinida de um ambiente, θ denota o conjunto de posições de tempo-frequência (k, n) no qual as fontes sonoras correspondentes, por exemplo, IPLS, são localizadas dentro do volume V.
[000244] Se a expansão do volume V em outro volume V' é desejado, isso pode ser obtido adicionando um termo aleatório aos dados da posição no fluxo GAC sempre que k, n) G β (avaliados nas unidades de decisão 403) e substituindo Q(k, n) = [X(k, n), Y (k, n) ,Z(k, n)]T (a camada do indice é reduzida para simplificar) de modo que as saidas 431 a 43M das unidades 404 na figura 7 e 8 se tornam
[000245]
Figure img0039
[000246] onde
Figure img0040
são variáveis aleatórias cuja faixa depende da geometria do novo volume V' com relação ao volume original V. Este conceito pode, por exemplo, ser empregado para tornar-se uma fonte sonora mais ampla. Neste exemplo, o volume original V é infinitamente pequeno, ou seja, a fonte sonora, por exemplo, a IPLS, deve ser localizada no mesmo ponto Q(k, n) = [X(k, n) , Y (k, n) , Z(k, n)]T para todos (k, n) G θ. Este mecanismo pode ser visto como uma forma de hesitar o parâmetro de posição Q(k, n).
[000247] De acordo com uma aplicação, cada um dos valores de posição de cada uma das fontes sonoras compreende pelo menos dois valores de coordenada, e o módulo de modificação é adaptado para modificar os valores de coordenada adicionando pelo menos um número aleatório aos valores de coordenada, quando valores de coordenada indicam que uma fonte sonora está localizada em uma posição dentro de uma área predefinida de um ambiente.
2. Transformação do volume
[000248] Além da expansão do volume, os dados da posição do fluxo GAC podem ser modificados para relocalizar as seções de espaço/volume dentro do campo de som. Neste caso, os dados a ser manipulados compreendem as coordenadas espaciais de energia localizada.
[000249] V denota novamente o volume que deve ser relocalizado, e ® denota o conjunto de todas as posições de tempo- frequência (k, n) nas quais a energia está localizada dentro do volume V. Novamente, o volume V pode indicar uma área predefina de um ambiente.
[000250] A realocação do volume pode ser obtida pela modificação do fluxo GAC, de modo que para todas as posições de tempo-frequência (k,n) 6 0, Q(k,n) sejam realocadas por f(Q(k,n)) nas saídas 431 a 43M de unidades 404, onde f é uma função das coordenadas espaciais (X, Y, Z), descrevendo a manipulação do volume a ser realizada. A função f pode representar uma simples transformação linear como rotação, tradução, ou qualquer outro mapeamento não linear complexo. Esta técnica pode ser utilizada, por exemplo, para mover as fontes sonoras de um posição a outra dentro da cena de som garantindo que © corresponde ao conjunto de posições de tempo-frequência no qual as fontes sonoras foram localizadas dentro do volume V. A técnica permite uma variedade de manipulações complexas de toda a cena de som, como reflexão da cena, rotação da cena, ampliação da e/ou compressão da cena etc. Por exemplo, aplicando um mapeamento apropriado linear no volume V, o efeito complementar da expansão do volume, ou seja, encolhimento do volume pode ser obtido. Isso poderia por exemplo, ser feito mapeando Q(k,n) for (k,n) E © a f(Q(k,n)) G V', onde V' c V e V' compreende um volume significativamente menor do que V .
[000251] De acordo com uma aplicação, o módulo de modificação é adaptado para modificar os valores de coordenada aplicando uma função deterministica nos valores de coordenada, quando os valores de coordenada indicam que uma fonte sonora está localizada em uma posição dentro de uma área predefine de um ambiente.
3. Filtragem com base na posição
[000252] A ideia filtragem com base na geometria (ou filtragem com base na posição) oferece um método para melhorar ou remover completamente/parcialmente as seções de espaço/volumes da cena de som. Comparado às técnicas de expansão do volume e transformação, neste caso, entretanto, apenas os dados de pressão do fluxo GAC são modificados aplicando pesos de escala apropriados.
[000253] Na filtragem com base na geometria, uma distinção pode ser feita entre o módulo de modificação do lado do transmissor 102 e do lado do receptor 103, em que o fornecimento de um pode utilizar as entradas 111 a 11N e 121 a 12N para auxiliar o cálculo dos pesos de filtro apropriados, conforme descrito na figura 8. Assumindo que o objetivo é suprir/melhorar a energia originando de uma seção selecionada de espaço/volume V, a filtragem com base na geometria pode ser aplicada, conforme segue:
[000254] Para todos (k, n) 6 ©, a pressão complexa P(k, n) no fluxo GAC é modificada para r|P(k, n) nas saidas de 402, onde q é um fator de ponderação real, por exemplo, calculado pela unidade 402. Em algumas aplicações, o módulo 402 pode ser adaptado para calcular um fator de ponderação dependente da difusão também.
[000255] O conceito de filtragem com base na geometria pode ser utilizado em uma pluralidade de aplicações, como melhoria do sinal e separação de fonte. Algumas das aplicações e a informação prévia necessária compreendem: • Desreverberação. Conhecendo a geometria da sala, o filtro espacial pode ser utilizado para suprir a energia localizada fora dos cantos da sala que podem ser causados pela propagação multipassagem. Esta aplicação pode ser de interesse, por exemplo, para comunicação sem as mãos nas salas de reunião e carros. Observe que para suprir a reverberação atrasada, é suficiente fechar o filtro no caso de alta difusão, em que para suprir as reflexões precoces um filtro dependente da posição é mais efetivo. Neste caso, como já mencionado, a geometria da sala precisa ser conhecida previamente. • Supressão do ruido de fundo. Um conceito semelhante pode ser utilizado para suprir o ruido de fundo também. Se as regiões potenciais onde as fontes podem estar localizadas, (por exemplo, as cadeiras dos participantes nas salas de reunião ou assentos de um carro) são conhecidas, então a energia localizada fora destas regiões é associada ao ruido de fundo e é assim suprimida pelo filtro espacial. Esta aplicação exige uma informação prévia ou uma estimativa, com base nos dados disponíveis nos fluxos GAC, da localização aproximada das fontes. • Supressão de um intervencionista do tipo ponto. Se o intervencionista está claramente localizado no espaço, ao invés da difusão, a filtragem com base na posição pode ser aplicada para atenuar a energia localizada na posição do intervencionista. Isso exige uma informação prévia ou uma estimativa da localização do intervencionista. • Controle de eco. Neste caso os intervencionistas a ser supridos são os sinais do alto-falante. Para essa finalidade, semelhantemente ao caso para intervencionista do tipo ponto, a energia localizada exatamente ou próxima à posição dos alto-falantes é suprida. Isso exige uma informação prévia ou uma estimativa das posições do alto-falante. • Detecção de voz melhorada. As técnicas de melhoria do sinal associadas com a invenção da filtragem com base na geometria podem ser implementadas como uma etapa de processamento em um sistema da atividade de voz convencional, por exemplo, em carros. A desreverberação, ou supressão de ruido pode ser utilizada como suplementos para melhorar o desempenho do sistema. • Vigilância. Preservar apenas a energia de determinadas áreas e suprir o resto é uma técnica geralmente utilizada nas aplicações de vigilância. Isso exige uma informação prévia sobre a geometria e localização da área de interesse. • Separação da fonte. Em um ambiente com várias fontes simultaneamente ativas o filtro espacial com base na geometria pode ser aplicado para separação da fonte. Colocar um filtro espacial corretamente desenhado centralizado na localização de uma fonte, resulta na supressão/atenuação de outras fontes simultaneamente ativas. Esta inovação pode ser utilizada, por exemplo, como em SAOC. A informação prévia ou uma estimativa das localizações da fonte é necessária. • Controle de Ganho Automático dependente da Posição (AGC). Pesos dependentes da posição podem ser utilizados, por exemplo, para equalizar o ruido de diferentes transmissores nas aplicações de teleconferência.
[000256] A seguir, os módulos de sintese de acordo com as aplicações sãos descritos. De acordo com uma aplicação, um módulo de sintese pode ser adaptado para gerar, pelo menos, um sinal de saida de áudio com base em pelo menos um valor de pressão de dados de áudio de um fluxo de dados de áudio e com base em pelo menos um valor de posição dos dados de áudio do fluxo de dados de áudio. Pelo menos um valor de pressão pode ser um valor de pressão de um sinal de pressão, por exemplo, um sinal de áudio.
[000257] Os principios da operação além da sintese de GAC são motivados pelas suposições da percepção de som espacial dadas em
[000258] [27] W02004077884: Tapio Lokki, Juha Merimaa, and Ville Pulkki. Method for reproducing natural or modified spatial impression in multichannel listening, 2006.
[000259] Em particular, os sinais espaciais necessários para perceber corretamente a imagem espacial de uma cena de som podem ser obtidos reproduzindo corretamente uma direção de chegada de som não difuso para cada posição de tempo-frequência. A síntese, descrita na figura 10a, é assim dividida em dois estágios.
[000260] O primeiro estágio considera a posição e orientação do ouvinte dentro da cena de som e determina qual de M IPLS é dominante para cada posição de tempo-frequência. Consequentemente, seu sinal de pressão Pdlr e direção de chegada θ podem ser calculados. As fontes restantes e de som difuso são coletadas em um segundo sinal de pressão Pdiff.
[000261] O segundo estágio é idêntico à segunda metade da sintese de DirAC descrita em [27]. O som não difuso é reproduzido com um mecanismo de posição do som que produz uma fonte do tipo ponto, onde o som difuso é reproduzido de todos os alto-falantes após ter sido descorrelacionado.
[000262] A figura 10a descreve um módulo de sintese de acordo com uma aplicação ilustrando a sintese do fluxo GAC.
[000263] A estágio unidade da sintese 501 do primeiro estágio, calcula os sinais de pressão Pdir e Pdiff que precisam ser reproduzidos diferentemente. De fato, enquanto Pdir compreende o som que deve ser reproduzido coerentemente no espaço, Pdiff compreende som difuso. A terceira saida da unidade da sintese do primeiro estágio 501 é a Direção de chegada (DOA) θ 505 do ponto de vista da posição de audição desejada, ou seja, uma informação de direção de chegada. Observe que a Direção de chegada (DOA) pode ser expressa como um ângulo azimute se o espaço 2D, ou pelo par de ângulo azimute e de elevação em 3D. Equivalentemente, um vetor da norma da unidade indicado em uma DOA pode ser utilizado. A DOA especifica de qual direção (com relação à posição de audição desejada) o sinal Pdir deve vir. A unidade da sintese do primeiro estágio 501 toma o fluxo GAC como uma entrada, ou seja, uma representação paramétrica do campo de som, e calcula os sinais previamente mencionados com base na posição do ouvinte orientação especificada pela entrada 141. De fato, o usuário final pode decidir livremente a posição de audição e orientação dentro da cena de som descrita pelo fluxo GAC.
[000264] A unidade da sintese do segundo estágio 502 calcula os sinais do alto-falante L 511 a 51L com base no conhecimento da configuração do alto-falante 131. Por favor, recordar que a unidade 502 é idêntica à segunda metade da sintese DirAC descrita em [27].
[000265] A figura 10b descreve uma primeira unidade do estágio da sintese de acordo com uma aplicação. A entrada fornecida ao bloco é um fluxo GAC composto por camadas M. Em uma primeira etapa, a unidade 601 demultiplexa as camadas M em fluxo GAC paralelo de uma camada.
[000266] 0 fluxo GAC i-th compreende um sinal de pressão Pi, uma difusão
Figure img0041
e um vetor de posição Qi = [Xj., Yif Zi]T. O sinal de pressão Pi compreende um ou mais valores de pressão. O vetor de posição é um valor de posição. Pelo menos um sinal de saida de áudio é agora gerado com base nestes valores.
[000267] 0 sinal de pressão para o som difuso e direto Pdir,i e Pdiff,i, é obtido de P, aplicando um fator correto derivado da difusão
Figure img0042
. Os sinais de pressão compreendem som direto que entram no bloco de compensação de propagação 602, que calcula os atrasos correspondentes à propagação do sinal da posição de fonte sonora, por exemplo, a posição da IPLS, à posição do ouvinte. Além disso, o bloco ainda calcula os fatores de ganho necessários para compensar os diferentes declínios de magnitude. Em outras aplicações, apenas os diferentes declínios de magnitude são compensados, enquanto os atrasos não são compensados.
[000268] Os sinais de pressão compensados, denotados por
Figure img0043
entram no bloco 603, que emite o indice iraax da entrada mais forte
Figure img0044
[000269] A ideia principal por trás deste mecanismo é que a M IPLS ativa na posição de tempo-frequência no estudo, apenas a mais forte (com relação a posição do ouvinte) será reproduzida coerentemente (ou seja, como som direto). Os blocos 604 e 605 selecionam a partir de suas entradas um que é definido por
Figure img0045
. O bloco 607 calcula a direção de chegada de
Figure img0046
IPLS com relação à posição e orientação do ouvinte (entrada 141). A saída do bloco 604
Figure img0047
corresponde à saída do bloco 501, a saber o som sinal Pdir que será reproduzido como som direto pelo bloco 502. O som difuso, a saber saida 504 Pdief, compreende a soma de todo o som difuso nas ramificações M bem como todos os sinais de som direto
Figure img0048
exceto para
Figure img0049
a saber
Figure img0050
[000270] A figura 10c ilustra uma segunda unidade do estágio da síntese 502. Como já mencionado, este estágio é idêntico à segunda metade do módulo de síntese proposta em [27] . O som não difuso Pdir 503 é reproduzido como uma fonte do tipo de ponto, por exemplo, pela posição do som, cujos ganhos são calculados no bloco 701 com base na direção de chegada (505). Por outro lado, o som difuso, Pdiff, passa por descorrelacionadores distintos L (711 a 71L) . Para cada um dos sinais L do alto- falante, as passagens do som difuso e direto são adicionadas antes de passar pelo banco de filtro inverso (703).
[000271] A figura 11 ilustra um módulo de síntese de acordo com uma aplicação alternativa. Todas as quantidades na figura são consideradas no dominio de tempo-frequência; a notação (k,n) foi ignorada por razões de simplicidade, por exemplo, Pi = Pi(k,n). Para melhorar a qualidade do áudio da reprodução no caso das cenas de som particularmente complexas, por exemplo, várias fontes ativas ao mesmo tempo, o módulo de sintese, por exemplo, módulo de síntese 104 pode, por exemplo, ser realizada conforme mostrado na figura 11. Ao invés de selecionar a IPLS mais dominante a ser reproduzida coerentemente, a síntese na figura 11 realiza uma síntese completa de cada uma das camadas M separadamente. Os sinais L do alto-falante da camada i-th são a saída do bloco 502 e são denotados por 191j a 19Li. O sinal do alto-falante h-th 19h na saída da primeira unidade do estágio da síntese 501 é a soma de 19hi a 19hM. Por favor observe que diferentemente da figura 10b, a etapa de estimativa da DOA no bloco 607 precisa ser realizada para cada uma das camadas M.
[000272] A figura 26 ilustra um aparelho 950 para gerar um fluxo de dados virtuais do microfone de acordo com uma aplicação. O aparelho 950 para gerar m fluxo de dados virtuais do microfone compreende um aparelho 960 para gerar um sinal de saída de áudio de um microfone virtual de acordo com uma das aplicações descritas acima, por exemplo, de acordo com a figura 12, e um aparelho 970 para gerar um fluxo de dados de áudio de acordo com uma das aplicações descritas acima, por exemplo, de acordo com a figura 2b, em que o fluxo de dados de áudio gerado pelo aparelho 970 para gerar um fluxo de dados de áudio é o fluxo de dados virtuais do microfone.
[000273] O aparelho 960, por exemplo, na figura 26 para de saída de áudio de um microfone virtual compreende um avaliador da posição dos eventos de som e um módulo de computação de informação como na figura 12. 0 avaliador da posição dos eventos de som é adaptado para estimar uma posição de fonte sonora indicando uma posição de uma fonte sonora no ambiente, em que o avaliador da posição dos eventos de som é adaptado para estimar a posição de fonte sonora com base em uma primeira informação de direção fornecida pelo primeiro microfone espacial real estando localizado em uma primeira posição do microfone real no ambiente, e com base em uma segunda informação de direção fornecida pelo segundo microfone espacial real estando localizado em uma segunda posição do microfone real no ambiente. 0 módulo de computação de informação é adaptado para gerar o sinal de saida de áudio com base em um sinal de entrada de áudio gravado, com base na primeira posição do microfone real e com base na posição do microfone calculada.
[000274] O aparelho 960 para gerar um sinal de saida de áudio de um microfone virtual é disposto para fornecer o sinal de saida de áudio ao aparelho 970 para gerar um fluxo de dados de áudio. O aparelho 970 para gerar um fluxo de dados de áudio compreende um determinador, por exemplo, o determinador 210 descrito com relação à figura 2b. O determinador do aparelho 970 para gerar um fluxo de dados de áudio determina os dados de fonte sonora com base no sinal de saida de áudio fornecido pelo aparelho 960 para gerar um sinal de saida de áudio de um microfone virtual.
[000275] A figura 27 ilustra um aparelho 980 para gerar, pelo menos, um sinal de saida de áudio com base em um fluxo de dados de áudio de acordo com uma das aplicações descritas acima, por exemplo, o aparelho de acordo com a reivindicação, sendo configurado para gerar o sinal de saida de áudio com base em um fluxo de dados virtuais do microfone como o fluxo de dados de áudio fornecido por um aparelho 950 para gerar um fluxo de dados virtuais do microfone, por exemplo, o aparelho 950 na figura 26.
[000276] 0 aparelho 980 para gerar um fluxo de dados virtuais do microfone insere o sinal do microfone virtual gerado no aparelho 980 para gerar, pelo menos, um sinal de saida de áudio com base em um fluxo de dados de áudio. Deve ser observado que o fluxo de dados virtuais do microfone é um fluxo de dados de áudio. O aparelho 980 para gerar, pelo menos, um sinal de saida de áudio com base em um fluxo de dados de áudio gera um sinal de saida de áudio com base no fluxo de dados virtuais do microfone como fluxo de dados de áudio, por exemplo, conforme descrito com relação ao aparelho da figura 2a.
[000277] A figura 1 ilustra um aparelho para gerar um fluxo de dados de áudio combinado de acordo com uma aplicação.
[000278] Em uma aplicação, o aparelho compreende um demultiplexador 180 para obter uma pluralidade de fluxos de dados de áudio de camada única, em que o demultiplexador 18 0 é adaptado para receber um ou mais fluxos de dados de áudio de entrada, em que cada fluxo de dados de áudio de entrada compreende uma ou mais camadas, em que o demultiplexador 180 é adaptado para demultiplexar cada um dos fluxos de dados de áudio de entrada tendo uma ou mais camadas em dois ou mais fluxos de dados de áudio demultiplexados tendo exatamente uma camada, de modo que um ou mais fluxos de dados de áudio demultiplexados juntos compreendam uma ou mais camadas do fluxo de dados de áudio de entrada, para obter dois ou mais dos fluxos de dados de áudio de camada única.
[000279] Em outra aplicação, o aparelho compreende um demultiplexador 180 para obter uma pluralidade de fluxos de dados de áudio de camada única, em que o demultiplexador 180 é adaptado para receber dois ou mais fluxos de dados de áudio de entrada, em que cada fluxo de dados de áudio de entrada compreende uma ou mais camadas, em que o demultiplexador 180 é adaptado para demultiplexar cada um dos fluxos de dados de áudio de entrada tendo duas ou mais camadas em dois ou mais fluxos de dados de áudio demultiplexados tendo exatamente uma camada, de modo que os dois ou mais fluxos de dados de áudio demultiplexados juntos compreendam as duas ou mais camadas do fluxo de dados de áudio de entrada, para obter dois ou mais dos fluxos de dados de áudio de camada única.
[000280] Ainda, o aparelho compreende um módulo de combinação 190 para gerar o fluxo de dados de áudio combinado, tendo uma ou mais camadas, com base na pluralidade de fluxos de dados de áudio de camada única. Cada camada dos fluxos de áudio de dados de entrada, dos fluxos de dados de áudio demultiplexados, dos fluxos de dados de camada única e do fluxo de dados de áudio combinado compreende um valor de pressão de um sinal de pressão, um valor de posição e um valor de difusão como dados de áudio, os dados de áudio estando definidos para uma posição de tempo- frequência de uma pluralidade de posições de tempo-frequência.
[000281] Em uma aplicação, o aparelho pode ser adaptado para inserir um ou mais fluxos de dados de áudio de entrada recebidos tendo exatamente uma camada diretamente ao módulo de combinação sem inseri-los ao demultiplexador, veja linha tracejada 195.
[000282] Em algumas aplicações, o demultiplexador 180 é adaptado para modificar os valores de pressão dos fluxos de dados de áudio demultiplexados para equalizar os volumes (por exemplo, ruído) das diferentes cenas de som representadas pelos fluxos de dados de áudio demultiplexados. Por exemplo, se dois fluxos de dados de áudio originam de dois diferentes ambientes de gravação, e o primeiro é caracterizado pelo baixo volume (por exemplo, devido ás fontes que são distantes dos microfones, ou simplesmente devido aos microfones com baixa sensibilidade ou com baixo ganho dos pré-amplificadores) é possível aumentar o volume do primeiro fluxo de dados de áudio multiplicando uma escala aos valores de pressão do primeiro fluxo de dados de áudio. Analogamente, é possível reduzir o volume do segundo fluxo de dados de áudio de forma semelhante.
[000283] A figura 28 descreve as entradas e saídas de um aparelho para gerar um fluxo de dados de áudio combinado de acordo com outra aplicação. Um número de fluxos de dados de áudio M, por exemplo, fluxos GAC M, e opcionalmente, um sinal de pressão p(t) e posição q(t) de uma fonte sonora artificial a ser injetada, são inseridos ao aparelho da figura 28. Em outra aplicação, duas ou mais fontes sonoras artificiais (fontes sonoras sintéticas) são inseridos ao aparelho. Na saída, um fluxo de saída de áudio, por exemplo, um fluxo GAC representando a cena de som modificado, é retornado.
[000284] Analogamente, um fluxo de saída de áudio, por exemplo, um fluxo GAC, pode ser diretamente gerado de uma fonte monossonora (ou seja, sem qualquer combinação).
[000285] 0 primeiro tipo de entrada 1111, 1112, ..., 111M ao aparelho são fluxos de dados de áudio, por exemplo, fluxos GAC M, onde o fluxo i-th compreende Li camadas,
Figure img0051
Qac[a camada do fluxo de dados de áudio i-th compreende um ou mais valores de pressão do sinal de pressão complexo Pi, a posição da fonte
Figure img0052
, e a difusão
Figure img0053
em um dominio de tempo- frequência. Se uma representação bidimensional é utilizada, a posição da fonte pode ser definida como
Figure img0054
. Deve ser observado que todas as quantidades dependem dos índices de tempo e frequência (k, n). Em uma formulação, entretanto, a dependência do tempo e frequência não é explicitamente mencionada para uma formulação melhor legível e para simplificar.
[000286] A entrada 1120 é a informação opcional sendo representada em um domínio de tempo, na pressão e na posição de uma fonte sonora artificial a ser inserida na cena de som. A 1140 saída do aparelho da figura 28 é um fluxo de dados de áudio, por exemplo, um fluxo GAC tendo Lo camadas.
[000287] A figura 29 ilustra um aparelho para gerar um fluxo de dados de áudio combinado de acordo com outra aplicação. Na figura 29, o demultiplexador da figura 1 compreende uma pluralidade de unidades de demultiplexação. O aparelho da figura 29 compreende as unidades de demultiplexação (DEMUX) 1201, um gerador de fonte artificial (realizando o fluxo de áudio, por exemplo, fluxo GAC, geração para uma fonte artificial) 1202, e um módulo de combinação 1203.
[000288] Referente a uma das unidades de demultiplexação 1201, a unidade de demultiplexação com relação ao fluxo GAC i-th llli, que compreende L± camadas, saídas Li fluxos GAC separados de camada única. O gerador de fonte artificial 1202 gera um fluxo GAC de camada única para a fonte sonora artificial.
[000289] O módulo de combinação 1203, que realiza a combinação recebe fluxos GAC de camada única N, em que N é: M
Figure img0055
(1)
[000290] A figura 30 descreve um módulo de combinação 1203 de acordo com uma aplicação. O fluxos de dados de áudio de camada única N, por exemplo, os fluxos GAC de camada única N, 1211 a 121N são combinados, resultando no fluxo de dados de áudio, por exemplo, um fluxo GAC 1140, tendo Lo camadas correspondentes à combinação da cenas de som, onde Lo - N.
[000291] A combinação é inter alia, com base no seguinte conceito: para cada posição de tempo-frequência, há N IPLS ativo, cada um descrito por um dos fluxos GAC N. Considerando, 0 por exemplo, energia e difusão, as fontes mais proeminentes Lo sâo identificadas. As primeiras fontes Lo - 1 são simplesmente reatribuidas às primeiras camadas do fluxo de dados de áudio combinado Lo - 1, por exemplo, o fluxo GAC de saída, onde todas as fontes restantes são adicionadas à ultima camada, ou seja, a Loth .
[000292] O aparelho da figura 30 compreende um módulo de função de custo 1401. O módulo de função de custo 1401 analisa os sinais de pressão N e parâmetros de difusão N. O módulo de função de custo 1401 é configurado para determinar as fontes sonoras mais proeminentes para cada posição de tempo-frequência. Por exemplo, a função de custo fi para o fluxo i-th com ' J pode ser, por exemplo, definido como
Figure img0056
[000293] de modo que uma fonte sonora, por exemplo, uma IPLS, com alta energia e baixa difusão resulta em valores altos da função de custo. A função de custo fj. calcula um valor de custo.
[000294] A saida do módulo de função de custo 1401 é o vetor r de tamanho Lo x 1, compreendendo os indices da IPLS com fi mais alto. Ainda, os indices são classificados da IPLS mais proeminente à menos. Esta informação é passada a uma unidade de mistura de posição 1403, uma unidade de combinação de pressão 1404, e uma unidade de combinação de difusão 1405, onde os parâmetros do fluxo GAC resultante para cada posição de tempo- frequência são calculados corretamente. Aplicações como calcular os parâmetros são descritos em detalhes abaixo.
[000295] O aparelho da figura 30 compreender, ainda, um módulo de adaptação da cena sonora 1402. O módulo de adaptação da cena sonora 1402 permite controle adicional sobre a etapa de combinação, onde a informação de posição de GAC é manipulada antes da combinação real. Desta forma, vários esquemas de combinação podem ser obtidos, por exemplo, combinação com sobreposição completa dos eventos nas cenas separadas, combinação com colocação das cenas de som lado a lado, combinação com determinadas restrições na quantidade da sobreposição etc.
[000296] A figura 31a, a figura 31b e a figura 31c descrevem possíveis cenários da cena de som. A figura 31a mostra duas cenas de som com um falador cada. Os vetores indicam um sistema de coordenada local. Após a combinação, sem qualquer modificação realizada pelo módulo de adaptação da cena sonora 14 02, uma cena de som conforme descrito no fundo da figura 31a será obtida. Isso pode ser indesejado. Pela manipulação do sistema de coordenada de uma ou mais cenas de som, é possível compor a cena de som combinada arbitrariamente. Na figura 31b, como um exemplo, uma rotação é introduzida, de modo que nas cenas de som combinadas os transmissores são separados. Traduções (conforme mostrado na figura 31c) ou transformações não lineares aplicadas nas posições Qi a QN são ainda possíveis.
[000297] A unidade de mistura de posição 1403, a unidade de combinação de pressão 1404, e a unidade de combinação de difusão 1405 são adaptadas para receber os fluxos do parâmetro N como entrada e são adaptadas para calcular os parâmetros dos fluxos GAC's Lo resultantes.
[000298] Cada um dos parâmetros pode ser obtido da seguinte forma: a. A unidade de mistura de posição 1403 é adaptada para determinar a posição resultante do fluxo GAC de saída. A posição da fonte i-th no fluxo de saída Qi' corresponde à posição da fonte de entrada não difusa mais proeminente i-th indicada pelo vetor r fornecido pelo módulo de função de custo 1401.
Figure img0057
[000299] onde r± indica o elemento i-th de r.
[000300] Pela determinação das fontes de entrada não difusas mais proeminentes L0-th conforme indicado pelo vetor r, a unidade de mistura de posição 1403 determina um grupo compreendendo um ou mais fluxos de dados de áudio de camada única, em que o valor de custo de cada um dos fluxos de dados de áudio de camada única do grupo pode ser maior do que o valor de custo de qualquer fluxo de dados de áudio de camada única não compreendido no grupo. A unidade de mistura de posição 1403 é adaptada para selecionar/gerar um ou mais valores de posição de uma ou mais camadas do fluxo de dados de áudio combinado, de modo que cada valor de posição de cada um dos fluxos de dados de áudio de camada única do grupo seja um valor de posição de uma das camadas do fluxo de dados de áudio combinado. b. A pressão resultante para cada um dos fluxos é calculada pela unidade de combinação de pressão 1404. O sinal de pressão para todos, mas o último fluxo GAC (L0-th) é igual ao sinal de pressão correspondente de acordo com o vetor de entrada r. A pressão do fluxo GAC L0-th é dada como uma combinação linear das pressões de cada um dos sinais de pressão restantes N - L0+l, por exemplo
Figure img0058
[000301] Pela determinação das fontes de entrada não difusas mais proeminentes L0-l -th conforme indicado pelo vetor r, a unidade de combinação de pressão é adaptada para determinar um primeiro grupo compreendendo um ou mais fluxos de dados de áudio de camada única da pluralidade de fluxos de dados de áudio de camada única e para determinar um segundo grupo (as fontes de entrada restantes no vetor r) compreendendo um ou mais diferentes fluxos de dados de áudio de camada única da pluralidade de fluxos de dados de áudio de camada única, em que o valor de custo de cada um dos fluxos de dados de áudio de camada única do primeiro grupo é maior do que o valor de custo de cada um dos fluxos de dados de áudio de camada única do segundo grupo. A unidade de combinação de pressão é adaptada para gerar um ou mais valores de pressão de uma ou mais camadas do fluxo de dados de áudio combinado, de modo que cada valor de pressão de cada um dos fluxos de dados de áudio de camada única do primeiro grupo seja um valor de pressão de uma das camadas do fluxo de dados de áudio combinado, e de modo que uma combinação do valores de pressão dos fluxos de dados de áudio de camada única do segundo grupo seja um valor de pressão de uma das camadas do fluxo de dados de áudio combinado. c. A difusão do fluxo GAC resultante é calculada pela unidade de combinação de difusão 1405. Semelhantemente a outros parâmetros, a difusão é copiada dos fluxos de entrada a todos, menos o último, fluxo GAC L0-th
Figure img0059
[000302] Os parâmetros L0-th de difusão podem, por p' exemplo, ser calculados considerando que o sinal de pressão Lo compreende som direto de mais IPLS que não será interpretado coerentemente, como apenas uma posição pode ser atribuída. P' Assim, a quantidade de energia em Lo que corresponde ao som direto é meramente
Figure img0060
[000303] Consequentemente, a difusão pode ser obtida por
Figure img0061
[000304] Pela determinação das fontes de entrada não difusas L0-l -th mais proeminentes conforme indicado pelo vetor r, a unidade de combinação de difusão é adaptada para determinar um primeiro grupo compreendendo um ou mais fluxos de dados de áudio camada única e para determinar um segundo grupo (as fontes de entrada restantes no vetor r) compreendendo um ou mais diferentes fluxos de dados de áudio de camada única da pluralidade de fluxos de dados de áudio de camada única, em que o valor de custo de cada um dos fluxos de dados de áudio de camada única do primeiro grupo é maior do que o valor de custo de cada um dos fluxos de dados de áudio de camada única do segundo grupo. A unidade de combinação de difusão é adaptada para gerar um ou mais valores de pressão de uma ou mais camadas do fluxo de dados de áudio combinado, de modo que cada valor de difusão de cada um dos fluxos de dados de áudio de camada única do primeiro grupo seja um valor de difusão de uma das camadas do fluxo de dados de áudio combinado, e de modo que uma combinação dos valores de difusão dos fluxos de dados de áudio de camada única do segundo grupo seja um valor de difusão de uma das camadas do fluxo de dados de áudio combinado.
[000305] Finalmente, os fluxos GAC de camada única resultantes Lo são multiplexados no bloco 1406 para formar o fluxo GAC final (saída 1140) das camadas Lo.
[000306] A seguir, geradores de fonte artificial de acordo com as aplicações são descritas em mais detalhes com referência à figura 32a e à figura 32b.
[000307] O gerador de fonte artificial é um módulo opcional e utiliza como entrada 1120 uma posição e um sinal de pressão expressa no domínio de tempo de uma fonte sonora artificial, que deve ser inserida na cena de som. Esta então retorna o fluxo GAC da fonte artificial como saída 121N.
[000308] A informação sobre a posição da fonte no tempo é dada ao primeiro bloco de processamento 1301. Se a fonte sonora não estiver movendo, o bloco 1301 simplesmente copia a posição para todas as posições de tempo-frequência Q(k, n) na saida 21N. 'Para um fonte móvel, a informação em q(t) é copiada em todas as posições de frequência k correspondentes ao bloco de tempo correto n. A saida do bloco 1301 é então diretamente passada como o fluxo GAC ao bloco 1203. O sinal de pressão p(t) da fonte injetada 1120 pode ser a. diretamente convertido ao ao sinal de pressão do fluxo GAC P(k, n) (veja a figura 32a) b. primeiro reverberado e então convertido ao sinal de pressão do fluxo GAC
[000309] P(k, n) (veja a figura 32b).
[000310] De acordo com a aplicação a), ilustrada na figura 32a, o sinal é transformado no dominio de frequência utilizando o banco de filtro de análise no bloco 1302 e então passado como parâmetro do fluxo GAC correspondente à fonte inserida. Se o sinal de pressão p(t) não está seco, o sinal pode passar pelo bloco opcional 1303, onde o ruido e/ou atmosfera são detectados. A informação no ruido e atmosfera passa então ao bloco 1304, que calcula a estimativa da difusão. O bloco 1303 pode implementar um algoritmo do estado da técnica para estas finalidades, como a descrita em
[000311] [30] C. Uhle e C. Paul: A supervised learning approach to ambience extraction from mono recordings for blind upmixing in Proc, of the 11th Int. Conference on Digital Audio Effects (DAFx-08), Espoo, Finland, September 1-4, 2008.
[000312] A informação sobre o ruido e atmosfera passa então ao bloco 1304, que calcula a estimativa de difusão. Isso é particularmente útil para evitar que a atmosfera e ruído compreendidos em p(t) sejam reproduzidos coerentemente na síntese. Assim, o mecanismo já descrito garante que a parte direta do sinal seja atribuída a um baixo valor de difusão onde as partes com ruído e ambiente do sinal são associadas com a alta difusão. De modo alternativo à passagem do sinal do bloco 1303 e 1304, o parâmetro de difusão em 121N pode ser simplesmente definido em um valor constante.
[000313] A aplicação b), ilustrada na figura 32b, em algum sentido da situação oposta, é abrangida. Assumindo que p(t) é um sinal seco, pode ser desejado adicionar a reverberação para tornar o p(t) som mais natural, ou seja, para fazer o som da fonte sonora sintética como se fosse gravado em uma sala. Isso é obtido por meios do bloco 1305. Tanto os siais reverberados quando os originais passam pela transformação conduzida com o banco de filtro de análise 1302 e são passados ao bloco de análise do índice de potência 1306. O bloco 1306 calcula a informação em quanto a reverberação e quando o som direto está presente em uma determinada posição de tempo-frequência, por exemplo, calculando o índice Direto a Reverberação (DRR | Direct to Reverberation Ratio). Esta informação é então passada ao bloco 1304, no qual a difusão é calculada.
[000314] Para o DRR alto o parâmetro de difusão é definido em valores baixos, enquanto que quando a reverberação domina (por exemplo, sem restos da última reverberação) a difusão é definida em valores altos.
[000315] A seguir, alguns casos especiais são descritos.
[000316] Se fluxos GAC M de camada única precisam ser combinados a um fluxo GAC Lo = 1, então uma aplicação simplificada pode ser empregada. O fluxo GAC resultante será caracterizado pela: - pressão: a pressão será a soma de todos os sinais de pressão M. - posição: a posição será a posição das fontes sonoras mais fortes, por exemplo, uma IPLS mais forte. - difusão: a difusão será calculada de acordo com a fórmula (5) .
[000317] Se o número de camadas na saida é igual ao número total de camadas na entrada, ou seja, Lo = N, então, o fluxo de saida pode ser visto como uma concatenação dos fluxos de entrada.
[000318] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é claro que estes aspectos ainda representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou uma característica de uma etapa do método. Analogamente, aspectos descritos no contexto de uma etapa do método ainda representam uma descrição de uma unidade correspondente ou item ou característica de um aparelho correspondente.
[000319] 0 sinal decomposto inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido em um meio de transmissão como um meio de transmissão sem fio ou um meio de transmissão cabeado como a Internet.
[000320] Dependendo de certas exigências de implementação, aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu- Ray, um CD, uma memória ROM, PROM, EPROM, EEPROM ou uma memória FLASH, com sinais de controle eletronicamente legiveis armazenados nele, que cooperam (ou são capazes de cooperar) com um sistema de computador programável de modo que o respectivo método seja realizado. Portanto, o meio de armazenamento digital pode ser um computador legível.
[000321] Algumas aplicações de acordo com a invenção compreendem um transportador de dados com sinais de controle legíveis eletronicamente que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descrito neste documento seja realizado.
[000322] Geralmente, aplicações da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa sendo eficiente para realizar um dos métodos quando o produto de programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em um transportador de máquina legível.
[000323] Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos neste documento, armazenado em um transportador de máquina legível.
[000324] Em outras palavras, uma aplicação do método inventivo é, portanto, um programa de computador com um código de programa para realizar um dos métodos descritos neste documento, quando o programa de computador é executado em um computador.
[000325] Outra aplicação dos métodos inventivos é, assim, um transportador de dados (ou um meio de armazenamento digital, ou um meio legível de computador) compreendendo, gravado ali, programa de computador para realizar um dos métodos descritos neste documento. 0 transportador de dados, o meio de armazenamento digital ou o meio gravado são normalmente tangíveis e/ou nâo transitórios.
[000326] Outra aplicação do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos neste documento. O fluxo de dados ou a sequência dos sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.
[000327] Outra aplicação compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável configurado ou adaptado para realizar um dos métodos descrito neste documento.
[000328] Outra aplicação compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos descritos neste documento.
[000329] Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arranjo de porta de campo programável) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos neste documento. Em algumas aplicações, um arranjo de porta de campo programável pode cooperar com um microprocessador para realizar um dos métodos descritos neste documento. Geralmente, os métodos são preferivelmente realizados em qualquer aparelho de hardware.
[000330] As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção. É entendido que as modificações e variações das disposições e os detalhes descritos neste documento serão evidentes a outros especialistas na técnica. É a intenção, portanto, ser limitado apenas pelo escopo das reivindicações de patente iminentes e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações neste documento.
LITERATURA:
[000331] [1] Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859-871, 1985.
[000332] [2] V. Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing," in Proceedings of the AES 28th International Conference, pp. 251-258, Piteâ, Sweden, June 30 - July 2, 2006.
[000333] [3] V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc., vol. 55, no. 6, pp. 503-516, June 2007.
[000334] [4] C. Faller: "Microphone Front-Ends for Spatial Audio Coders", in Proceedings of the AES 125th International Convention, San Francisco, Oct. 2008.
[000335] [5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Küch, D. Mahne, R. Schultz-Amiing. and 0. Thiergart, "A spatial filtering approach for directional audio coding," in Audio Engineering Society Convention 126, Munich, Germany, May 2009.
[000336] [6] R. Schultz-Amling, F. Küch, 0. Thiergart, and M. Kallinger, "Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, London UK, May 2010.
[000337] [7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger, and 0. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology," in Audio Engineering Society Convention 128, London UK, May 2010.
[000338] [8] E. G. Williams, Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography, Academic Press, 1999.
[000339] [9] A. Kuntz and R. Rabenstein, "Limitations in the extrapolation of wave fields from circular measurements," in 15th European Signal Processing Conference (EUSIPCO 2007), 2007.
[000340] [10] A. Walther and C. Faller, "Linear simulation of spaced microphone arrays using b-format recordings," in Audio Engiineering Society Convention 128, London UK, May 2010.
[000341] [11] US61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal.
[000342] [12] S. Rickard and Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1.
[000343] [13] R. Roy, A. Paulraj, and T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986.
[000344] [14] R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986.
[000345] [15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553.
[000346] [16] F. J. Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989.
[000347] [17] R. Schultz-Amling, F. Kiich, M. Kallinger, G. Del Galdo, T. Ahonen and V. Pulkki, "Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding," in Audio Engineering Society Convention 124, Amsterdam, The Netherlands, May 2008.
[000348] [18] M. Kallinger, F. Küch, R. Schultz-Amling, G. Del Galdo, T. Ahonen and V. Pulkki, "Enhanced direction estimation using microphone arrays for directional audio coding;" in Hands-Free Speech Communication and Microphone Arrays, 2008. HSCMA 2008, May 2008, pp. 45-48.
[000349] [19] R. K. Furness, "Ambisonics - An overview," in AES 8th International Conference, April 1990, pp. 181-189.
[000350] [20] Giovanni Del Galdo, Oliver Thiergart, TobiasWeller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA 'll), Edinburgh, United Kingdom, May 2011.
[000351] [21] Jurgen Herre, Cornelia Falch, Dirk Mahne, Giovanni Del Galdo, Markus Kallinger, and Oliver Thiergart. Interactive teleconferencing combining spatial audio object coding and DirAC technology. In Audio Engineering Society Convention 128, 5 2010.
[000352] [22] G. Del Galdo, F.Kuech, M. Kallinger, and R. Schultz-Amling. Efficient merging of multiple audio streams for spatial sound reproduction in directional audio coding. In International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2009), 2009.
[000353] [23] US 20110216908: Apparatus for Merging Spatial Audio Streams.
[000354] [24] Emmanuel Gallo and Nicolas Tsingos. Extracting and re-rendering structured auditory scenes from field recordings. In AES 30th International Conference on Intelligent Audio Environments, 2007.
[000355] [25] Jeroen Breebaart, Jonas Engdegârd, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Jeroesn Koppens, Werner Oomen, Barbara Resch, Erik Schuijers, and Leonid Terentiev. Spatial audio object coding (saoc) - the upcoming mpeg standard on parametric object based audio coding. In Audio Engineering Society Convention 124, 5 2008.
[000356] [26] R. Roy and T. Kailath. ESPRIT-estimation of signal parameters via rotational invariance techniques. Acoustics, Speech and Signal Processing, IEEE Transactions on, 37 (7) : 984-995, July 1989.
[000357] [27] Tapio Lokki, Juha Merimaa, and Ville Pulkki. Method for reproducing natural or modified spatial impression in multichannel listening, 2006.
[000358] [28] Svein Merge. Device and method for converting spatial audio signal. US patent application, Appl. No. 10/547,151.
[000359] [29] Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55 (6) :503-516, June 2007.
[000360] [30] C. Uhle and C. Paul: A supervised learning approach to ambience extraction from mono recordings for blind upmixing in Proc, of the 11th Int. Conference on Digital Audio Effects (DAFx-08), Espoo, Finland, September 1-4, 2008.

Claims (17)

1. Um aparelho para gerar um fluxo de dados de áudio mesclado, em que o aparelho é implementado usando um aparelho de hardware ou um computador, em que o aparelho compreende: um demultiplexador para adquirir uma pluralidade de fluxos de dados de áudio de camada única, caracterizado pelo demultiplexador está adaptado para receber um ou mais fluxos de dados de áudio de entrada, em que cada fluxo de dados de áudio de entrada compreende uma ou mais camadas, em que o demultiplexador está adaptado para demultiplexar cada uma dos fluxos de dados de áudio de entrada compreendendo uma ou mais camadas em dois ou mais fluxos de dados de áudio desmultiplexados compreendendo exatamente uma camada, de modo que os dois ou mais fluxos de dados de áudio demultiplexados juntos compreendam uma ou mais camadas do fluxo de dados de áudio de entrada, para adquirir dois ou mais dos fluxos de dados de áudio de camada única; e um módulo de mesclagem para gerar o fluxo de dados de áudio mesclado, compreendendo uma ou mais camadas, com base na pluralidade de fluxos de dados de áudio de camada única, em que cada camada dos fluxos de dados de áudio de entrada, dos fluxos de dados de áudio demultiplexados, dos fluxos de dados de camada única e do fluxo de dados de áudio mesclado compreende um valor de pressão de um sinal de pressão, um valor de posição e um valor de difusão como dados de áudio , em que o valor da posição indica uma posição de uma fonte de som.
2. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que os dados de áudio são definidos para um bin de tempo-frequência de uma pluralidade de bins de tempo-frequência.
3. Aparelho, de acordo com a reivindicação 2, caracterizado pelo fato de que o módulo de fusão compreende, além disso, uma unidade de fusão de pressão, em que a unidade de fusão de pressão é adaptada para determinar um primeiro grupo compreendendo um ou mais fluxos de dados de áudio de camada única da pluralidade de fluxos de dados de áudio de camada única e para determinar um segundo grupo compreendendo um ou mais fluxos de dados de áudio de camada única diferentes. a pluralidade de fluxos de dados de áudio de camada única, em que um valor de custo de cada um dos fluxos de dados de áudio de camada única do primeiro grupo é maior do que um valor de custo de cada um dos fluxos de dados de áudio de camada única do segundo grupo, ou em que o valor de custo de cada um dos streams de dados de áudio de camada do primeiro grupo é menor do que o valor de custo de cada um dos streams de dados de áudio de camada única do segundo grupo, em que a unidade de fusão de pressão está adaptada para gerar um ou mais valores de pressão de uma ou mais camadas do fluxo de dados de áudio fundido, de modo que cada valor de pressão de cada um dos fluxos de dados de áudio de camada única do primeiro grupo seja uma pressão valor de uma das camadas do fluxo de dados de áudio mesclado, e de modo que uma combinação dos valores de pressão dos fluxos de dados de áudio de camada única do segundo grupo seja um valor de pressão de uma das camadas do fluxo de dados de áudio mesclado.
4. Aparelho, de acordo com a reivindicação 2, caracterizado pelo fato de que o módulo de fusão compreende, além disso, uma unidade de fusão de difusão, em que a unidade de fusão de difusão é adaptada para determinar um terceiro grupo compreendendo um ou mais fluxos de dados de áudio de camada única da pluralidade de fluxos de dados de áudio de camada única e para determinar um quarto grupo compreendendo um ou mais fluxos de dados de áudio de camada única diferentes a pluralidade de fluxos de dados de áudio de camada única, em que um valor de custo de cada um dos fluxos de dados de áudio de camada única do terceiro grupo é maior do que um valor de custo de cada um dos fluxos de dados de áudio de camada única do quarto grupo, ou em que o valor de custo de cada um dos streams de dados de áudio de camada do terceiro grupo é menor do que o valor de custo de cada um dos streams de dados de áudio de camada única do quarto grupo, em que a unidade de difusão de difusão é adaptada para gerar um ou mais valores de difusão de uma ou mais camadas do fluxo de dados de áudio mesclado, de modo que cada valor de difusão de cada um dos fluxos de dados de áudio de camada única do terceiro grupo seja uma difusão valor de uma das camadas do fluxo de dados de áudio mesclado, e de modo que uma combinação dos valores de difusão dos fluxos de dados de áudio de camada única do quarto grupo seja um valor de difusão de uma das camadas do fluxo de dados de áudio mesclado.
5. Aparelho, de acordo com a reivindicação 2, caracterizado pelo fato de que o módulo de fusão compreende, além disso, uma unidade de mistura de posição, em que a unidade de mistura de posição é adaptada para determinar um quinto grupo que compreende um ou mais fluxos de dados de áudio de camada única da pluralidade de fluxos de dados de áudio de camada única, em que um valor de custo de cada um dos fluxos de dados de áudio de camada única do quinto grupo é maior do que um valor de custo de quaisquer fluxos de dados de áudio de camada única não compreendidos no quinto grupo da pluralidade de fluxos de dados de áudio de camada única, ou em que o valor de custo de cada um dos fluxos de dados de áudio de camada única do quinto grupo é menor do que o valor de custo de quaisquer fluxos de dados de áudio de camada única não compreendidos no quinto grupo da pluralidade de fluxos de dados de áudio de camada única, em que a unidade de valor de posição é adaptada para gerar um ou mais valores de posição de uma ou mais camadas do fluxo de dados de áudio mesclado, de modo que cada valor de posição de cada um dos fluxos de dados de áudio de camada única do quinto grupo seja uma posição valor de uma das camadas do fluxo de dados de áudio mesclado.
6. Aparelho, de acordo com a reivindicação 2, caracterizado pelo fato de que o módulo de fusão compreende, além disso, um módulo de adaptação de cena de som para manipular o valor de posição de um ou mais dos fluxos de dados de áudio de camada única da pluralidade de fluxos de dados de áudio de camada única.
7. Aparelho, de acordo com a reivindicação 6, caracterizado pelo fato de que o módulo de adaptação de cena de som é adaptado para manipular o valor de posição de um ou mais dos fluxos de dados de áudio de camada única da pluralidade de fluxos de dados de áudio de camada única aplicando uma rotação, translação ou uma transformação não linear no valor da posição.
8. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que o módulo de fusão compreende um módulo de função de custo para atribuir um valor de custo a cada um dos fluxos de dados de áudio de camada única, e em que o módulo de mesclagem está adaptado para gerar o fluxo de dados de áudio mesclado com base nos valores de custo atribuídos aos fluxos de dados de áudio de camada única.
9. Aparelho, de acordo com a reivindicação 8, caracterizado pelo fato de que o módulo de função de custo é adaptado para atribuir o valor de custo a cada um dos fluxos de dados de áudio de camada única dependendo de pelo menos um dos valores de pressão ou dos valores de difusão da camada única fluxo de dados de áudio.
10. Aparelho, de acordo com a reivindicação 9, caracterizado pelo fato de que o módulo de função de custo é adaptado para atribuir o valor de custo a cada fluxo de dados de áudio do grupo de fluxos de dados de áudio de camada única aplicando a fórmula:
Figure img0062
em que Pi é o valor de pressão e
Figure img0063
é o valor de difusão da camada de um i-ésimo fluxo de dados de áudio do grupo de fluxos de dados de áudio de camada única.
11. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que o desmultiplexador está adaptado para modificar uma magnitude de um dos valores de pressão de um dos fluxos de dados de áudio desmultiplexados, multiplicando a magnitude por um valor escalar.
12. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que o demultiplexador compreende uma pluralidade de unidades de demultiplexação, em que cada uma das unidades de demultiplexação é configurada para demultiplexar um ou mais dos fluxos de dados de áudio de entrada.
13. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que o aparelho compreende, além disso, um gerador de fonte artificial para gerar um fluxo de dados artificial compreendendo exatamente uma camada, em que o gerador de fonte artificial está adaptado para receber informações de pressão sendo representadas em um domínio de tempo e para receber informações de posição, em que o gerador de fonte artificial está adaptado para replicar as informações de pressão para gerar informações de posição para uma pluralidade de caixas de tempo- frequência, e em que o gerador de fonte artificial é, além disso, adaptado para calcular informações de difusão com base nas informações de pressão.
14. Aparelho, de acordo com a reivindicação 13, caracterizado pelo fato de que o gerador de fonte artificial é adaptado para transformar a informação de pressão que está sendo representada em um domínio de tempo para um domínio de frequência de tempo.
15. Aparelho, de acordo com a reivindicação 13, caracterizado pelo fato de que o gerador de fonte artificial é adaptado para adicionar reverberação às informações de pressão.
16. Método para gerar um fluxo de dados de áudio mesclado, caracterizado pelo fato de que compreende adquirir uma pluralidade de fluxos de dados de áudio de camada única, em que o demultiplexador está adaptado para receber um ou mais fluxos de dados de áudio de entrada, em que cada fluxo de dados de áudio de entrada compreende uma ou mais camadas, em que o demultiplexador está adaptado para demultiplexar cada uma das entradas fluxos de dados de áudio compreendendo uma ou mais camadas em dois ou mais fluxos de dados de áudio demultiplexados compreendendo exatamente uma camada, de modo que os dois ou mais fluxos de dados de áudio demultiplexados juntos compreendam uma ou mais camadas do fluxo de dados de áudio de entrada, para adquirir dois ou mais dos fluxos de dados de áudio de camada única; e gerar o fluxo de dados de áudio mesclado, compreendendo uma ou mais camadas, com base na pluralidade de fluxos de dados de áudio de camada única, em que cada camada dos fluxos de dados de áudio de entrada, dos fluxos de dados de áudio demultiplexados, dos fluxos de dados de camada única e do fluxo de dados de áudio mesclado compreende um valor de pressão de um sinal de pressão, um valor de posição e um valor de difusão como dados de áudio , os dados de áudio sendo definidos para um compartimento de tempo-frequência de uma pluralidade de compartimentos de tempo- frequência, em que o valor de posição indica uma posição de uma fonte de som.
17. Meio de armazenamento digital não transitório, em que compreende um programa de computador para implementar o método para gerar um fluxo de dados de áudio mesclado, o método caracterizado pelo fato de que compreende adquirir uma pluralidade de fluxos de dados de áudio de camada única, em que o demultiplexador está adaptado para receber um ou mais fluxos de dados de áudio de entrada, em que cada fluxo de dados de áudio de entrada compreende uma ou mais camadas, em que o demultiplexador está adaptado para demultiplexar cada um dos fluxos de dados de áudio compreendendo uma ou mais camadas em dois ou mais fluxos de dados de áudio demultiplexados compreendendo exatamente uma camada, de modo que os dois ou mais fluxos de dados de áudio demultiplexados juntos compreendam uma ou mais camadas do fluxo de dados de áudio de entrada, para adquirir dois ou mais dos fluxos de dados de áudio de camada única; e gerar o fluxo de dados de áudio mesclado, compreendendo uma ou mais camadas, com base na pluralidade de fluxos de dados de áudio de camada única, em que cada camada dos fluxos de dados de áudio de entrada, dos fluxos de dados de áudio demultiplexados, dos fluxos de dados de camada única e do fluxo de dados de áudio mesclado compreende um valor de pressão de um sinal de pressão, um valor de posição e um valor de difusão como dados de áudio , os dados de áudio sendo definidos para um compartimento de tempo-frequência de uma pluralidade de compartimentos de tempo- frequência, em que o valor de posição indica uma posição de uma fonte de som, quando executado em um computador ou processador de sinal.
BR112014013336-0A 2011-12-02 2012-11-30 Aparelho e método para combinar fluxos de codificação de áudio espacial com base em geometria BR112014013336B1 (pt)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP11191816.5A EP2600343A1 (en) 2011-12-02 2011-12-02 Apparatus and method for merging geometry - based spatial audio coding streams
US13/445,585 US9484038B2 (en) 2011-12-02 2012-04-12 Apparatus and method for merging geometry-based spatial audio coding streams
US13/455,585 2012-04-12
PCT/EP2012/074097 WO2013079663A2 (en) 2011-12-02 2012-11-30 Apparatus and method for merging geometry-based spatial audio coding streams

Publications (2)

Publication Number Publication Date
BR112014013336A2 BR112014013336A2 (pt) 2021-01-26
BR112014013336B1 true BR112014013336B1 (pt) 2021-08-24

Family

ID=45047686

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112014013336-0A BR112014013336B1 (pt) 2011-12-02 2012-11-30 Aparelho e método para combinar fluxos de codificação de áudio espacial com base em geometria

Country Status (18)

Country Link
US (1) US9484038B2 (pt)
EP (2) EP2600343A1 (pt)
JP (1) JP6086923B2 (pt)
KR (1) KR101666730B1 (pt)
CN (1) CN104185869B9 (pt)
AR (1) AR089053A1 (pt)
AU (3) AU2012343819C1 (pt)
BR (1) BR112014013336B1 (pt)
CA (1) CA2857614C (pt)
HK (1) HK1202181A1 (pt)
IN (1) IN2014KN01069A (pt)
MX (1) MX342794B (pt)
MY (1) MY167160A (pt)
RU (1) RU2609102C2 (pt)
SG (1) SG11201402777QA (pt)
TW (1) TWI555412B (pt)
WO (1) WO2013079663A2 (pt)
ZA (1) ZA201404823B (pt)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10152524B2 (en) * 2012-07-30 2018-12-11 Spatial Digital Systems, Inc. Wavefront muxing and demuxing for cloud data storage and transport
WO2013093565A1 (en) * 2011-12-22 2013-06-27 Nokia Corporation Spatial audio processing apparatus
US9407992B2 (en) * 2012-12-14 2016-08-02 Conexant Systems, Inc. Estimation of reverberation decay related applications
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
US9502044B2 (en) 2013-05-29 2016-11-22 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
WO2015017037A1 (en) * 2013-07-30 2015-02-05 Dolby International Ab Panning of audio objects to arbitrary speaker layouts
CN104683933A (zh) 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
US10042037B2 (en) * 2014-02-20 2018-08-07 Nestwave Sas System and method for estimating time of arrival (TOA)
EP2942981A1 (en) 2014-05-05 2015-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System, apparatus and method for consistent acoustic scene reproduction based on adaptive functions
EP3143779B1 (en) 2014-05-13 2020-10-07 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for edge fading amplitude panning
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) * 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US10140996B2 (en) 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US9984693B2 (en) 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
US10567185B2 (en) 2015-02-03 2020-02-18 Dolby Laboratories Licensing Corporation Post-conference playback system having higher perceived quality than originally heard in the conference
US10057707B2 (en) 2015-02-03 2018-08-21 Dolby Laboratories Licensing Corporation Optimized virtual scene layout for spatial meeting playback
HK1255002A1 (zh) 2015-07-02 2019-08-02 杜比實驗室特許公司 根據立體聲記錄確定方位角和俯仰角
EP3318070B1 (en) 2015-07-02 2024-05-22 Dolby Laboratories Licensing Corporation Determining azimuth and elevation angles from stereo recordings
EP3332557B1 (en) 2015-08-07 2019-06-19 Dolby Laboratories Licensing Corporation Processing object-based audio signals
CN105117111B (zh) * 2015-09-23 2019-11-15 小米科技有限责任公司 虚拟现实交互画面的渲染方法和装置
TWI577194B (zh) * 2015-10-22 2017-04-01 山衛科技股份有限公司 環境音源辨識系統及其環境音源辨識之方法
US10206040B2 (en) * 2015-10-30 2019-02-12 Essential Products, Inc. Microphone array for generating virtual sound field
CA3011915C (en) 2016-01-22 2021-07-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
US10923132B2 (en) 2016-02-19 2021-02-16 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
US9949052B2 (en) 2016-03-22 2018-04-17 Dolby Laboratories Licensing Corporation Adaptive panner of audio objects
US20170293461A1 (en) * 2016-04-07 2017-10-12 VideoStitch Inc. Graphical placement of immersive audio sources
GB2551780A (en) * 2016-06-30 2018-01-03 Nokia Technologies Oy An apparatus, method and computer program for obtaining audio signals
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
WO2018064296A1 (en) * 2016-09-29 2018-04-05 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
US11514885B2 (en) * 2016-11-21 2022-11-29 Microsoft Technology Licensing, Llc Automatic dubbing method and apparatus
KR20180090022A (ko) * 2017-02-02 2018-08-10 한국전자통신연구원 다중 전방향 카메라 및 마이크 기반 가상현실 제공 방법 및 가상 현실 제공 방법을 수행하는 음향 신호 처리 장치 및 영상 신호 처리 장치
GB2561595A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Ambience generation for spatial audio mixing featuring use of original and extended signal
GB2563635A (en) 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
WO2019012133A1 (en) * 2017-07-14 2019-01-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. CONCEPT OF GENERATING AN ENHANCED AUDIO FIELD DESCRIPTION OR A MODIFIED AUDIO FIELD DESCRIPTION USING A MULTILAYER DESCRIPTION
AR112451A1 (es) * 2017-07-14 2019-10-30 Fraunhofer Ges Forschung Concepto para generar una descripción mejorada de campo de sonido o un campo de sonido modificado utilizando una descripción de campo de sonido multi-punto
CA3069772C (en) * 2017-07-14 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound-field description or a modified sound field description using a depth-extended dirac technique or other techniques
GB2566992A (en) * 2017-09-29 2019-04-03 Nokia Technologies Oy Recording and rendering spatial audio signals
CA3076703C (en) 2017-10-04 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
TWI690921B (zh) 2018-08-24 2020-04-11 緯創資通股份有限公司 收音處理裝置及其收音處理方法
CN110853657B (zh) 2019-11-18 2022-05-13 北京小米智能科技有限公司 空间划分方法、装置及存储介质
GB2590650A (en) * 2019-12-23 2021-07-07 Nokia Technologies Oy The merging of spatial audio parameters
WO2022115803A1 (en) * 2020-11-30 2022-06-02 The Regents Of The University Of California Systems and methods for sound-enhanced meeting platforms
GB2602148A (en) * 2020-12-21 2022-06-22 Nokia Technologies Oy Audio rendering with spatial metadata interpolation and source position information
CN113708868B (zh) * 2021-08-27 2023-06-27 国网安徽省电力有限公司池州供电公司 一种多拾音设备的调度系统及其调度方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0905933A3 (de) * 1997-09-24 2004-03-24 STUDER Professional Audio AG Verfahren und Vorrichtung zum Mischen von Tonsignalen
AUPR989802A0 (en) * 2002-01-09 2002-01-31 Lake Technology Limited Interactive spatialized audiovisual system
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
JP4405510B2 (ja) * 2003-07-21 2010-01-27 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオファイルフォーマット変換
ATE324763T1 (de) * 2003-08-21 2006-05-15 Bernafon Ag Verfahren zur verarbeitung von audiosignalen
US7483519B2 (en) * 2003-12-23 2009-01-27 At&T Intellectual Property I, L.P. Caller controlled systems to suppress system to de-activate 911 indicator
US7272567B2 (en) * 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
PL1866911T3 (pl) 2005-03-30 2010-12-31 Koninl Philips Electronics Nv Skalowalne, wielokanałowe kodowanie dźwięku
KR20070108302A (ko) 2005-10-14 2007-11-09 삼성전자주식회사 오디오 데이터의 확장에 대한 스케러빌러티를 지원하는부호화 방법 및 장치, 그 복호화 방법 및 장치
DE102005057406A1 (de) * 2005-11-30 2007-06-06 Valenzuela, Carlos Alberto, Dr.-Ing. Verfahren zur Aufnahme einer Tonquelle mit zeitlich variabler Richtcharakteristik und zur Wiedergabe sowie System zur Durchführung des Verfahrens
WO2007136187A1 (en) 2006-05-19 2007-11-29 Electronics And Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
ATE542216T1 (de) * 2006-07-07 2012-02-15 Fraunhofer Ges Forschung Vorrichtung und verfahren zum kombinieren mehrerer parametrisch kodierter audioquellen
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US8131542B2 (en) * 2007-06-08 2012-03-06 Honda Motor Co., Ltd. Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
JP5540492B2 (ja) 2008-10-29 2014-07-02 富士通株式会社 通信装置、効果音出力制御プログラム及び効果音出力制御方法
ES2690164T3 (es) 2009-06-25 2018-11-19 Dts Licensing Limited Dispositivo y método para convertir una señal de audio espacial
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
US8731923B2 (en) * 2010-08-20 2014-05-20 Adacel Systems, Inc. System and method for merging audio data streams for use in speech recognition applications

Also Published As

Publication number Publication date
AU2016202604A1 (en) 2016-05-19
MX2014006199A (es) 2014-12-08
RU2609102C2 (ru) 2017-01-30
US20130142341A1 (en) 2013-06-06
CN104185869B9 (zh) 2018-01-12
RU2014126818A (ru) 2016-01-27
CA2857614A1 (en) 2013-06-06
US9484038B2 (en) 2016-11-01
AU2012343819A1 (en) 2014-07-24
AU2018200613A1 (en) 2018-02-08
EP2600343A1 (en) 2013-06-05
EP2786374A2 (en) 2014-10-08
TWI555412B (zh) 2016-10-21
KR20140097555A (ko) 2014-08-06
CN104185869B (zh) 2017-10-17
KR101666730B1 (ko) 2016-10-14
JP6086923B2 (ja) 2017-03-01
SG11201402777QA (en) 2014-06-27
BR112014013336A2 (pt) 2021-01-26
CA2857614C (en) 2019-09-24
JP2015502573A (ja) 2015-01-22
WO2013079663A2 (en) 2013-06-06
EP2786374B1 (en) 2024-05-01
HK1202181A1 (en) 2015-09-18
AR089053A1 (es) 2014-07-23
CN104185869A (zh) 2014-12-03
IN2014KN01069A (pt) 2015-10-09
MY167160A (en) 2018-08-13
WO2013079663A3 (en) 2013-10-24
MX342794B (es) 2016-10-12
TW201334580A (zh) 2013-08-16
AU2012343819C1 (en) 2017-11-02
ZA201404823B (en) 2015-11-25
AU2012343819B2 (en) 2016-05-12

Similar Documents

Publication Publication Date Title
BR112014013336B1 (pt) Aparelho e método para combinar fluxos de codificação de áudio espacial com base em geometria
ES2643163T3 (es) Aparato y procedimiento para codificación de audio espacial basada en geometría
KR101392546B1 (ko) 마이크로폰 신호를 기반으로 공간 큐의 세트를 제공하는 장치, 방법 및 컴퓨터 프로그램과, 2채널 오디오 신호 및 공간 큐의 세트를 제공하는 장치
BR112013013678B1 (pt) Aparelho e método para codificação de áudio espacial com base em geometria

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 30/11/2012, OBSERVADAS AS CONDICOES LEGAIS.