BR112013013678B1 - APPARATUS AND METHOD FOR SPATIAL AUDIO CODING BASED ON GEOMETRY - Google Patents

APPARATUS AND METHOD FOR SPATIAL AUDIO CODING BASED ON GEOMETRY Download PDF

Info

Publication number
BR112013013678B1
BR112013013678B1 BR112013013678-2A BR112013013678A BR112013013678B1 BR 112013013678 B1 BR112013013678 B1 BR 112013013678B1 BR 112013013678 A BR112013013678 A BR 112013013678A BR 112013013678 B1 BR112013013678 B1 BR 112013013678B1
Authority
BR
Brazil
Prior art keywords
sound
audio data
values
audio
data stream
Prior art date
Application number
BR112013013678-2A
Other languages
Portuguese (pt)
Inventor
Giovanni Del Galdo
Herre Jürgen
Küch Fabian
Thiergart Oliver
Kuntz Achim
Habets Emanuel
Craciun Alexandra
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Friedrich-Alexander-Universität Erlangen-Nürnberg
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V., Friedrich-Alexander-Universität Erlangen-Nürnberg filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Publication of BR112013013678B1 publication Critical patent/BR112013013678B1/en

Links

Abstract

APARELHO E MÉTODO PARA CODIFICAÇÃO DE ÁUDIO ESPECIAL COM BASE EM GEOMETRIA. Um aparelho para gerar, pelo menos, um sinal de saída de áudio com base em um fluxo de dados de áudio, compreendendo dados de áudio relativos a uma ou mais fontes sonoras é fornecido. O aparelho compreende um receptor para receber o fluxo de dados de áudio, compreende os dados de áudio. Os dados de áudio, compreendem um ou mais dos valores de pressão para cada uma das fontes sonoras. Além disso, os dados de áudio compreendem um ou mais dos valores de posição indicando a posição de uma das fontes sonoras para cada uma das fontes sonoras. Ademais, o aparelho compreende um módulo de síntese para gerar, pelo menos, um sinal de saída de áudio com base em, pelo menos, um de um ou mais dos valores de pressão dos dados de áudio do fluxo de dados e áudio e com base em, pelo menos, um de um ou mais dos valores de posição dos dados de áudio do fluxo de dados de áudio.APPARATUS AND METHOD FOR CODING SPECIAL AUDIO BASED ON GEOMETRY. An apparatus for generating at least one audio output signal based on an audio data stream comprising audio data relating to one or more sound sources is provided. The apparatus comprises a receiver for receiving the audio data stream, comprises the audio data. The audio data comprises one or more pressure values for each of the sound sources. Furthermore, the audio data comprises one or more of position values indicating the position of one of the sound sources for each of the sound sources. Furthermore, the apparatus comprises a synthesis module for generating at least one audio output signal based on at least one of one or more of the pressure values of the audio data of the audio data stream and based on in at least one of one or more of the audio data position values of the audio data stream.

Description

DescriçãoDescription

A presente invenção refere-se ao processamento de áudio e, em particular, a um aparelho e método para codificação de áudio espacial com base em geometria.The present invention relates to audio processing and, in particular, to an apparatus and method for geometry-based spatial audio coding.

O processamento de áudio e, em particular, a codificação de áudio espacial, torna-se cada vez mais importante. A gravação de som espacial tradicional objetiva capturar um campo sonoro de tal modo que, no lado da reprodução, um ouvinte perceba a imagem do som como se estivesse no local da gravação. Diferentes abordagens para técnicas de gravação e reprodução de som espacial são conhecidas a partir do estado da técnica, as quais podem se basear em representações paramétricas, de canal ou de objeto.Audio processing, and in particular spatial audio coding, becomes increasingly important. Traditional spatial sound recording aims to capture a sound field in such a way that, on the playback side, a listener perceives the sound image as if they were at the location of the recording. Different approaches to spatial sound recording and reproduction techniques are known from the prior art, which may be based on parametric, channel or object representations.

Representações com base em canal representam a cena sonora por meio de N sinais de áudio discreto destinados a serem reproduzidos por N alto-transmissores dispostos em uma configuração conhecida, por exemplo, uma configuração de som surround 5.1. A abordagem para gravação de som espacial geralmente emprega microfones omnidirecionais e espaçados, por exemplo, em estereofonia AB, ou microfones direcionais coincidentes, por exemplo, em estereofonia de intensidade. Alternativamente, microfones mais sofisticados, tal como um microfone de formato B, poderão ser empregados, por exemplo, em Ambisonics, vide: Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859-871, 1985. Os sinais de alto-transmissores desejados para a configuração conhecida derivam diretamente dos sinais de microfone gravados e são, em seguida, transmitidos ou armazenados discretamente. Uma representação mais eficiente é obtida através da aplicação de codificação de áudio para os sinais discretos, o que, em alguns casos, codifica as informações de diferentes canais em conjunto para aumentar a eficiência, por exemplo, em MPEG Surround para 5.1, vide: J. Herre, K. Kjõrling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Rõdén, W. Oomen, K. Linzmeier, K.S. Chong: "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", 122nd AES Convention, Vienna, Austria, 2007, Preprint 7084.Channel-based representations represent the sound scene through N discrete audio signals intended to be reproduced by N speakers arranged in a known configuration, for example, a 5.1 surround sound configuration. The approach to spatial sound recording generally employs spaced omnidirectional microphones, e.g. in AB stereophony, or coincident directional microphones, e.g. in loudness stereophony. Alternatively, more sophisticated microphones, such as a B-format microphone, could be used, for example, in Ambisonics, see: Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859-871, 1985. The desired loudspeaker signals for the known configuration are derived directly from the recorded microphone signals and are then transmitted or stored discretely. A more efficient representation is achieved by applying audio coding to the discrete signals, which in some cases encodes information from different channels together to increase efficiency, for example in MPEG Surround for 5.1, see: J . Chong: "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", 122nd AES Convention, Vienna, Austria, 2007, Preprint 7084.

Uma grande desvantagem destas técnicas é que a cena sonora, uma vez que os sinais de alto-falante tenham sido calculados, não poderá ser modificada.A major disadvantage of these techniques is that the sound scene, once the speaker signals have been calculated, cannot be modified.

Representações com base em objeto são, por exemplo, utilizadas em Codificação de Objeto de Áudio Espacial (SAOC I Spatial Audio Object Coding) , vide Jeroen Breebaart, Jonas Engdegârd, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Jeroens Koppens, Werner Oomen, Barbara Resch, Erik Schuijers, and Leonid Terentiev. Spatial audio object coding (saoc) - the upcoming mpeg standard on parametric object based audio coding. In Audio Engineering Society Convention 124, 5 2008.Object-based representations are, for example, used in Spatial Audio Object Coding (SAOC I Spatial Audio Object Coding), see Jeroen Breebaart, Jonas Engdegârd, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Jeroens Koppens, Werner Oomen, Barbara Resch, Erik Schuijers, and Leonid Terentiev. Spatial audio object coding (saoc) - the upcoming mpeg standard on parametric object based audio coding. In Audio Engineering Society Convention 124, 5 2008.

Representações com base em objeto representam a cena sonora com objetos de áudio discretos N. Esta representação dá alta flexibilidade no lado da reprodução, uma vez que a cena sonora pode ser manipulada mudando, por exemplo, a posição e a sonoridade de cada objeto. Embora esta representação possa ser prontamente disponibilizada a partir de, por exemplo, uma gravação multipista, é muito difícil de ser obtida a partir de uma cena sonora complexa gravada com alguns microfones (vide, por exemplo, [21]). Na verdade, os transmissores (ou outros objetos emissores de som) têm de ser primeiro localizados e, depois, extraídos da mistura, o que pode causar perturbação.Object-based representations represent the sound scene with N discrete audio objects. This representation gives high flexibility on the reproduction side, since the sound scene can be manipulated by changing, for example, the position and loudness of each object. Although this representation can be readily available from, for example, a multitrack recording, it is very difficult to obtain from a complex sound scene recorded with a few microphones (see, for example, [21]). In fact, transmitters (or other sound-emitting objects) must first be located and then extracted from the mix, which can cause disturbance.

Representações paramétricas muitas vezes empregam microfones espaciais para determinar um ou mais sinais de downmix de áudio juntamente com a informação lateral espacial descrevendo o som espacial. Um exemplo é a Codificação de Áudio Direcional (DirAC I Directional Audio Coding}, conforme discutido em Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503-516, June 2007 . O termo "microfone espacial" refere-se a qualquer aparelho para a aquisição de som espacial capaz de recuperar a direção de chegada do som (por exemplo, combinação de microfones direcionais, conjuntos de microfone, etc.). O termo "microfone não espacial" refere-se a qualquer aparelho que não é adaptado para recuperar a direção de chegada do som, tal como um microfone diretivo ou omnidirecional único. Outro exemplo é proposto em: C. Faller. Microphone front-ends for spatial audio coders. In Proc, of the AES 125th International Convention, San Francisco, Oct. 2008.Parametric representations often employ spatial microphones to determine one or more audio downmix signals along with spatial lateral information describing the spatial sound. An example is Directional Audio Coding (DirAC I Directional Audio Coding}, as discussed in Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503-516, June 2007 . The term "spatial microphone" refers to any apparatus for acquiring spatial sound capable of recovering the direction of arrival of the sound (e.g., combination directional microphones, microphone arrays, etc.). refers to any device that is not adapted to recover the direction of arrival of sound, such as a single directive or omnidirectional microphone. Another example is proposed in: C. Faller. of the AES 125th International Convention, San Francisco, Oct. 2008.

Em DirAC, a informação lateral espacial compreende uma direção de chegada (DOA | direction of arrival) de som e a difusão do campo sonoro calculada em um domínio de tempo/frequência. Para a reprodução sonora, os sinais de reprodução de áudio podem ser derivados com base na descrição paramétrica. Estas técnicas oferecem grande flexibilidade no lado da reprodução, pois uma configuração arbitrária do alto-falante pode ser empregada, porque a representação é particularmente flexível e compacta, uma vez que compreende um sinal de áudio mono de downmix e da informação lateral e porque permite fáceis modificações na cena sonora, por exemplo, avanço acústico, filtração direcional, associação de cena, etc.In DirAC, spatial lateral information comprises a sound direction of arrival (DOA) and the sound field diffusion calculated in a time/frequency domain. For sound reproduction, audio reproduction signals can be derived based on the parametric description. These techniques offer great flexibility on the reproduction side, because an arbitrary speaker configuration can be employed, because the representation is particularly flexible and compact, since it comprises a mono downmix audio signal and side information, and because it allows easy modifications to the sound scene, for example, acoustic advancement, directional filtering, scene association, etc.

Entretanto, estas técnicas são ainda limitadas pelo fato de que a imagem espacial gravada é sempre relativa ao microfone espacial utilizado. Desta forma, o ponto de vista acústico não pode ser variado e a posição de escuta dentro da cena sonora não pode ser mudada.However, these techniques are still limited by the fact that the recorded spatial image is always relative to the spatial microphone used. In this way, the acoustic point of view cannot be varied and the listening position within the sound scene cannot be changed.

Uma abordagem do microfone virtual é apresentada em Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA 'll), Edinburgh, United Kingdom, May 2011, Que permite calcular os sinais de saída de um microfone espacial arbitrário virtualmente colocado à vontade (ou seja, posição e orientação arbitrárias) no ambiente. A flexibilidade que caracteriza a abordagem do microfone virtual (VM I virtual microphone) permite que a cena sonora seja virtualmente capturada à vontade em uma etapa de pós-processamento, mas nenhuma representação do campo sonoro se torna disponível, o que pode ser utilizada para transmitir e/ou armazenar e/ou modificar a cena sonora eficientemente. Além disso, apenas uma fonte por posição de tempo/frequência é assumida como ativa, e assim, não pode descrever corretamente a cena sonora se duas ou mais fontes são ativas na mesma posição de tempo-frequência. Além disso, se o microfone virtual (VM) for aplicado no lado do receptor, todos os sinais do microfone precisam ser enviados sobre o canal, que torna a representação ineficiente, enquanto que se o VM for aplicado no lado do transmissor, a cena sonora não pode ser mais manipulada e o modelo perde flexibilidade e se torna limitado a uma determinada configuração do alto-falante. Além disso, não considera uma manipulação da cena sonora com base nas informações paramétricas.A virtual microphone approach is presented in Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA'll), Edinburgh, United Kingdom, May 2011, Which allows calculating the output signals of a virtually placed arbitrary spatial microphone at will (i.e. position and orientation arbitrary) in the environment. The flexibility that characterizes the virtual microphone (VM I virtual microphone) approach allows the sound scene to be virtually captured at will in a post-processing step, but no representation of the sound field becomes available, which can be used to transmit and/or store and/or modify the sound scene efficiently. Furthermore, only one source per time/frequency position is assumed to be active, and thus cannot correctly describe the sound scene if two or more sources are active at the same time/frequency position. Furthermore, if the virtual microphone (VM) is applied on the receiver side, all microphone signals need to be sent over the channel, which makes the representation inefficient, whereas if the VM is applied on the transmitter side, the sound scene it cannot be manipulated any further and the model loses flexibility and becomes limited to a certain speaker configuration. Furthermore, it does not consider manipulation of the sound scene based on parametric information.

Emmanuel Gallo and Nicolas Tsingos. Extracting and re-rendering structured auditory scenes from field recordings. In AES 30th International Conference on Intelligent Audio Environments, 2007, a estimativa da posição da fonte do som tem como base a diferença de chegada do tempo em pares medida por meios de microfones distribuídos.Emmanuel Gallo and Nicolas Tsingos. Extracting and re-rendering structured auditory scenes from field recordings. In AES 30th International Conference on Intelligent Audio Environments, 2007, the estimation of the position of the sound source is based on the arrival time difference in pairs measured using distributed microphones.

Além disso, o receptor é dependente da gravação e exige todos os sinais do microfone para a síntese (por exemplo, a geração dos sinais do alto-falante).Furthermore, the receiver is recording dependent and requires all microphone signals for synthesis (e.g. generating the speaker signals).

O método apresentado em Svein Berge, Device and method for converting spatial audio signal. US patent application, Appl. No. 10/547,151, utiliza, semelhantemente à DirAC, direção de chegada como um parâmetro, assim limitando a representação a um ponto de vista especifico da cena sonora. Além disso, não propõe a possibilidade de transmitir/armazenar a representação da cena sonora, visto que a análise e sintese precisam ambas se aplicadas no mesmo lado do sistema de comunicação.The method presented in Svein Berge, Device and method for converting spatial audio signal. US patent application, Appl. No. 10/547,151, uses, similarly to DirAC, direction of arrival as a parameter, thus limiting the representation to a specific point of view of the sound scene. Furthermore, it does not propose the possibility of transmitting/storing the representation of the sound scene, since analysis and synthesis both need to be applied on the same side of the communication system.

O objetivo da presente invenção é fornecer conceitos melhorados para a aquisição de som espacial e descrição através da extração de informação geométrica. O objetivo da presente invenção é solucionado por um aparelho para gerar pelo menos um sinal de saida de áudio com base em um fluxo de dados de áudio, de acordo com a reivindicação 1, por um aparelho para gerar um fluxo de dados de áudio, de acordo com a reivindicação 10, por um sistema, de acordo com a reivindicação 19, por um fluxo de dados de áudio, de acordo com a reivindicação 20, por um método para gerar pelo menos um sinal de saida de áudio, de acordo com a reivindicação 23, por um método para gerar um fluxo de dados de áudio, de acordo com a reivindicação 24 e por um programa de computador, de acordo com a reivindicação 25.The object of the present invention is to provide improved concepts for spatial sound acquisition and description through the extraction of geometric information. The object of the present invention is solved by an apparatus for generating at least one audio output signal based on an audio data stream, according to claim 1, by an apparatus for generating an audio data stream, of according to claim 10, by a system according to claim 19, by an audio data stream according to claim 20, by a method for generating at least one audio output signal according to the claim 23, for a method for generating an audio data stream according to claim 24 and for a computer program according to claim 25.

Um aparelho para gerar, pelo menos, um sinal de saida de áudio com base em um fluxo de dados de áudio compreendendo dados de áudio referentes a uma ou mais fontes de som é fornecido. O aparelho compreende um receptor para receber o fluxo de dados de áudio compreendendo os dados de áudio. Os dados de áudio compreendem um ou mais valores de pressão para cada uma das fontes de som. Além disso, os dados de áudio compreendem um ou mais valores de posição indicando uma posição de uma das fontes de som para cada uma das fontes de som. Além disso, o aparelho compreende um módulo de sintese para gerar pelo menos um sinal de saída de áudio com base pelo menos em um de um ou mais valores de pressão dos dados de áudio do fluxo de dados de áudio e com base pelo menos em um de um ou mais valores de posição dos dados de áudio do fluxo de dados de áudio. Em uma aplicação, cada um de um ou mais valores de posição pode compreender, pelo menos, dois valores de coordenada.An apparatus for generating at least one audio output signal based on an audio data stream comprising audio data relating to one or more sound sources is provided. The apparatus comprises a receiver for receiving the audio data stream comprising the audio data. The audio data comprises one or more pressure values for each of the sound sources. Furthermore, the audio data comprises one or more position values indicating a position of one of the sound sources for each of the sound sources. Furthermore, the apparatus comprises a synthesis module for generating at least one audio output signal based on at least one of one or more pressure values of the audio data of the audio data stream and based on at least one of of one or more audio data position values of the audio data stream. In an application, each of one or more position values may comprise at least two coordinate values.

Os dados de áudio podem ser definidos para uma posição de tempo-frequência de uma pluralidade de posições de tempo/frequência. De modo alternativo, os dados de áudio podem ser definidos para um instante de tempo de uma pluralidade de instantes de tempo. Em algumas aplicações, um ou mais valores de pressão dos dados de áudio pode ser definido para um instante de tempo de uma pluralidade de instantes de tempo, enquanto os parâmetros correspondentes (por exemplo, os valores de posição) podem ser definidos em um domínio de tempo/frequência. Isso pode prontamente ser obtido transformando de volta ao domínio de tempo os valores de pressão definidos de outra forma em tempo/f requência. Para cada uma das fontes de som, pelo menos um valor de pressão é compreendido nos dados de áudio, em que pelo menos um valor de pressão pode ser um valor de pressão referente a uma onda de som emitida, por exemplo, originando da fonte de som. O valor de pressão pode ser um valor de um sinal de áudio, por exemplo, um valor de pressão de um sinal de saída de áudio gerado por um aparelho para gerar um sinal de saída de áudio de um microfone virtual, em que o microfone virtual é colocado na posição da fonte de som.The audio data can be set to a time-frequency position of a plurality of time/frequency positions. Alternatively, the audio data may be defined for a time instant of a plurality of time instants. In some applications, one or more pressure values of the audio data may be defined for a time instant of a plurality of time instants, while corresponding parameters (e.g., position values) may be defined in a domain of time/frequency. This can readily be achieved by transforming pressure values otherwise defined into time/frequency back into the time domain. For each of the sound sources, at least one pressure value is comprised in the audio data, wherein the at least one pressure value may be a pressure value relating to an emitted sound wave, e.g., originating from the sound source. sound. The pressure value may be a value of an audio signal, for example, a pressure value of an audio output signal generated by an apparatus for generating an audio output signal from a virtual microphone, wherein the virtual microphone is placed at the position of the sound source.

A aplicação descrita acima permite calcular uma representação do campo sonoro que é verdadeiramente independente da posição de gravação e fornece transmissão eficiente e armazenamento de uma cena sonora complexa, bem como fáceis modificações e uma flexibilidade elevada no sistema de reprodução.The application described above allows you to calculate a sound field representation that is truly independent of the recording position and provides efficient transmission and storage of a complex sound scene, as well as easy modifications and high flexibility in the playback system.

Inter alia, vantagens importantes desta técnica são que no lado da reprodução o ouvinte pode escolher livremente sua posição dentro da cena sonora gravada, utilizar qualquer configuração de alto-falante e adicionalmente manipular a cena sonora com base na informação geométrica, por exemplo, filtração com base na posição. Em outras palavras, com a técnica proposta o ponto de vista acústico pode ser variado e a posição de escuta dentro da cena sonora pode ser alterada.Inter alia, important advantages of this technique are that on the reproduction side the listener can freely choose his position within the recorded sound scene, use any speaker configuration and additionally manipulate the sound scene based on geometric information, e.g. filtering with based on position. In other words, with the proposed technique the acoustic point of view can be varied and the listening position within the sound scene can be changed.

De acordo com a aplicação descrita acima, os dados de áudio compreendidos no fluxo de dados de áudio compreendem um ou mais valores de pressão para cada uma das fontes de som. Assim, os valores de pressão indicam um sinal de áudio com relação a uma das fontes de som, por exemplo, um sinal de áudio originando da fonte de som, e não relativo à posição dos microfones de gravação. Semelhantemente, um ou mais valores de posição que são compreendidos no fluxo de dados de áudio indicam posições das fontes de som e não dos microfones.According to the application described above, the audio data comprised in the audio data stream comprises one or more pressure values for each of the sound sources. Thus, pressure values indicate an audio signal with respect to one of the sound sources, for example, an audio signal originating from the sound source, and not relative to the position of the recording microphones. Similarly, one or more position values that are comprised in the audio data stream indicate positions of sound sources and not microphones.

Neste documento, uma pluralidade de vantagens é realizada: Por exemplo, uma representação de uma cena de áudio é obtida e pode ser codificada usando poucos bits. Se a cena sonora compreende apenas uma única fonte de som em uma posição de frequência de tempo particular, apenas os valores de pressão de um único sinal de áudio referente a apenas a fonte de som têm que ser codificados junto com o valor da posição indicando a posição da fonte de som. Em contraste, métodos tradicionais podem ter que codificar uma pluralidade de valores de pressão da pluralidade de sinais do microfone gravados para reconstruir uma cena de áudio em um receptor. Além disso, uma aplicação descrita acima permite a fácil modificação de uma cena sonora em um transmissor, bem como em um lado do receptor, como será descrito abaixo. Assim, a composição da cena (por exemplo, decidir a posição de escuta dentro da cena sonora) também pode ser realizada no lado do receptor.In this document, a plurality of advantages are realized: For example, a representation of an audio scene is obtained and can be encoded using few bits. If the sound scene comprises only a single sound source at a particular time frequency position, only the pressure values of a single audio signal referring to only the sound source have to be encoded along with the position value indicating the position of the sound source. In contrast, traditional methods may have to encode a plurality of pressure values from the plurality of recorded microphone signals to reconstruct an audio scene at a receiver. Furthermore, an application described above allows easy modification of a sound scene on a transmitter as well as on a receiver side, as will be described below. Thus, scene composition (e.g. deciding the listening position within the sound scene) can also be performed on the receiver side.

Aplicações empregam o conceito para modelar uma cena sonora complexa por meios de fontes de som, por exemplo, fontes de som do tipo ponto (PLS | point-like sound source) , por exemplo, fontes de som isotrópicas do tipo ponto (IPLS | isotropic point-like sound sources), que são ativadas nas aberturas especificas em uma representação de tempo/frequência, como a fornecida pela Transformada de Fourier de Curta Duração (STFT | Short-Time Fourier Transform).Applications employ the concept to model a complex sound scene by means of sound sources, e.g., point-like sound sources (PLS), for example, isotropic point-like sound sources (IPLS). point-like sound sources), which are activated at specific openings in a time/frequency representation, such as that provided by the Short-Time Fourier Transform (STFT | Short-Time Fourier Transform).

De acordo com uma aplicação, o receptor pode ser adaptado para receber o fluxo de dados de áudio compreendendo os dados de áudio, em que os dados de áudio ainda compreendem um ou mais valores de difusão para cada uma das fontes de som. O módulo de sintese pode ser adaptado para gerar pelo menos um sinal de saida de áudio com base pelo menos em um de um ou mais valores de difusão.According to one application, the receiver may be adapted to receive the audio data stream comprising the audio data, wherein the audio data further comprises one or more diffusion values for each of the sound sources. The synthesis module may be adapted to generate at least one audio output signal based on at least one of one or more diffusion values.

Em outra aplicação, o receptor pode, ainda, compreender um módulo de modificação para modificar os dados de áudio do fluxo de dados de áudio recebido pela modificação de pelo menos um de um ou mais valores de pressão dos dados de áudio, modificando pelo menos um de um ou mais valores de posição dos dados de áudio ou modificando pelo menos um dos valores de difusão dos dados de áudio. O módulo de síntese pode ser adaptado para gerar pelo menos um sinal de saída de áudio com base pelo menos em um valor de pressão que foi modificado, com base pelo menos em um valor da posição que foi modificado ou com base pelo menos em um valor da difusão que foi modificado.In another application, the receiver may further comprise a modification module for modifying the audio data of the received audio data stream by modifying at least one of one or more pressure values of the audio data, modifying at least one of one or more position values of the audio data or modifying at least one of the spread values of the audio data. The synthesis module may be adapted to generate at least one audio output signal based on at least one pressure value that has been modified, based on at least one position value that has been modified, or based on at least one position value that has been modified. of diffusion that has been modified.

Em uma aplicação adicional, cada um dos valores de posição de cada uma das fontes de som por compreender, pelo menos, dois valores de coordenada. Além disso, o módulo de modificação pode ser adaptado para modificar os valores de coordenada adicionando pelo menos um número aleatório aos valores de coordenada, quando os valores de coordenada indicam que uma fonte de som está localizada em uma posição dentro de uma área predefinida de um ambiente.In a further application, each of the position values of each of the sound sources may comprise at least two coordinate values. Furthermore, the modification module may be adapted to modify the coordinate values by adding at least one random number to the coordinate values, when the coordinate values indicate that a sound source is located at a position within a predefined area of a environment.

De acordo com outra aplicação, cada um dos valores de posição de cada uma das fontes de som pode compreender, pelo menos, dois valores de coordenada. Além disso, o módulo de modificação é adaptado para modificar os valores de coordenada aplicando uma função determinística nos valores de coordenada, quando os valores de coordenada indicam que uma fonte de som está localizada em uma posição dentro de uma área predefinida de um ambiente.According to another application, each of the position values of each of the sound sources may comprise at least two coordinate values. Furthermore, the modification module is adapted to modify the coordinate values by applying a deterministic function on the coordinate values, when the coordinate values indicate that a sound source is located at a position within a predefined area of an environment.

Em uma aplicação adicional, cada um dos valores de posição de cada uma das fontes de som pode compreender, pelo menos, dois valores de coordenada. Além disso, o módulo de modificação pode ser adaptado para modificar um valor de pressão selecionado de um ou mais valores de pressão dos dados de áudio, referentes à mesma fonte de som que os valores de coordenada, quando os valores de coordenada indicam que uma fonte de som está localizada em uma posição dentro de uma área predefinida de um ambiente.In a further application, each of the position values of each of the sound sources may comprise at least two coordinate values. Furthermore, the modification module may be adapted to modify a selected pressure value from one or more pressure values of the audio data, referring to the same sound source as the coordinate values, when the coordinate values indicate that a source sound is located in a position within a predefined area of a room.

De acordo com uma aplicação, o módulo de sintese pode compreender uma primeira unidade de sintese de estágio e uma segunda unidade de sintese de estágio. A primeira unidade de sintese de estágio pode ser adaptada para gerar um sinal de pressão direta compreendendo som direto, um sinal difuso de pressão compreendendo som difuso e informação de direção de chegada com base pelo menos em um de um ou mais valores de pressão dos dados de áudio do fluxo de dados de áudio, com base pelo menos em um de um ou mais valores de posição dos dados de áudio do fluxo de dados de áudio e com base pelo menos em um de um ou mais valores de difusão dos dados de áudio do fluxo de dados de áudio. A segunda unidade de sintese de estágio pode ser adaptada para gerar pelo menos um sinal de saida de áudio com base no sinal de pressão direta, no sinal difuso de pressão e na informação de direção de chegada.According to one application, the synthesis module may comprise a first stage synthesis unit and a second stage synthesis unit. The first stage synthesis unit may be adapted to generate a direct pressure signal comprising direct sound, a diffuse pressure signal comprising diffuse sound and direction of arrival information based on at least one of one or more pressure values of the data. of the audio data stream, based on at least one of one or more position values of the audio data of the audio data stream and based on at least one of one or more spread values of the audio data of the audio data stream. The second stage synthesis unit may be adapted to generate at least one audio output signal based on the direct pressure signal, the diffuse pressure signal and the direction of arrival information.

De acordo com uma aplicação, um aparelho para gerar um fluxo de dados de áudio compreendendo dados da fonte de som referentes a uma ou mais fontes de som é fornecido. O aparelho para gerar um fluxo de dados de áudio compreende um determinador para determinar os dados da fonte de som com base pelo menos em um sinal de entrada de áudio gravado pelo menos por um microfone e com base na informação lateral de áudio fornecida pelo menos por dois microfones espaciais. Além disso, o aparelho compreende um gerador de fluxo de dados para gerar o fluxo de dados de áudio de modo que o fluxo de dados de áudio compreenda os dados da fonte de som. Os dados da fonte de som compreendem um ou mais valores de pressão para cada uma das fontes de som. Além disso, os dados da fonte de som ainda compreendem um ou mais valores de posição indicando uma posição da fonte de som para cada uma das fontes de som. Além disso, os dados da fonte de som são definidos para uma posição de tempo/frequência de uma pluralidade de posições de tempo/frequência.According to one application, an apparatus for generating an audio data stream comprising sound source data relating to one or more sound sources is provided. The apparatus for generating an audio data stream comprises a determiner for determining sound source data based on at least one audio input signal recorded by at least one microphone and based on audio side information provided by at least one two space microphones. Furthermore, the apparatus comprises a data stream generator for generating the audio data stream such that the audio data stream comprises the sound source data. The sound source data comprises one or more pressure values for each of the sound sources. Furthermore, the sound source data further comprises one or more position values indicating a sound source position for each of the sound sources. Furthermore, the sound source data is defined for a time/frequency position of a plurality of time/frequency positions.

Em uma aplicação adicional, o determinador pode ser adaptado para determinar os dados da fonte de som com base nas informações de difusão pelo menos por um microfone espacial. O gerador de fluxo de dados pode ser adaptado para gerar o fluxo de dados de áudio de modo que o fluxo de dados de áudio compreende os dados da fonte de som. Os dados da fonte de som ainda compreendem um ou mais valores de difusão para cada uma das fontes de som.In a further application, the determiner may be adapted to determine sound source data based on diffusion information by at least one spatial microphone. The data stream generator may be adapted to generate the audio data stream such that the audio data stream comprises the sound source data. The sound source data further comprises one or more diffusion values for each of the sound sources.

Em outra aplicação, o aparelho para gerar um fluxo de dados de áudio pode, ainda, compreender um módulo de modificação para modificar o fluxo de dados de áudio gerado pelo gerador de fluxo de dados modificando pelo menos um dos valores de pressão dos dados de áudio, pelo menos um dos valores de posição dos dados de áudio ou pelo menos um dos valores de difusão dos dados de áudio referentes, pelo menos, a uma das fontes de som.In another application, the apparatus for generating an audio data stream may further comprise a modification module for modifying the audio data stream generated by the data stream generator by modifying at least one of the pressure values of the audio data. , at least one of the position values of the audio data or at least one of the spread values of the audio data relating to at least one of the sound sources.

De acordo com outra aplicação, cada um dos valores de posição de cada uma das fontes de som pode compreender, pelo menos, dois valores de coordenada (por exemplo, duas coordenadas de um Sistema de coordenada cartesiana, ou azimute e distância, em um sistema de coordenada polar). O módulo de modificação pode ser adaptado para modificar os valores de coordenada adicionando pelo menos um número aleatório aos valores de coordenada ou aplicando uma função deterministica nos valores de coordenada, quando os valores de coordenada indicam que uma fonte de som está localizada em uma posição dentro de uma área predefinida de um ambiente.According to another application, each of the position values of each of the sound sources may comprise at least two coordinate values (e.g., two coordinates of a Cartesian coordinate system, or azimuth and distance, in a system polar coordinate). The modification module may be adapted to modify the coordinate values by adding at least one random number to the coordinate values or by applying a deterministic function to the coordinate values, when the coordinate values indicate that a sound source is located at a position within of a predefined area of an environment.

De acordo com outra aplicação, um fluxo de dados de áudio é fornecido. O fluxo de dados de áudio pode compreender dados de áudio referentes a uma ou mais fontes de som, em que os dados de áudio compreendem um ou mais valores de pressão para cada uma das fontes de som. Os dados de áudio podem ainda compreender, pelo menos, um valor da posição indicando uma posição da fonte de som para cada uma das fontes de som.According to another application, an audio data stream is provided. The audio data stream may comprise audio data relating to one or more sound sources, wherein the audio data comprises one or more pressure values for each of the sound sources. The audio data may further comprise at least one position value indicating a sound source position for each of the sound sources.

Em uma aplicação, cada um de pelo menos um dos valores de posição pode compreender, pelo menos, dois valores de coordenada. Os dados de áudio podem ser definidos para uma posição de tempo/frequência de uma pluralidade de posições de tempo/frequência.In an application, each of at least one of the position values may comprise at least two coordinate values. The audio data can be set to a time/frequency position of a plurality of time/frequency positions.

Em outra aplicação, os dados de áudio compreendem, ainda, um ou mais valores de difusão para cada uma das fontes de som.In another application, the audio data further comprises one or more diffusion values for each of the sound sources.

Aplicações preferidas da presente invenção serão descritas a seguir, em que:Preferred applications of the present invention will be described below, in which:

A Figura 1 ilustra um aparelho para gerar, pelo menos, um sinal de saida de áudio com base em um fluxo de dados de áudio compreendendo dados de áudio referentes a uma ou mais fontes de som de acordo com uma aplicação, A Figura 2 ilustra um aparelho para gerar um fluxo de dados de áudio compreendendo dados da fonte de som referentes a uma ou mais fontes de som de acordo com uma aplicação. As Figuras 3a-3c ilustram os fluxos de dados de áudio de acordo com diferentes aplicações, A Figura 4 ilustra um aparelho para gerar um fluxo de dados de áudio compreendendo dados da fonte de som referentes a uma ou mais fontes de som de acordo com outra aplicação, A Figura 5 ilustra uma cena sonora composta por duas fontes de som e dois conjuntos uniformes de microfone linear, A Figura 6a ilustra um aparelho 600 para gerar, pelo menos, um sinal de saida de áudio com base em um fluxo de dados de áudio de acordo com uma aplicação, A Figura 6b ilustra um aparelho 660 para gerar um fluxo de dados de áudio compreendendo dados da fonte de som referentes a uma ou mais fontes de som de acordo com uma aplicação, A Figura 7 descreve um módulo de modificação de acordo com uma aplicação, A Figura 8 descreve um módulo de modificação de acordo com outra aplicação, A Figura 9 ilustra unidades do transmissor/análise e unidades do receptor/sintese de acordo com uma aplicação, A Figura 10a descreve um módulo de sintese de acordo com uma aplicação, A Figura 10b descreve uma primeira unidade de armazenamento de sintese de acordo com uma aplicação, A Figura 10c descreve uma segunda unidade de armazenamento de sintese de acordo com uma aplicação, A Figura 11 descreve um módulo de sintese de acordo com outra aplicação, A Figura 12 ilustra um aparelho para gerar um sinal de saida de áudio de um microfone virtual de acordo com uma aplicação, A Figura 13 ilustra as entradas e saidas de um aparelho e um método para gerar um sinal de saida de áudio de um microfone virtual de acordo com uma aplicação, A Figura 14 ilustra a estrutura básica de um aparelho para gerar um sinal de saida de áudio de um microfone virtual de acordo com uma aplicação que compreende um avaliador da posição dos eventos sonoros e um módulo de cálculo computacional de informação, A Figura 15 mostra um cenário exemplar no qual os microfones espaciais reais são descritos como Conjuntos Lineares Uniformes de 3 microfones cada, A Figura 16 descreve dois microfones espaciais em 3D para estimar a direção de chegada ao espaço 3D, A Figura 17 ilustra uma geometria onde uma fonte de som do tipo ponto isotrópico da posição de tempo-frequência atual (k, n) está localizado em uma posição PiPLs(k, n) , A Figura 18 descreve o módulo de cálculo computacional de informação de acordo com uma aplicação, A Figura 19 descreve o módulo de cálculo computacional de informação de acordo com outra aplicação, A Figura 20 mostra dois microfones espaciais reais, um evento sonoro localizado e uma posição de um microfone espacial virtualFigure 1 illustrates an apparatus for generating at least one audio output signal based on an audio data stream comprising audio data relating to one or more sound sources in accordance with an application. Figure 2 illustrates an apparatus for generating an audio data stream comprising sound source data relating to one or more sound sources in accordance with an application. Figures 3a-3c illustrate audio data streams according to different applications. Figure 4 illustrates an apparatus for generating an audio data stream comprising sound source data relating to one or more sound sources according to another application, Figure 5 illustrates a sound scene composed of two sound sources and two uniform linear microphone arrays, Figure 6a illustrates an apparatus 600 for generating at least one audio output signal based on a data stream of Figure 6b illustrates an apparatus 660 for generating an audio data stream comprising sound source data relating to one or more sound sources in accordance with an application. Figure 7 depicts a modification module according to one application, Figure 8 depicts a modification module according to another application, Figure 9 illustrates transmitter/analysis units and receiver/synthesis units according to one application, Figure 10a depicts a synthesis module of according to an application, Figure 10b depicts a first synthesis storage unit according to an application, Figure 10c depicts a second synthesis storage unit according to an application, Figure 11 depicts a synthesis module according to another application, Figure 12 illustrates an apparatus for generating an audio output signal from a virtual microphone in accordance with an application, Figure 13 illustrates the inputs and outputs of an apparatus and a method for generating an audio output signal from a virtual microphone according to an application, Figure 14 illustrates the basic structure of an apparatus for generating an audio output signal from a virtual microphone according to an application comprising an evaluator of the position of sound events and a calculation module computational information, Figure 15 shows an exemplary scenario in which real spatial microphones are described as Uniform Linear Arrays of 3 microphones each, Figure 16 depicts two 3D spatial microphones to estimate the direction of arrival in 3D space, Figure 17 illustrates a geometry where an isotropic point sound source of the current time-frequency position (k, n) is located at a position PiPLs(k, n) , Figure 18 describes the computational information calculation module according to one application, Figure 19 describes the computational information calculation module according to another application, Figure 20 shows two real spatial microphones, a localized sound event and a position of a virtual spatial microphone

A Figura 21 ilustra como obter a direção de chegada relativa a um microfone virtual de acordo com uma aplicação,Figure 21 illustrates how to obtain the relative arrival direction of a virtual microphone according to an application,

A Figura 22 descreve uma possivel forma de derivar a DOA do som do ponto de vista do microfone virtual de acordo com uma aplicação,Figure 22 describes a possible way to derive the DOA of the sound from the point of view of the virtual microphone according to an application,

A Figura 23 ilustra um bloco de cálculo computacional de informação compreendendo uma unidade de cálculo computacional de difusão de acordo com uma aplicação,Figure 23 illustrates an information computational calculation block comprising a diffusion computational calculation unit according to an application,

A Figura 24 descreve uma unidade de cálculo computacional de difusão de acordo com uma aplicação,Figure 24 describes a computational diffusion calculation unit according to an application,

A Figura 25 ilustra um cenário onde a estimativa da posição de eventos sonoros não é possível,Figure 25 illustrates a scenario where estimating the position of sound events is not possible,

A Figura 26 ilustra um aparelho para gerar um fluxo de dados do microfone virtual de acordo com uma aplicação,Figure 26 illustrates an apparatus for generating a virtual microphone data stream in accordance with an application,

A Figura 27 ilustra um aparelho para gerar, pelo menos, um sinal de saida de áudio com base em um fluxo de dados de áudio de acordo com outra aplicação, eFigure 27 illustrates an apparatus for generating at least one audio output signal based on an audio data stream according to another application, and

As Figuras 28a-28c ilustram cenários onde dois conjuntos de microfone recebem som direto, som refletido por uma parede ou som difuso.Figures 28a-28c illustrate scenarios where two microphone arrays receive direct sound, sound reflected from a wall, or diffuse sound.

Antes de fornecer uma descrição detalhada das aplicações da presente invenção, um aparelho para gerar um sinal de saída de áudio de um microfone virtual é descrito para fornecer informação de base referente aos conceitos da presente invenção.Before providing a detailed description of the applications of the present invention, an apparatus for generating an audio output signal from a virtual microphone is described to provide background information regarding the concepts of the present invention.

A figura 12 ilustra um aparelho para gerar um sinal de saída de áudio para simular uma gravação de um microfone em uma posição virtual configurável posVmic em um ambiente. O aparelho compreende um avaliador de posição dos eventos sonoros 110 e um módulo de cálculo computacional de informação 120. O avaliador de posição dos eventos sonoros 110 recebe uma primeira informação de direção dil de um primeiro microfone espacial real e uma segunda informação de direção di2 de um segundo microfone espacial real. O avaliador de posição dos eventos sonoros 110 é adaptado para estimar uma posição da fonte de som ssp indicando uma posição de uma fonte de som no ambiente, a fonte de som emitindo uma onda sonora, em que o avaliador de posição dos eventos sonoros 110 é adaptado para estimar a posição da fonte de som SSP com base em uma primeira informação de direção dil fornecida por um primeiro microfone espacial real estando localizado em uma primeira posição do microfone real poslmic no ambiente, e com base em uma segunda informação de direção di2 fornecida por um segundo microfone espacial real estando localizado em uma segunda posição do microfone real no ambiente. O módulo de cálculo computacional de informação 120 é adaptado para gerar o sinal de saida de áudio com base em um primeiro sinal de entrada de áudio gravado isl sendo gravado pelo primeiro microfone espacial real, com base na primeira posição do microfone real poslmic e com base na posição virtual posVmic do microfone virtual. O módulo de cálculo computacional de informação 120 compreende um compensador de propagação sendo adaptado para gerar um primeiro sinal de áudio modificado modificando o primeiro sinal de entrada de áudio gravado isl compensando um primeiro atraso ou atraso de amplitude entre uma chegada da onda sonora emitida pela fonte de som no primeiro microfone espacial real e uma chegada da onda sonora no microfone virtual ajustando um valor de amplitude, um valor de magnitude ou um valor de fase do primeiro sinal de entrada de áudio gravado isl, para obter o sinal de saida de áudio.Figure 12 illustrates an apparatus for generating an audio output signal to simulate a recording from a microphone in a posVmic configurable virtual position in an environment. The apparatus comprises a sound event position evaluator 110 and a computational information calculation module 120. The sound event position evaluator 110 receives a first direction information dil from a first real spatial microphone and a second direction information di2 from a second real space microphone. The sound event position estimator 110 is adapted to estimate a sound source position ssp indicating a position of a sound source in the environment, the sound source emitting a sound wave, wherein the sound event position estimator 110 is adapted to estimate the position of the SSP sound source based on a first direction information dil provided by a first real spatial microphone being located at a first poslmic real microphone position in the environment, and based on a second direction information di2 provided by a second real spatial microphone being located at a second real microphone position in the environment. The computational information calculation module 120 is adapted to generate the audio output signal based on a first recorded audio input signal isl being recorded by the first real spatial microphone, based on the first poslmic real microphone position and based in the virtual posVmic position of the virtual microphone. The computational information calculation module 120 comprises a propagation compensator being adapted to generate a first modified audio signal by modifying the first recorded audio input signal by compensating for a first delay or amplitude delay between an arrival of the sound wave emitted by the source. of sound in the first real spatial microphone and an arrival of the sound wave in the virtual microphone by adjusting an amplitude value, a magnitude value or a phase value of the first recorded audio input signal isl, to obtain the audio output signal.

A figura 13 ilustra as entradas e saidas de um aparelho e um método de acordo com uma aplicação. Informação de dois ou mais microfones espaciais reais 111, 112, 11N é inserida ao aparelho/é processada pelo método. Esta informação compreende sinais de áudio coletados pelos microfones espaciais reais bem como informação de direção dos microfones espaciais reais, por exemplo, estimativas da direção de chegada (DOA). Os sinais de áudio e a informação de direção, como as estimativas da direção de chegada podem ser expressas em um domínio de tempo/frequência. Se, por exemplo, uma reconstrução da geometria 2D for desejada e um domínio tradicional de STFT (Transformada de Fourier de Curta Duração) for escolhido para a representação do sinais, a DOA pode ser expressa como ângulos azimutais dependentes de k e n, a saber os índices de frequência e tempo.Figure 13 illustrates the inputs and outputs of an apparatus and a method according to an application. Information from two or more real space microphones 111, 112, 11N is fed into the apparatus/processed by the method. This information comprises audio signals collected by the real space microphones as well as direction information from the real space microphones, e.g., direction of arrival (DOA) estimates. Audio signals and direction information such as arrival direction estimates can be expressed in a time/frequency domain. If, for example, a reconstruction of 2D geometry is desired and a traditional STFT (Short-Time Fourier Transform) domain is chosen for signal representation, the DOA can be expressed as azimuthal angles dependent on k and n, namely the indices of frequency and time.

Nas aplicações, a localização do evento sonoro no espaço, bem como a descrição da posição do microfone virtual pode ser conduzida com base nas posições e orientações dos microfones espaciais reais e virtuais em um sistema de coordenada comum. Esta informação pode ser representada pelas entradas 121 . . . 12N e entrada 104 na Figura 13. A entrada 104 pode adicionalmente especificar a característica do microfone espacial virtual, por exemplo, seu padrão de posição e coleta, como será discutido a seguir. Se o microfone espacial virtual compreende vários sensores virtuais, suas posições e os diferentes padrões de coleta correspondentes podem ser considerados.In applications, the location of the sound event in space as well as the description of the virtual microphone position can be conducted based on the positions and orientations of the real and virtual spatial microphones in a common coordinate system. This information can be represented by inputs 121. . . 12N and input 104 in Figure 13. Input 104 may additionally specify the characteristic of the virtual spatial microphone, for example, its position and collection pattern, as will be discussed below. If the virtual spatial microphone comprises multiple virtual sensors, their positions and the corresponding different collection patterns can be considered.

A saida do aparelho ou um método correspondente pode ser, quando desejado, um ou mais sinais de som 105, que podem ter sido coletados por um microfone espacial definido e colocado como especificado por 104. Além disso, o aparelho (ou ainda o método) pode fornecer como informação lateral espacial correspondente de saida 106 que pode ser estimada empregando o microfone espacial virtual.The output of the apparatus or a corresponding method may be, when desired, one or more sound signals 105, which may have been collected by a defined spatial microphone and placed as specified by 104. Furthermore, the apparatus (or even the method) may provide corresponding output spatial lateral information 106 that may be estimated using the virtual spatial microphone.

A Figura 14 ilustra um aparelho de acordo com uma aplicação, que compreende duas unidades de processamento principais, um avaliador de posição dos eventos sonoros 201 e um módulo de cálculo computacional de informação 202. O avaliador de posição dos eventos sonoros 201 pode realizar a reconstrução geométrica com base nas DOAs compreendidas nas entradas 111 . . . UN e com base no conhecimento da posição e orientação dos microfones espaciais reais, onde as DOAs foram calculadas. A saida do avaliador de posição dos eventos sonoros 205 compreende as estimativas de posição (tanto em 2D quanto em 3D) das fontes de som onde os eventos sonoros ocorrem para cada posição de tempo e frequência. O segundo bloco de processamento 202 é um módulo de cálculo computacional de informação. De acordo com a aplicação da Figura 14, o segundo bloco de processamento 202 calcula um sinal do microfone virtual e informações laterais espaciais. É então também referido como sinal do microfone virtual e bloco de cálculo computacional de informações laterais 202. O sinal do microfone virtual e o bloco de cálculo computacional de informações laterais 202 usam as posições dos eventos sonoros 205 para processar os sinais de áudio compreendidos em 111.„11N para emitir o sinal do microfone virtual de áudio 105. O bloco 202, se necessário, também pode calcular as informações laterais espaciais 106 correspondentes ao microfone espacial virtual. As aplicações abaixo ilustram possibilidades, como blocos 201 e 202 podem operar.Figure 14 illustrates an apparatus according to an application, which comprises two main processing units, a sound event position evaluator 201 and a computational information calculation module 202. The sound event position evaluator 201 can perform reconstruction geometric based on the DOAs comprised in the inputs 111 . . . UN and based on knowledge of the position and orientation of real space microphones, where DOAs were calculated. The output of the sound event position evaluator 205 comprises position estimates (both 2D and 3D) of the sound sources where the sound events occur for each time and frequency position. The second processing block 202 is a computational information calculation module. According to the application of Figure 14, the second processing block 202 calculates a virtual microphone signal and spatial side information. It is then also referred to as the virtual microphone signal and side information computational calculation block 202. The virtual microphone signal and side information computational calculation block 202 use the positions of the sound events 205 to process the audio signals comprised in 111 .„11N to output the signal from the virtual audio microphone 105. The block 202, if necessary, can also calculate the spatial side information 106 corresponding to the virtual spatial microphone. The applications below illustrate possibilities, how blocks 201 and 202 can operate.

A seguir, a estimativa da posição de um avaliador de posição dos eventos sonoros de acordo com uma aplicação é descrito em mais detalhes.In the following, a position estimator's position estimation of sound events according to an application is described in more detail.

Dependendo da dimensão do problema (2D ou 3D) e o número de microfones espaciais, várias soluções para a estimativa da posição são possiveis. Se dois microfones espaciais em 2D existem, (o caso mais simples possivel) uma triangulação simples é possivel. A Figura 15 mostra um cenário exemplar no qual os microfones espaciais reais são descritos comoDepending on the size of the problem (2D or 3D) and the number of spatial microphones, several solutions for position estimation are possible. If two 2D spatial microphones exist, (the simplest possible case) a simple triangulation is possible. Figure 15 shows an exemplary scenario in which real space microphones are described as

Conjuntos Lineares Uniformes (ULAs | Uniform Linear Arrays) com 3 microfones cada. A DOA, expressa como os ângulos azimutais al(k, n) e a2(k, n) , são calculados para a posição de tempo/frequência (k, n) . Isso é obtido empregando um avaliador correto de DOA, como ESPRIT, R. Roy, A. Paulraj, and T. Kailath, "Direction- of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986, ou (raiz) MUSIC, vide R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276280, 1986, aos sinais de pressão transformados no dominio de tempo/frequência.Uniform Linear Arrays (ULAs | Uniform Linear Arrays) with 3 microphones each. The DOA, expressed as the azimuthal angles al(k, n) and a2(k, n) , are calculated for the time/frequency position (k, n) . This is achieved by employing a correct DOA evaluator such as ESPRIT, R. Roy, A. Paulraj, and T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986, or (root) MUSIC, see R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276280, 1986, to pressure signals transformed into the time/frequency domain.

Na Figura 15, dois microfones espaciais reais, aqui, dois conjuntos de microfone espacial real 410, 420 são ilustrados. As duas DOAs estimadas al(k, n) e a2(k, n) são representadas por duas linhas, uma primeira linha 430 representando a DOA al(k, n) e uma segunda linha 440 representando DOA a2(k, n) . A triangulação é possivel através das simples considerações geométricas conhecendo a posição e orientação de cada conjunto.In Figure 15, two real space microphones, here, two real space microphone arrays 410, 420 are illustrated. The two estimated DOAs al(k, n) and a2(k, n) are represented by two lines, a first line 430 representing the DOA al(k, n) and a second line 440 representing DOA a2(k, n) . Triangulation is possible through simple geometric considerations, knowing the position and orientation of each set.

A triangulação falha quando as duas linhas 430, 440 são exatamente paralelas. Nas aplicações reais, entretanto, isso é muito improvável. Entretanto, nem todos os resultados de triangulação correspondem a uma posição fisica ou praticável para o evento sonoro no espaço considerado. Por exemplo, a posição estimada do evento sonoro pode ser muito longe ou ainda fora do espaço assumido, indicando que provavelmente as DOAs não correspondem a qualquer evento sonoro que pode ser fisicamente interpretado com o modelo utilizado. Tais resultados podem ser causados pelo ruido do sensor ou reverberação ambiente muito forte. Desta forma, de acordo com uma aplicação, tais resultados indesejados são indicados de modo que o módulo de cálculo computacional de informação 202 possa tratá-los corretamente.Triangulation fails when the two lines 430, 440 are exactly parallel. In real applications, however, this is very unlikely. However, not all triangulation results correspond to a physical or practicable position for the sound event in the space considered. For example, the estimated position of the sound event may be very far away or even outside the assumed space, indicating that the DOAs probably do not correspond to any sound event that can be physically interpreted with the model used. Such results may be caused by sensor noise or very strong ambient reverberation. In this way, according to an application, such undesired results are indicated so that the information computational calculation module 202 can handle them correctly.

A Figura 16 descreve um cenário, onde a posição de um evento sonoro é estimada no espaço 3D. Microfones espaciais corretos são empregados, por exemplo, um conjunto de microfone plano ou em 3D. Na Figura 16, um primeiro microfone espacial 510, por exemplo, um primeiro conjunto de microfone em 3D, e um segundo microfone espacial 520, por exemplo, um primeiro conjunto de microfone em 3D, é ilustrado. A DOA no espaço 3D pode, por exemplo, ser expressa como azimute e elevação. Os vetores da unidade 530, 540 podem ser empregados para expressar as DOAs. Duas linhas 550, 560 são projetadas de acordo com as DOAs. Em 3D, mesmo com estimativas muito confiáveis, as duas linhas 550, 560 projetadas de acordo com as DOAs podem não cruzar. Entretanto, a triangulação pode ainda ser realizada, por exemplo, escolhendo o ponto médio do menor segmento que conecta as duas linhas. Semelhantemente ao caso 2D, a triangulação pode falhar ou pode representar resultados impraticáveis para determinadas combinações de direções, que podem, então, também ser indicadas, por exemplo, ao módulo de cálculo computacional de informação 202 da Figura 14. Se mais do que dois microfones espaciais existem, várias soluções são possiveis. Por exemplo, a triangulação explicada acima poderia ser realizada para todos os pares dos microfones espaciais reais (se N = 3, 1 com 2, 1 com 3, e 2 com 3). As posições resultantes podem então ser calculadas (por x e y, e, se 3D for considerado, z).Figure 16 describes a scenario, where the position of a sound event is estimated in 3D space. Correct spatial microphones are employed, for example a flat or 3D microphone array. In Figure 16, a first spatial microphone 510, e.g., a first 3D microphone array, and a second spatial microphone 520, e.g., a first 3D microphone array, are illustrated. DOA in 3D space can, for example, be expressed as azimuth and elevation. Unit vectors 530, 540 can be employed to express the DOAs. Two lines 550, 560 are designed according to the DOAs. In 3D, even with very reliable estimates, the two lines 550, 560 projected according to the DOAs may not intersect. However, triangulation can still be performed, for example, by choosing the midpoint of the shortest segment that connects the two lines. Similarly to the 2D case, triangulation may fail or may represent impractical results for certain combinations of directions, which may then also be referred to, for example, the computational information calculation module 202 of Figure 14. If more than two microphones spaces exist, several solutions are possible. For example, the triangulation explained above could be performed for all pairs of real space microphones (if N = 3, 1 with 2, 1 with 3, and 2 with 3). The resulting positions can then be calculated (by x and y, and, if 3D is considered, z).

De modo alternativo, conceitos mais complexos podem ser utilizados. Por exemplo, abordagens probabilisticas podem ser aplicadas conforme descrito em J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553. De acordo com uma aplicação, o campo sonoro pode ser analisado no dominio de tempo/frequência, por exemplo, obtido através de uma Transformada de Fourier de Curta Duração (STFT), na qual k e n denotam o indice de frequência k e indice de tempo n, respectivamente. A pressão complexa Pv(k, n) em uma posição arbitrária pv para um determinado k e n é modelada como uma única onda esférica emitida por uma fonte do tipo ponto isotrópico de banda estreita, por exemplo, empregando a fórmula: onde PIPLS(k, n) é o sinal emitido pela IPLS na sua posição pIPLS(k, n) . 0 fator complexo y(k, PIPLS, PV) expressa a propagação de PiPLs(k, n) a pv, por exemplo, introduz as modificações de fase e magnitude apropriadas. Aqui, a suposição pode ser aplicada que em cada posição de tempo/frequência apenas uma IPLS é ativa. Independentemente, várias IPLSs de banda estreita localizada em diferentes posições também podem ser ativas em um único momento.Alternatively, more complex concepts can be used. For example, probabilistic approaches can be applied as described in J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553. According to one application, the sound field can be analyzed in the time/frequency domain, for example, obtained through a Short-Term Fourier Transform (STFT), in which ken denote the frequency index k and time index n, respectively. The complex pressure Pv(k, n) at an arbitrary position pv for a given ken is modeled as a single spherical wave emitted by a narrowband isotropic point-type source, for example, employing the formula: where PIPLS(k, n) is the signal emitted by IPLS at its position pIPLS(k, n) . The complex factor y(k, PIPLS, PV) expresses the propagation of PiPLs(k, n) to pv, for example, introduces the appropriate phase and magnitude modifications. Here, the assumption can be applied that at each time/frequency position only one IPLS is active. Independently, multiple narrowband IPLSs located at different positions can also be active at a single time.

Cada IPLS modela o som direto ou uma reflexão ambiente distinta. Sua posição PiPLs(k, n) pode idealmente corresponder a uma fonte de som real localizada dentro da sala, ou uma fonte de som da imagem do espelho localizada fora, respectivamente. Desta forma, a posição PiPLs(k, n) também pode indicar a posição de um evento sonoro. Favor observar que o termo "fontes de som reais" denota as fontes de som reais que existem fisicamente no ambiente de gravação, como transmissores ou instrumentos musicais.Each IPLS models direct sound or a distinct ambient reflection. Its position PiPLs(k, n) can ideally correspond to a real sound source located inside the room, or a mirror image sound source located outside, respectively. In this way, the position PiPLs(k, n) can also indicate the position of a sound event. Please note that the term "real sound sources" denotes actual sound sources that physically exist in the recording environment, such as transmitters or musical instruments.

Ao contrário, com "fontes de som" ou "eventos sonoros" ou "IPLS" referimos às fontes de som efetivas, que são ativas em determinados instantes de tempo ou em determinadas posições de tempo/frequência, em que as fontes de som pode, por exemplo, representar fontes de som reais ou fontes de imagem de espelho.On the contrary, with "sound sources" or "sound events" or "IPLS" we refer to effective sound sources, which are active at certain instants of time or at certain time/frequency positions, where the sound sources can, for example, representing real sound sources or mirror image sources.

As Figuras 28a-28b ilustram conjuntos de microfone que localizam as fontes de som. As fontes de som localizadas podem ter diferentes interpretações fisicas dependendo da sua natureza. Quando os conjuntos de microfone recebem o som direto, eles podem localizar a posição de uma verdadeira fonte de som (por exemplo, transmissores).Figures 28a-28b illustrate microphone arrays that localize sound sources. Localized sound sources can have different physical interpretations depending on their nature. When microphone arrays receive direct sound, they can locate the position of a true sound source (e.g., transmitters).

Quando os conjuntos de microfone recebem reflexões, eles podem localizar a posição de uma fonte de imagem de espelho. As fontes de imagem de espelho também são fontes de som.When microphone arrays receive reflections, they can locate the position of a mirror image source. Mirror image sources are also sound sources.

A Figura 28a ilustra um cenário onde dois conjuntos de microfone 151 e 152 recebem som direto de uma fonte de som real (uma fonte de som fisicamente existente) 153.Figure 28a illustrates a scenario where two microphone arrays 151 and 152 receive direct sound from a real sound source (a physically existing sound source) 153.

A Figura 28b ilustra um cenário onde dois conjuntos de microfone 161, 162 recebem o som refletido, caracterizado pelo som ser refletido por uma parede. Por causa da reflexão, os conjuntos de microfone 161, 162 localizam a posição, onde o som parece vir, em uma posição de uma fonte de imagem de espelho 165, que é diferente da posição do alto-falante 163. Tanto a fonte de som real 153 da Figura 28a, quanto a fonte de imagem de espelho 165 são fontes de som.Figure 28b illustrates a scenario where two microphone arrays 161, 162 receive reflected sound, characterized by the sound being reflected by a wall. Because of reflection, the microphone assemblies 161, 162 locate the position, where the sound appears to come from, at a position of a mirror image source 165, which is different from the position of the speaker 163. Both the sound source real 153 of Figure 28a, and the mirror image source 165 are sound sources.

A Figura 28c ilustra um cenário onde dois conjuntos de microfone 171, 172 recebem som difuso e não podem localizar uma fonte de som. Enquanto este modelo de onda única é preciso apenas para ambientes de reverberação média dado que os sinais da fonte realizam a condição de ortogonalidade de disjunção em W (WDO tempo/frequência é suficientemente pequena. Isto é normalmente verdadeiro para sinais de fala, veja, por exemplo, [12] S. Rickard and Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1. Entretanto, o modelo também fornece uma boa estimativa para outros ambientes e é, então, também aplicável a estes ambientes.Figure 28c illustrates a scenario where two microphone arrays 171, 172 receive diffuse sound and cannot localize a sound source. While this single-wave model is only accurate for medium reverberation environments since the source signals fulfill the disjunction orthogonality condition in W (W), the time/frequency is sufficiently small. This is normally true for speech signals, see e.g. For example, [12] S. Rickard and Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. However, the model also provides a good estimate for other environments and is therefore also applicable to these environments.

A seguir, a estimativa das posições PiPLs(k, n) de acordo com uma aplicação é explicada. A posição PiPLs(k, n) de uma IPLS ativa em um determinada posição de tempo/frequência e, assim, a estimativa de um evento sonoro em uma posição de tempo/frequência, é estimada através da triangulação com base na direção de chegada (DOA) do som medido pelo menos em dois pontos de observação diferentes.Next, the estimation of PiPLs(k, n) positions according to an application is explained. The position PiPLs(k, n) of an active IPLS at a given time/frequency position, and thus the estimate of a sound event at a time/frequency position, is estimated through triangulation based on the direction of arrival ( DOA) of the sound measured at at least two different observation points.

A Figura 17 ilustra uma geometria onde a IPLS do intervalo de tempo/frequência atual (k, n) está localizada na posição desconhecida PiPLs(k, n) . Para determinar as informações de DOA necessárias, dois microfones espaciais reais, aqui, dois conjuntos de microfone, são empregados tendo uma geometria, posição e orientação conhecidas, que são colocadas nas posições 610 e 620, respectivamente. Os vetores px e p2 apontam as posições 610, 620, respectivamente. As orientações do conjunto são definidas pelos vetores da unidade Cj e c2. A DOA do som é determinada nas posições 610 e 620 para cada (k, n) usando um algoritmo de estimativa de DOA, por exemplo, conforme fornecido pela análise DirAC (ver [2], [3]) . Nisso, um primeiro vetor da unidade de ponto de vista e um segundo vetor da unidade de ponto de vista com relação a um ponto de vista dos conjuntos de microfone (ambos não mostrados na Figura 17) podem ser fornecidos como saida da análise DirAC. Por exemplo, ao operar 5 em 2D, o primeiro vetor da unidade de ponto de vista resulta em: Figure 17 illustrates a geometry where the IPLS of the current time/frequency interval (k, n) is located at the unknown position PiPLs(k, n) . To determine the required DOA information, two real space microphones, here two microphone arrays, are employed having a known geometry, position and orientation, which are placed at positions 610 and 620, respectively. The vectors px and p2 point to positions 610, 620, respectively. The orientations of the set are defined by the unit vectors Cj and c2. The DOA of the sound is determined at positions 610 and 620 for each (k, n) using a DOA estimation algorithm, for example as provided by DirAC analysis (see [2], [3]). In this, a first point of view unit vector and a second point of view unit vector with respect to a view of the microphone arrays (both not shown in Figure 17) can be provided as output from the DirAC analysis. For example, when operating on 5 in 2D, the first viewpoint unit vector results in:

Aqui, ϕ(k, n) representa o azimute da DOA estimada no primeiro conjunto de microfone, conforme descrito na Figura 17. Os vetores da unidade de DOA correspondentes ei(k, n) e 10 e2(k, n) , com relação ao sistema de coordenada global na origem, podem ser calculados aplicando as fórmulas: onde R são matrizes de transformação de coordenada, por exemplo, ao operar em 2D . para realizar a triangulação, os vetores de direção dx(k, n) e d2(k, n) podem ser calculados como: onde di.(k, n) = di(k, n) ei (fc, n), d2(k,n) = d2(k,n) e2(k,n), 20 onde dx(k, n) = | |d,(k, n) | | e d2(k, n) = | |d2(k,n) I I são as distâncias desconhecidas entre a IPLS e os dois conjuntos de microfone. A equação a seguir pode ser solucionada para dx(k, n) . Finalmente, a 25 posição PiPLs(k, n) da IPLS é dada por Here, ϕ(k, n) represents the azimuth of the estimated DOA at the first microphone array, as described in Figure 17. The corresponding DOA unit vectors ei(k, n) and 10 e2(k, n) , with respect to the global coordinate system at the origin, can be calculated by applying the formulas: where R are coordinate transformation matrices, e.g. when operating in 2D . To perform triangulation, the direction vectors dx(k, n) and d2(k, n) can be calculated as: where di.(k, n) = di(k, n) ei (fc, n), d2(k,n) = d2(k,n) e2(k,n), 20 where dx(k, n) = | |d,(k, n) | | and d2(k, n) = | |d2(k,n) II are the unknown distances between the IPLS and the two microphone arrays. The following equation can be solved for dx(k, n) . Finally, the 25 position PiPLs(k, n) of the IPLS is given by

Em outra aplicação, a equação (6) pode ser solucionada para d2(k, n) e pIPLs(k, n) é equivalentemente calculada empregando d2(k, n).In another application, equation (6) can be solved for d2(k, n) and pIPLs(k, n) is equivalently calculated using d2(k, n).

A equação (6) sempre fornece uma solução ao operar em 2D, a menos que ei(k, n) e e2(k, n) sejam paralelos. Entretanto, ao utilizar mais do que dois conjuntos de microfone ou ao operar em 3D, uma solução não pode ser obtida quando os vetores de direção d não cruzam. De acordo com uma aplicação, neste caso, o ponto que é mais próximo a todos os vetores de direção d deve ser calculado e o resultado pode ser utilizado como a posição da IPLS.Equation (6) always provides a solution when operating in 2D, unless ei(k, n) and e2(k, n) are parallel. However, when using more than two microphone arrays or when operating in 3D, a solution cannot be obtained when the d direction vectors do not intersect. According to an application, in this case, the point that is closest to all direction vectors d should be calculated and the result can be used as the position of the IPLS.

Em uma aplicação, todos os pontos de observação Pi, p2, ... deveriam ser localizados de modo que o som emitido pela IPLS caia no mesmo bloco temporal n. Esta exigência pode simplesmente ser realizada quando a distância Δ entre qualquer um dos dois pontos de observação for menor do que onde nFFT é o comprimento da janela de STFT, 0 < R < 1 especifica a sobreposição entre as estruturas de tempo sucessivas e fs é a frequência de amostragem. Por exemplo, para uma STFT de 1024 pontos a 48 kHz com 50 % de sobreposição (R = 0,5), o espaçamento máximo entre os conjuntos para cumprir a exigência acima é Δ = 3.65 m.In an application, all observation points Pi, p2, ... should be located so that the sound emitted by the IPLS falls in the same time block n. This requirement can simply be met when the distance Δ between any two observation points is less than where nFFT is the length of the STFT window, 0 < R < 1 specifies the overlap between successive time frames, and fs is the sampling frequency. For example, for a 1024-point STFT at 48 kHz with 50% overlap (R = 0.5), the maximum spacing between sets to meet the above requirement is Δ = 3.65 m.

A seguir, um módulo de cálculo computacional de informação 202, por exemplo, um sinal do microfone virtual e módulo de cálculo computacional de informações laterais, de acordo coin uma aplicação é descrito em mais detalhes.In the following, an information computational calculation module 202, for example, a virtual microphone signal and side information computational calculation module, according to an application is described in more detail.

A Figura 18 ilustra uma visão geral esquemática de um módulo de cálculo computacional de informação 202 de acordo com uma aplicação. A unidade de cálculo computacional de informação compreende um compensador de propagação 500, um combinador 510 e uma unidade de ponderação espectral 520. O módulo de cálculo computacional de informação 202 recebe as estimativas da posição da fonte de som SSP estimadas por um avaliador de posição dos eventos sonoros, um ou mais sinais de entrada de áudio é gravado por um ou mais dos microfones espaciais reais, posições posRealMic de um ou mais dos microfones espaciais reais, e a posição virtual posVmic do microfone virtual. Emite um sinal de saida de áudio os representando um sinal de áudio do microfone virtual.Figure 18 illustrates a schematic overview of a computational information calculation module 202 according to an application. The computational information calculation unit comprises a propagation compensator 500, a combiner 510, and a spectral weighting unit 520. The computational information calculation module 202 receives the SSP sound source position estimates estimated by a position estimator of the sound events, one or more audio input signals is recorded by one or more of the real spatial microphones, posRealMic positions of one or more of the real spatial microphones, and the virtual posVmic position of the virtual microphone. Outputs an audio output signal representing an audio signal from the virtual microphone.

A Figura 19 ilustra um módulo de cálculo computacional de informação de acordo com outra aplicação. O módulo de cálculo computacional de informação da Figura 19 compreende um compensador de propagação 500, um combinador 510 e uma unidade de ponderação espectral 520. O compensador de propagação 500 compreende um módulo de cálculo computacional dos parâmetros de propagação 501 e um módulo de compensação de propagação 504. O combinador 510 compreende um módulo de cálculo computacional dos fatores de combinação 502 e um módulo de combinação 505. A unidade de ponderação espectral 520 compreende uma unidade de cálculo computacional das ponderações espectrais 503, um módulo de aplicação de ponderação espectral 506 e um módulo de cálculo computacional de informações laterais espaciais 507. Para calcular o sinal de áudio do microfone virtual, as informações geométricas, por exemplo, a posição e a orientação dos microfones espaciais reais 121 . . . 12N, a posição, orientação e características do microfone espacial virtual 104, e as estimativas de posição dos eventos sonoros 205 são inseridas ao módulo de cálculo computacional de informação 202, em particular, ao módulo de cálculo computacional dos parâmetros de propagação 501 do compensador de propagação 500, ao módulo de cálculo computacional dos fatores de combinação 502 do combinador 510 e à unidade de cálculo computacional das ponderações espectrais 503 da unidade de ponderação espectral 520. O módulo de cálculo computacional dos parâmetros de propagação 501, o módulo de cálculo computacional dos fatores de combinação 502 e a unidade de cálculo computacional das ponderações espectrais 503 calculam os parâmetros utilizados na modificação dos sinais de áudio 111 . . . 11N no módulo de compensação de propagação 504, no módulo de combinação 505 e no módulo de aplicação de ponderação espectral 506. No módulo de cálculo computacional de informação 202, os sinais de áudio 111 ... 11N podem primeiro ser modificados para compensar os efeitos dados pelos diferentes comprimentos de propagação entre as posições do evento sonoro e os microfones espaciais reais. Os sinais podem então ser combinados para melhorar, por exemplo, indice de sinal para ruído (SNR | signal- to-noise ratio). Finalmente, o sinal resultante pode, então, ser ponderado de forma espectral para considerar o padrão de recebimento direcional do microfone virtual, bem como qualquer função de ganho dependente da distância. Estas três etapas são discutidas em mais detalhes abaixo.Figure 19 illustrates a computational information calculation module according to another application. The information computational calculation module of Figure 19 comprises a propagation compensator 500, a combiner 510 and a spectral weighting unit 520. The propagation compensator 500 comprises a propagation parameters computational calculation module 501 and a data compensation module. propagation 504. The combiner 510 comprises a combination factors computational calculation module 502 and a combination module 505. The spectral weighting unit 520 comprises a spectral weights computational calculation unit 503, a spectral weighting application module 506 and a spatial lateral information computational calculation module 507. To calculate the virtual microphone audio signal, geometric information, for example, the position and orientation of real spatial microphones 121. . . 12N, the position, orientation and characteristics of the virtual spatial microphone 104, and the position estimates of the sound events 205 are input to the computational information calculation module 202, in particular, the computational propagation parameter calculation module 501 of the space compensator. propagation factor 500, the combination factors computational calculation module 502 of the combiner 510 and the spectral weights computational calculation unit 503 of the spectral weighting unit 520. The propagation parameters computational calculation module 501, the propagation parameters computational calculation module combination factors 502 and the spectral weights computational calculation unit 503 calculate the parameters used in modifying the audio signals 111. . . 11N in the propagation compensation module 504, the combination module 505 and the spectral weighting application module 506. In the information computational calculation module 202, the audio signals 111 ... 11N may first be modified to compensate for the effects given by the different propagation lengths between the positions of the sound event and the real space microphones. The signals can then be combined to improve, for example, signal-to-noise ratio (SNR). Finally, the resulting signal can then be spectrally weighted to account for the directional receive pattern of the virtual microphone as well as any distance-dependent gain functions. These three steps are discussed in more detail below.

A compensação da propagação é agora explicada em mais detalhes. Na parte superior da Figura 20, dois microfones espaciais reais (um primeiro conjunto de microfone 910 e um segundo conjunto de microfone 920), a posição de um evento sonoro 930 localizado para posição de tempo/frequência (k, n) , e a posição do microfone espacial virtual 940 são ilustrados.Propagation compensation is now explained in more detail. In the upper part of Figure 20, two real spatial microphones (a first microphone array 910 and a second microphone array 920), the position of a sound event 930 localized to time/frequency position (k, n), and the position of virtual space microphone 940 are illustrated.

A parte inferior da Figura 20 descreve um eixo temporal. Assume-se que um evento sonoro é emitido no tempo t0 e então propaga aos microfones espaciais reais e virtuais. Os atrasos de tempo de chegada bem como as amplitudes mudam com a distância, de modo que quanto maior o comprimento de propagação, mais fraca a amplitude e mais longo o atraso do tempo de chegada. Os sinais nos dois conjuntos reais são comparáveis apenas se o atraso relativo Dtl2 entre eles por pequeno. Caso contrário, um dos dois sinais precisa ser temporalmente realinhado para compensar o atraso relativo Dtl2, e possivelmente, ser escalado para compensar os diferentes declínios. Compensar o atraso entre a chegada ao microfone virtual e a chegada aos conjuntos reais de microfone (em um dos microfones espaciais reais) muda o atraso independente da localização do evento sonoro, tornando-o supérfluo para a maioria das aplicações.The bottom part of Figure 20 depicts a time axis. It is assumed that a sound event is emitted at time t0 and then propagates to real and virtual spatial microphones. Arrival time delays as well as amplitudes change with distance, so that the longer the propagation length, the weaker the amplitude and the longer the arrival time delay. The signals in the two real sets are comparable only if the relative delay Dtl2 between them is small. Otherwise, one of the two signals needs to be temporally realigned to compensate for the relative delay Dtl2, and possibly scaled to compensate for the different decays. Compensating for the delay between arrival at the virtual microphone and arrival at the real microphone arrays (in one of the real space microphones) changes the delay independent of the location of the sound event, making it superfluous for most applications.

Retornando à Figura 19, o módulo de cálculo computacional dos parâmetros de propagação 501 é adaptado para calcular os atrasos a ser corrigidos para cada microfone espacial real e para cada evento sonoro. Se desejado, também calcula os fatores de ganho a ser considerados para compensar os diferentes declinios de amplitude. O módulo de compensação de propagação 504 é configurado para utilizar estas informações para modificar os sinais de áudio corretamente. Se os sinais devem ser alternados por uma pequena quantidade de tempo (comparado à janela de tempo do banco de filtro), então uma simples rotação de fase é suficiente. Se os atrasos são maiores, implementações mais complicada são necessárias.Returning to Figure 19, the propagation parameters computational calculation module 501 is adapted to calculate the delays to be corrected for each real spatial microphone and for each sound event. If desired, it also calculates the gain factors to be considered to compensate for different amplitude declines. The propagation compensation module 504 is configured to use this information to modify the audio signals correctly. If the signals are to be switched for a small amount of time (compared to the filter bank time window), then a simple phase rotation is sufficient. If delays are longer, more complicated implementations are required.

A saida do módulo de compensação de propagação 504 são os sinais de áudio modificados expressos no dominio de tempo/frequência original.The output of the propagation compensation module 504 is the modified audio signals expressed in the original time/frequency domain.

A seguir, uma estimativa particular de compensação da propagação para um microfone virtual de acordo com uma aplicação será descrito com referência à Figura 17 que, inter alia, ilustra a posição 610 de um primeiro microfone espacial real e a posição 620 de um segundo microfone espacial real.In the following, a particular propagation compensation estimate for a virtual microphone in accordance with an application will be described with reference to Figure 17 which, inter alia, illustrates the position 610 of a first real spatial microphone and the position 620 of a second spatial microphone. real.

Na aplicação que agora é explicada, assume-se que, pelo menos, um primeiro sinal de entrada de áudio gravado, por exemplo, um sinal de pressão de, pelo menos, um dos microfones espaciais reais (por exemplo, os conjuntos de microfone) é disponivel, por exemplo, o sinal de pressão de um primeiro microfone espacial real. Referimo-nos ao microfone considerado como microfone de referência, em sua posição coma posição de referência prsf e ao seu sinal de pressão como sinal de pressão de referência Pref(k, n). Entretanto, a compensação da propagação pode não. ser conduzida com relação a apenas um sinal de pressão, mas também com relação aos sinais de pressão de uma pluralidade ou de todos os microfones espaciais reais.In the application that is now explained, it is assumed that at least one first recorded audio input signal, e.g. a pressure signal from at least one of the real spatial microphones (e.g. the microphone arrays) For example, the pressure signal from a first real space microphone is available. We refer to the considered microphone as the reference microphone, in its position as the reference position prsf and its pressure signal as the reference pressure signal Pref(k, n). However, propagation compensation may not. be conducted with respect to only one pressure signal, but also with respect to pressure signals from a plurality or all real space microphones.

A relação entre o sinal de pressão P∑PLs(k, n) emitido pela IPLS e um sinal de pressão de referência Pref(k, n) de um microfone de referência localizado em pref pode ser expressa pela fórmula (9) : The relationship between the pressure signal P∑PLs(k, n) emitted by the IPLS and a reference pressure signal Pref(k, n) from a reference microphone located at pref can be expressed by formula (9):

No geral, o fator complexo y(k, pa, pb) expressa o declínio de rotação de fase e amplitude introduzido pela propagação de uma onda esférica de sua origem em pa a pb. Entretanto, testes práticos indicaram que considerar apenas o declínio de amplitude em y leva às impressões plausíveis do sinal do microfone virtual com poucos artefatos significativos comparados também à consideração da rotação de fase.Overall, the complex factor y(k, pa, pb) expresses the phase and amplitude rotation decay introduced by the propagation of a spherical wave from its origin in pa to pb. However, practical tests indicated that considering only the amplitude decay in y leads to plausible impressions of the virtual microphone signal with few significant artifacts compared to also considering the phase rotation.

A energia do som que pode ser medida em um determinado ponto no espaço depende fortemente da distância r da fonte de som, na Figura 6 da posição pIPLS da fonte de som. Em muitas situações, esta dependência pode ser modelada com precisão suficiente usando princípios físicos bem conhecidos, por exemplo, o declínio 1/r da pressão do som no campo distante de uma fonte principal.The sound energy that can be measured at a given point in space strongly depends on the distance r from the sound source, in Figure 6 the pIPLS position of the sound source. In many situations, this dependence can be modeled with sufficient accuracy using well-known physical principles, for example, the 1/r decay of sound pressure in the far field of a main source.

Quando a distância de um microfone de referência, por exemplo, o primeiro microfone real da fonte de som é conhecido, e quando, ainda, a distância do microfone virtual da fonte de som é conhecida, então, a energia do som na posição do microfone virtual pode ser estimada do sinal e a energia do microfone de referência, por exemplo, o primeiro microfone espacial real. Isto significa que o sinal de saída do microfone virtual pode ser obtido aplicando ganhos corretos ao sinal de pressão de referência.When the distance of a reference microphone, for example, the first real microphone from the sound source, is known, and when, further, the distance of the virtual microphone from the sound source is known, then the sound energy at the microphone position Virtual spacecraft can be estimated from the signal and energy of the reference microphone, for example, the first real space microphone. This means that the virtual microphone output signal can be obtained by applying correct gains to the reference pressure signal.

Assumindo que o primeiro microfone espacial real é o microfone de referência, então pref = Pi- Na Figura 17, o microfone virtual está localizado em pv. Visto que a geometria na Figura 17 é conhecida em detalhes, a distância di(k, n) = I I dT (k, n) I I entre o microfone de referência (na Figura 17: o primeiro microfone espacial real) e a IPLS pode facilmente ser determinada, bem como a distância s(k, n) = lls(k, n)ll entre o rnicrofone 10 virtual e a IPLS, a saber Assuming that the first real spatial microphone is the reference microphone, then pref = Pi- In Figure 17, the virtual microphone is located at pv. Since the geometry in Figure 17 is known in detail, the distance di(k, n) = II dT (k, n) II between the reference microphone (in Figure 17: the first real space microphone) and the IPLS can easily be determined, as well as the distance s(k, n) = lls(k, n)ll between the virtual microphone 10 and the IPLS, namely

A pressão do som PJk, n) na posição do microfone virtual é calculada combinando as fórmulas (1) e (9), tendo Conforme mencionado acima, em algumas aplicações, os fatores y podem apenas considerar o declinio de amplitude devido à propagação. Assumindo que a pressão do som reduz com 1/r, então Quando o modelo na fórmula (1) é mantido, por exemplo, quando apenas som direto está presente, então, a fórmula (12) pode precisamente reconstruir as informações de magnitude. Entretanto, no caso de campos sonoros difusos puros, por exemplo, quando as suposições do modelo não são cumpridas, o método apresentado representa uma desreverberação implícita do sinal ao mover o microfone virtual longe das posições dos conjuntos do sensor. De fato, conforme discutido acima difusos, esperamos que a maioria das IPLSs esteja localizada próxima a dois conjuntos do sensor. Assim, ao mover o microfone virtual longe destas posições, nós provavelmente aumentamos a distância s = ||s|| na Figura 17. Assim, a magnitude da pressão de referência é reduzida ao aplicar uma ponderação de acordo com a fórmula (11) . Correspondentemente, ao mover o microfone virtual próximo a uma fonte de som real, as posições de tempo/frequência correspondentes ao som direto serão amplificadas de modo que todo o sinal de áudio será percebido menos difuso. Pelo ajuste da regra na fórmula (12), um pode controlar a amplificação do som direto e supressão do som difuso. Pela condução da compensação da propagação no sinal de entrada de áudio gravado (por exemplo, o sinal de pressão) do primeiro microfone espacial real, um primeiro sinal de áudio modificado é obtido.The sound pressure PJk, n) at the virtual microphone position is calculated by combining formulas (1) and (9), having As mentioned above, in some applications, y-factors may only account for amplitude decline due to propagation. Assuming that the sound pressure reduces with 1/r, then When the model in formula (1) is maintained, for example, when only direct sound is present, then formula (12) can accurately reconstruct the magnitude information. However, in the case of pure diffuse sound fields, for example, when the model assumptions are not met, the presented method represents an implicit dereverberation of the signal by moving the virtual microphone away from the positions of the sensor arrays. In fact, as fuzzy discussed above, we expect most IPLSs to be located close to two sensor arrays. Thus, by moving the virtual microphone away from these positions, we likely increase the distance s = ||s|| in Figure 17. Thus, the magnitude of the reference pressure is reduced by applying a weighting according to formula (11). Correspondingly, when moving the virtual microphone close to a real sound source, the time/frequency positions corresponding to the direct sound will be amplified so that the entire audio signal will be perceived as less diffuse. By adjusting the rule in formula (12), one can control the amplification of direct sound and suppression of diffuse sound. By conducting propagation compensation on the recorded audio input signal (e.g., the pressure signal) of the first real spatial microphone, a modified first audio signal is obtained.

Nas aplicações, um segundo sinal de áudio modificado pode ser obtido conduzindo a compensação da propagação em um segundo sinal de entrada de áudio gravado (segundo sinal de pressão) do segundo microfone espacial real.In applications, a second modified audio signal may be obtained by conducting propagation compensation on a second recorded audio input signal (second pressure signal) from the second real space microphone.

Em outras aplicações, outros sinais de áudio podem ser obtidos conduzindo a compensação da propagação em outros sinais de entrada de áudio gravados (outros sinais de pressão) de outros microfones espaciais reais.In other applications, other audio signals may be obtained by conducting propagation compensation on other recorded audio input signals (other pressure signals) from other real space microphones.

Agora, a combinação nos blocos 502 e 505 na Figura 19 de acordo com uma aplicação é explicado em mais detalhes. Assume-se que dois ou mais sinais de áudio de uma pluralidade de diferentes microfones espaciais reais foi modificada para compensar as diferentes passagens de propagação para obter dois ou mais sinais de áudio modificados. Visto que os sinais de áudio dos diferentes microfones espaciais reais foram modificados para compensar as diferentes passagens de propagação, eles podem ser combinados para melhorar a qualidade do áudio. Fazendo isso, por exemplo, SNR pode ser elevado PI a reverberância pode ser reduzida. Possíveis soluções para a combinação compreendem: - Média ponderada, por exemplo, considerando a SNR, ou a distância ao microfone virtual, ou a difusão que foi estimada pelos microfones espaciais reais. Soluções tradicionais, por exemplo, Combinação de Razão Máxima (MRC | Maximum Ratio Combining) ou Combinação de Ganho Igual (EQC | Equal Gain Combining) podem ser empregadas, ou - Combinação linear de alguns ou todos os sinais de áudio modificados para obter um sinal de combinação. Os sinais de áudio modificados podem ser ponderados na combinação linear para obter o sinal de combinação, ou - Seleção, por exemplo, apenas um sinal é utilizado, por exemplo, dependente da SNR ou distância ou difusão.Now, the combination in blocks 502 and 505 in Figure 19 according to an application is explained in more detail. It is assumed that two or more audio signals from a plurality of different real spatial microphones have been modified to compensate for the different propagation passes to obtain two or more modified audio signals. Since the audio signals from different real spatial microphones have been modified to compensate for different propagation passes, they can be combined to improve audio quality. By doing this, for example, SNR can be raised and reverberance can be reduced. Possible solutions for the combination comprise: - Weighted average, for example, considering the SNR, or the distance to the virtual microphone, or the diffusion that was estimated by real space microphones. Traditional solutions, e.g. Maximum Ratio Combining (MRC) or Equal Gain Combining (EQC) can be employed, or - Linear combination of some or all of the modified audio signals to obtain a signal combination. The modified audio signals can be weighted in linear combination to obtain the combination signal, or - Selection, e.g. only one signal is used, e.g. dependent on SNR or distance or diffusion.

A tarefa do módulo 502 é, se aplicável, calcular parâmetros para a combinação, que é realizada no módulo 505.The task of module 502 is, if applicable, to calculate parameters for the combination, which is performed in module 505.

Agora, a ponderação espectral de acordo com aplicações é descrita em mais detalhes. Para isso, a referência é feita aos blocos 503 e 506 da Figura 19. Nesta etapa final, o sinal de áudio resultante da combinação ou da compensação de propagação dos sinais de entrada de áudio é ponderado no domínio de tempo/frequência de acordo com as características espaciais do microfone espacial virtual conforme especificado pela entrada 104 e/ou de acordo com a geometria reconstruída (dada em 205). Para cada posição de tempo/frequência a reconstrução geométrica permite obter facilmente a DOA com relação ao microfone virtual, conforme mostrado na Figura 2.1Ainda, a distância entre o microfone virtual e a posição do evento de som pode ser prontamente calculada.Now, spectral weighting according to applications is described in more detail. For this, reference is made to blocks 503 and 506 of Figure 19. In this final step, the audio signal resulting from the combination or propagation compensation of the audio input signals is weighted in the time/frequency domain according to the spatial characteristics of the virtual spatial microphone as specified by input 104 and/or according to the reconstructed geometry (given in 205). For each time/frequency position, geometric reconstruction allows us to easily obtain the DOA with respect to the virtual microphone, as shown in Figure 2.1. Furthermore, the distance between the virtual microphone and the position of the sound event can be readily calculated.

A ponderação para a posição de tempo/frequência é, então, calculada considerando o tipo de microfone virtual desejado. No caso de microfones direcionais, as ponderações espectrais podem ser calculadas de acordo com um padrão de recebimento predefinido. Por exemplo, de acordo com uma aplicação, um microfone cardioide pode ter um padrão de recebimento definido pela função g(teta), g(teta) = 0,5 + 0,5 cos(teta), onde teta é o ângulo entre a direção de visão do microfone espacial virtual e da DOA do som a partir do ponto de vista do microfone virtual. Outra possibilidade são funções de declínio artístico (não físico). Em certas aplicações, pode ser desejado suprimir eventos de som longes do microfone virtual com um fator maior do que uma propagação de campo livre caracterizante. Para esta finalidade, algumas aplicações introduzem uma função de ponderação adicional que depende da distância entre o microfone virtual e o evento de som. Em uma aplicação, apenas eventos de som dentro de uma certa distância (por exemplo, em metros) do microfone virtual devem ser recebidos.The weighting for time/frequency position is then calculated considering the desired virtual microphone type. In the case of directional microphones, spectral weights can be calculated according to a predefined receive pattern. For example, according to one application, a cardioid microphone may have a receive pattern defined by the function g(theta), g(theta) = 0.5 + 0.5 cos(theta), where theta is the angle between the virtual spatial microphone viewing direction and the DOA of the sound from the virtual microphone point of view. Another possibility is artistic (non-physical) decline functions. In certain applications, it may be desired to suppress sound events far from the virtual microphone by a factor greater than a characterizing free field propagation. For this purpose, some applications introduce an additional weighting function that depends on the distance between the virtual microphone and the sound event. In one application, only sound events within a certain distance (e.g. in meters) of the virtual microphone should be received.

Com relação à diretividade do microfone virtual os padrões de diretividade arbitrária podem ser aplicados para o microfone virtual. Fazendo isso, um pode, por exemplo, separar uma fonte de um cenário do som complexa.Regarding the directivity of the virtual microphone, arbitrary directivity standards can be applied to the virtual microphone. By doing this, one can, for example, separate a source from a complex sound scene.

Visto que a DOA do som pode ser calculada na posição pv do microfone virtual, a saber, onde cv é o vetor da unidade que descreve a orientação do microfone virtual, diretividades arbitrárias para o microfone virtual podem ser realizadas. Por exemplo, supondo que Pv(k,n) indica o sinal de combinação ou o sinal de áudio modificado compensado pela propagação, então a fórmula: calcula a saida de um microfone virtual com diretividade cardioide. Os padrões direcionais, que podem potencialmente ser gerados desta forma, dependem da precisão da estimativa de posição.Since the DOA of the sound can be calculated at the pv position of the virtual microphone, namely, where cv is the unit vector describing the orientation of the virtual microphone, arbitrary directivities for the virtual microphone can be realized. For example, assuming that Pv(k,n) indicates the blending signal or the propagation-compensated modified audio signal, then the formula: calculates the output of a virtual microphone with cardioid directivity. The directional patterns, which can potentially be generated in this way, depend on the accuracy of the position estimation.

Nas aplicações, um ou mais microfones não espaciais reais, por exemplo, um microfone omnidirecional ou um microfone direcional como uma cardioide, são colocados no cenário do som além dos microfones espaciais reais para melhorar ainda mais a qualidade do som dos sinais do microfone virtual 105 na Figura 8.In applications, one or more real non-spatial microphones, for example, an omnidirectional microphone or a directional microphone such as a cardioid, are placed in the sound stage in addition to the real spatial microphones to further improve the sound quality of the virtual microphone signals 105 in Figure 8.

Estes microfones não são utilizados para colher quaisquer informações geométricas, mas sim fornecer apenas um sinal de áudio limpador. Estes microfones podem ser colocados mais próximos às fontes de som do que os microfones espaciais. Neste caso, de acordo com uma aplicação, os sinais de áudio dos microfones não espaciais reais e suas posições são simplesmente inseridos ao módulo de compensação de propagação 504 da Figural9 para processamento, ao invés dos sinais de áudio dos microfones espaciais reais. A compensação de propagação é então conduzida para um ou mais sinais de áudio gravados dos microfones não espaciais com relação à posição de um ou mais microfones não espaciais. Pelo presente, uma aplicação é realizada usando microfones não espaciais adicionais.These microphones are not used to collect any geometric information, but rather only provide a clean audio signal. These microphones can be placed closer to sound sources than space microphones. In this case, according to one application, the audio signals from the real non-spatial microphones and their positions are simply input to the propagation compensation module 504 of Figure 9 for processing, instead of the audio signals from the real spatial microphones. Propagation compensation is then conducted for one or more audio signals recorded from the non-spatial microphones with respect to the position of the one or more non-spatial microphones. Hereby, an application is realized using additional non-spatial microphones.

Em outra aplicação, o cálculo computacional das informações laterais espaciais do microfone virtual é realizado. Para calcular as informações laterais espaciais 106 do microfone, o módulo de cálculo computacional de informação 202 da Figura 19 compreende um módulo de cálculo computacional de informações laterais espaciais 507, que é adaptado para receber como entrada as posições das fontes de som 205 e a posição, orientação e características 104 do microfone virtual. Em certas aplicações, de acordo com as informações laterais 106 que precisam ser calculadas, o sinal de áudio do microfone virtual 105 também pode ser considerado como entrada ao módulo de cálculo de informação lateral espacial 507.In another application, the computational calculation of the spatial lateral information of the virtual microphone is performed. To calculate the spatial side information 106 of the microphone, the computational information calculation module 202 of Figure 19 comprises a spatial side information computational calculation module 507, which is adapted to receive as input the positions of the sound sources 205 and the position , orientation and characteristics 104 of the virtual microphone. In certain applications, according to the lateral information 106 that needs to be calculated, the audio signal from the virtual microphone 105 can also be considered as input to the spatial lateral information calculation module 507.

A saida do módulo de cálculo computacional de informação lateral espacial 507 são as informações laterais do microfone virtual 106. Estas informações laterais podem ser, por exemplo, a DOA ou a difusão de som para cada posição de tempo/frequência (k, n) a partir do ponto de vista do microfone virtual. Outra possivel informação lateral poderia, por exemplo, ser o vetor da intensidade de som ativa Ia(k, n) que teria sido medida na posição do microfone virtual. Como estes parâmetros podem ser derivados, será agora descrito.The output of the spatial side information computational calculation module 507 is the side information from the virtual microphone 106. This side information can be, for example, the DOA or the sound diffusion for each time/frequency position (k, n) to from the virtual microphone's point of view. Another possible side information could, for example, be the active sound intensity vector Ia(k, n) that would have been measured at the position of the virtual microphone. How these parameters can be derived will now be described.

De acordo com uma aplicação, a estimativa de DOA para o microfone espacial virtual é realizada. O módulo de cálculo computacional de informação 120 é adaptado para estimar a direção de chegada ao microfone virtual como a informação lateral espacial, com base em um vetor de posição do microfone virtual e com base em um vetor de posição do evento de som conforme ilustrado pela Figura 22.According to one application, DOA estimation for the virtual space microphone is performed. The computational information calculation module 120 is adapted to estimate the direction of arrival at the virtual microphone as the spatial lateral information, based on a position vector of the virtual microphone and based on a position vector of the sound event as illustrated by Figure 22.

A Figura 22 descreve uma possivel forma de derivar a DOA do som a partir do ponto de vista do microfone virtual. A posição do evento de som, fornecido pelo bloco 205 na Figura 19, pode ser descrita para cada posição de tempo/frequência (k, n) com um vetor de posição r(k, n) , o vetor de posição do evento de som. Semelhantemente, a posição do microfone virtual, fornida como entrada 104 na Figura 19, pode ser descrita com um vetor de posição s(k,n), o vetor de posição do microfone virtual. A direção de visualização do microfone virtual pode ser descrita por um vetor v(k, n) . A DOA com relação ao microfone virtual é dada por a(k,n). Esta representa o ângulo entre v e a trajetória da propagação de som h(k,n) . h(k, n) que pode ser calculada empregando a fórmula: h(k, n) = s(k,n) - r(k, n) .Figure 22 describes a possible way to derive the DOA of the sound from the virtual microphone's point of view. The position of the sound event, given by block 205 in Figure 19, can be described for each time/frequency position (k, n) with a position vector r(k, n) , the position vector of the sound event . Similarly, the position of the virtual microphone, provided as input 104 in Figure 19, can be described with a position vector s(k,n), the position vector of the virtual microphone. The viewing direction of the virtual microphone can be described by a vector v(k, n) . The DOA with respect to the virtual microphone is given by a(k,n). This represents the angle between v and the sound propagation trajectory h(k,n) . h(k, n) which can be calculated using the formula: h(k, n) = s(k,n) - r(k, n) .

A DOA desejada a(k, n) pode agora ser calculada para cada (k, n) , por exemplo, através da definição do produto interno de h(k, n) e v(k,n), a saber, a(k, n) = arcos (h(k, n) • v(k,n) / ( I|h(k, n)|| I |v(k,n) II ) .The desired DOA a(k, n) can now be calculated for each (k, n) , for example, by defining the inner product of h(k, n) and v(k,n), namely, a(k , n) = arcs (h(k, n) • v(k,n) / ( I|h(k, n)|| I |v(k,n) II ) .

Em outra aplicação, o módulo de cálculo computacional de informação 120 pode ser adaptado para estimar a intensidade de som ativa no microfone virtual como informação lateral espacial, com base em um vetor de posição do microfone virtual e com base em um vetor de posição do evento de som conforme ilustrado pela Figura 22.In another application, the computational information calculation module 120 may be adapted to estimate the active sound intensity at the virtual microphone as spatial lateral information, based on a position vector of the virtual microphone and based on an event position vector. sound as illustrated in Figure 22.

A partir da DOA a(k, n) definida acima, nós podemos derivar a intensidade de som ativa Xa(k, n) na posição do microfone virtual. Para isso, é suposto que o sinal de áudio do microfone virtual 105 na Figura 8 corresponda à saida de um microfone omnidirecional, por exemplo, nós supomos que o microfone virtual é um microfone omnidirecional. Além disso, a direção de visualização v na Figura 22 é assumida como paralela ao eixo x do sistema de coordenada.From the DOA a(k, n) defined above, we can derive the active sound intensity Xa(k, n) at the virtual microphone position. To do this, it is assumed that the audio signal from the virtual microphone 105 in Figure 8 corresponds to the output of an omnidirectional microphone, for example, we assume that the virtual microphone is an omnidirectional microphone. Furthermore, the viewing direction v in Figure 22 is assumed to be parallel to the x axis of the coordinate system.

Visto que o vetor da intensidade de som ativa Ia(k, n) desejado descreve o fluxo liquido de energia através da posição do microfone virtual, podemos calcular Ia(k, n) pode ser calculada, por exemplo, de acordo com a fórmula: Ia(k, n) = - (1/2 rho) lPv(k, n) I * [ cos a(k, n) , sin a(k, n) ]T, onde [ ]T denota um vetor transposto, rho é a densidade de ar, e Pv (k, n) é a pressão do som medida pelo microfone espacial virtual, por exemplo, a saida 105 do bloco 506 na Figura 19. Se o vetor da intensidade ativa tiver de ser calculado expresso no sistema de coordenada geral, mas ainda na posição do microfone virtual, a seguinte fórmula pode ser aplicada: Ia(k, n) = (1/2 rho) | Pv (k, n)|2 h(k, n) / I I h(k, n) I I .Since the desired active sound intensity vector Ia(k, n) describes the net flow of energy through the position of the virtual microphone, Ia(k, n) can be calculated, for example, according to the formula: Ia(k, n) = - (1/2 rho) lPv(k, n) I * [ cos a(k, n) , sin a(k, n) ]T, where [ ]T denotes a transposed vector, rho is the air density, and Pv (k, n) is the sound pressure measured by the virtual spatial microphone, for example, output 105 of block 506 in Figure 19. If the active intensity vector is to be calculated expressed in the general coordinate system, but still at the virtual microphone position, the following formula can be applied: Ia(k, n) = (1/2 rho) | Pv (k, n)|2 h(k, n) / I I h(k, n) I I .

A difusão de som expressa o quão difuso o campo de som está em um dado encaixe de tempo/frequência (ver, por exemplo, [2]) . A difusão é expressa por um valor em que 0 < l < 1. A difusão de 1 indica que o campo de energia total do som de um campo de som é completamente difuso. Estas informações são importantes, por exemplo, na reprodução de som espacial. Tradicionalmente, a difusão é calculada no ponto especifico no espaço no qual um sistema de microfone é colocado.Sound diffusion expresses how diffuse the sound field is at a given time/frequency slot (see, for example, [2]). Diffusion is expressed by a value where 0 < l < 1. Diffusion of 1 indicates that the total sound energy field of a sound field is completely diffuse. This information is important, for example, in spatial sound reproduction. Traditionally, diffusion is calculated at the specific point in space at which a microphone system is placed.

De acordo com uma aplicação, a difusão pode ser calculada como um parâmetro adicional às informações laterais geradas para o microfone virtual (VM), que pode ser colocado arbitrariamente em uma posição arbitrária no cenário do som. Pelo presente, um aparelho que também calcula a difusão além do sinal de áudio em uma posição virtual de um microfone virtual pode ser visto como um DirAC frontal virtual, como é possivel produzir um fluxo DirAC, a saber, um sinal de áudio, direção de chegada, e difusão, para um ponto arbitrário no cenário do som. O fluxo DirAC pode ainda ser processado, transmitido e reproduzido em uma configuração arbitrária com vários alto-transmissores. Neste caso, o ouvinte passa pelo cenário do som como se ele ou ela estivesse na posição especificada pelo microfone virtual e estivesse olhando na direção determinada por sua orientação.According to one application, diffusion can be calculated as an additional parameter to the lateral information generated for the virtual microphone (VM), which can be arbitrarily placed in an arbitrary position in the sound scene. At present, a device that also calculates diffusion in addition to the audio signal at a virtual position of a virtual microphone can be viewed as a virtual front DirAC, as it is possible to produce a DirAC stream, namely, an audio signal, direction of arrival, and diffusion, to an arbitrary point in the soundscape. The DirAC stream can further be processed, transmitted and played back in an arbitrary configuration with multiple speakers. In this case, the listener passes through the sound stage as if he or she were in the position specified by the virtual microphone and were looking in the direction determined by its orientation.

A Figura 23 ilustra um bloco de cálculo computacional de informação de acordo com uma aplicação, compreendendo uma unidade de cálculo computacional de difusão 801 para calcular a difusão no microfone virtual. O bloco de cálculo computacional de informação 202 é adaptado para receber entradas 111 a 11N, que além das entradas da Figura 14 também incluem a difusão nos microfones espaciais reais. Deixar 4f(SM11 a 1μ<SMN> denotam estes valores. Estas entradas adicionais são inseridas ao módulo de cálculo computacional de informação 202. A saida 103 da unidade de cálculo computacional de difusão 801 é o parâmetro de difusão calculado na posição do microfone virtual. Uma unidade de cálculo computacional de difusão 801 de uma aplicação é ilustrada na Figura 24 que descreve mais detalhes. De acordo com uma aplicação, a energia de som direto e difuso em cada um de N microfones espaciais é estimada. Então, utilizar as informações sobre as posições da IPLS, e as informações sobre as posições dos microfones espaciais e virtuais, as estimativas de N destas energias na posição do microfone virtual são obtidas. Finalmente, as estimativas podem ser combinadas para melhorar a precisão da estimativa e o parâmetro da difusão no microfone virtual pode ser prontamente calculado. „ • n(SMl) r(SMN) n(SMl) TJ(SMA') ,Figure 23 illustrates an information computational calculation block according to an application, comprising a diffusion computational calculation unit 801 for calculating diffusion in the virtual microphone. The computational information calculation block 202 is adapted to receive inputs 111 to 11N, which in addition to the inputs of Figure 14 also include diffusion in real space microphones. Let 4f(SM11 to 1μ<SMN> denote these values. These additional inputs are input to the information computational calculation module 202. The output 103 of the diffusion computational calculation unit 801 is the diffusion parameter calculated at the position of the virtual microphone. A diffusion computational calculation unit 801 of an application is illustrated in Figure 24 which describes in more detail. According to an application, the direct and diffuse sound energy in each of N space microphones is estimated. IPLS positions, and information about the positions of the spatial and virtual microphones, estimates of N of these energies at the position of the virtual microphone are obtained. Finally, the estimates can be combined to improve the accuracy of the estimation and the diffusion parameter in the. virtual microphone can be readily calculated. „ • n(SMl) r(SMN) n(SMl) TJ(SMA') ,

Deixar denota as estimativas das energias de som direto e difuso para N microfones espaciais calculadas pela unidade de análise de energia 810. Se Pi for o sinal de pressão complexa e ψi for a difusão para o microfone espacial i-th, então as energias podem, por exemplo, ser calculadas de acordo com as fórmulas: To leave denotes the estimates of the direct and diffuse sound energies for N spatial microphones calculated by the energy analysis unit 810. If Pi is the complex pressure signal and ψi is the diffusion for the i-th spatial microphone, then the energies can e.g. example, be calculated according to the formulas:

A energia de som difuso deve ser igual em todas as posições, portanto, uma estimativa da energia de som difusa no microfone virtual pode ser calculada simplesmente pela média de , por exemplo, em uma unidade de combinação da difusão 820, por exemplo, de acordo com a fórmula: The diffuse sound energy must be equal at all positions, so an estimate of the diffuse sound energy in the virtual microphone can be calculated simply by averaging , for example, in a diffusion combination unit 820, for example, according to the formula:

Uma combinação mais efetiva das estimativas poderia ser realizada considerando a variância dos estimadores, por exemplo, considerando a SNR.A more effective combination of estimates could be carried out considering the variance of the estimators, for example, considering the SNR.

A energia do som direto depende da distância à fonte devido a propagaçao. Desta forma pode ser modificado para considerar isso. Isso pode ser realizado, por exemplo, por uma unidade de ajuste de propagação de som direto 830. Por exemplo, se for assumido que a energia dos declínios de campo do som direto com 1 sobre a distância ao quadrado, então a estimativa para o som direto no microfone virtual para o microfone espacial i-th pode ser calculada de acordo com a fórmula: The energy of direct sound depends on the distance to the source due to propagation. This way can be modified to account for this. This can be accomplished, for example, by a direct sound propagation adjustment unit 830. For example, if it is assumed that the energy of the direct sound field declines with 1 over distance squared, then the estimate for the sound directly into the virtual microphone for the i-th spatial microphone can be calculated according to the formula:

Semelhantemente à unidade de combinação da difusão 820, as estimativas da energia de som direta obtidas em diferentes microfones espaciais podem ser combinadas, por exemplo, por uma unidade de combinação de som direto 840. O resultado, por exemplo, a estimativa para a energia de som direta no microfone virtual. A difusão no microfone virtual ψ(VM) pode ser calculada, por exemplo, por um subcalculadora da difusão 850, por exemplo, de acordo com a fórmula: Similarly to the diffusion combining unit 820, direct sound energy estimates obtained from different spatial microphones can be combined, for example, by a direct sound combining unit 840. The result , for example, the estimate for the direct sound energy at the virtual microphone. The diffusion in the virtual microphone ψ(VM) can be calculated, for example, by a diffusion subcalculator 850, for example, according to the formula:

Conforme mencionado acima, em alguns casos, a estimativa de posição dos eventos de som realizada por um estimador de posição de eventos de som falha, por exemplo, no caso de uma estimativa errada quanto à direção de chegada. A Figura 25 ilustra tal cenário. Nestes casos, independente dos parâmetros da difusão estimados no microfone espacial diferente e conforme recebido como entradas 111 a 11N, a difusão para o microfone virtual 103 pode ser definida para 1 (ou seja, completamente difuso), pois nenhuma reprodução espacialmente coerente é possivel.As mentioned above, in some cases, the position estimation of sound events performed by a sound event position estimator fails, for example, in the case of a wrong estimate as to the direction of arrival. Figure 25 illustrates such a scenario. In these cases, regardless of the diffusion parameters estimated at the different spatial microphone and as received as inputs 111 to 11N, the diffusion for the virtual microphone 103 may be set to 1 (i.e., completely diffuse), as no spatially coherent reproduction is possible.

Adicionalmente, a confiabilidade das estimativas de DOA em N microfones espaciais pode ser considerada. Isso é expresso, por exemplo, em termos de variância do estimador de DOA ou SNR. Tal informação pode ser considerada pela subcalculadora da difusão 850, de modo que a difusão VM 103 possa ser artificialmente elevada no caso que as estimativas de DOA são duvidosas. Na realidade, como uma consequência, as estimativas de posição 205 também serão duvidosas.Additionally, the reliability of DOA estimates at N space microphones can be considered. This is expressed, for example, in terms of variance of the DOA or SNR estimator. Such information can be considered by the diffusion subcalculator 850, so that the diffusion VM 103 can be artificially elevated in the case that the DOA estimates are doubtful. In reality, as a consequence, position 205 estimates will also be unreliable.

A Figura 1 ilustra um aparelho 150 para gerar, pelo menos, um sinal de saida de áudio com base em um fluxo de dados de áudio compreendendo dados de áudio referentes a uma ou mais fontes de som de acordo com uma aplicação.Figure 1 illustrates an apparatus 150 for generating at least one audio output signal based on an audio data stream comprising audio data relating to one or more sound sources in accordance with an application.

O aparelho 150 compreende um receptor 160 para receber o fluxo de dados de áudio compreendendo os dados de áudio. Os dados de áudio compreendem um ou mais valores de pressão para cada uma de uma ou mais fontes de som. Além disso, os dados de áudio compreendem um ou mais valores de posição indicando uma posição de uma das fontes de som para cada uma das fontes de som.The apparatus 150 comprises a receiver 160 for receiving the audio data stream comprising the audio data. The audio data comprises one or more pressure values for each of one or more sound sources. Furthermore, the audio data comprises one or more position values indicating a position of one of the sound sources for each of the sound sources.

Além disso, o aparelho compreende um módulo de sintese 170 para gerar pelo menos um sinal de saída de áudio com base pelo menos em um de um ou mais valores de pressão dos dados de áudio do fluxo de dados de áudio e com base pelo menos em um de um ou mais valores de posição dos dados de áudio do fluxo de dados de áudio. Os dados de áudio são definidos para uma posição de tempo/frequência de uma pluralidade de posições de tempo/frequência. Para cada uma das fontes de som, pelo menos um valor de pressão é compreendido nos dados de áudio, em que pelo menos um valor de pressão pode ser um valor de pressão referente a uma onda de som emitida, por exemplo, originando da fonte de som. O valor de pressão pode ser um valor de um sinal de áudio, por exemplo, um valor de pressão de um sinal de saída de áudio gerado por um aparelho para gerar um sinal de saída de áudio de um microfone virtual, em que o microfone virtual é colocado na posição da fonte de som.Further, the apparatus comprises a synthesis module 170 for generating at least one audio output signal based on at least one of one or more pressure values of the audio data of the audio data stream and based on at least one of one of one or more audio data position values of the audio data stream. The audio data is defined for a time/frequency position of a plurality of time/frequency positions. For each of the sound sources, at least one pressure value is comprised in the audio data, wherein the at least one pressure value may be a pressure value relating to an emitted sound wave, e.g., originating from the sound source. sound. The pressure value may be a value of an audio signal, for example, a pressure value of an audio output signal generated by an apparatus for generating an audio output signal from a virtual microphone, wherein the virtual microphone is placed at the position of the sound source.

Assim, a Figura 1 ilustra um aparelho 150 que pode ser empregado para receber ou processar o fluxo de dados de áudio mencionado acima, ou seja, o aparelho 150 pode ser empregado em um lado do receptor/síntese. O fluxo de dados de áudio compreende dados de áudio que compreende um ou mais valores de pressão e um ou mais valores de posição para cada uma de uma pluralidade de fontes de som, ou seja, cada um dos valores de pressão e dos valores de posição refere-se a uma fonte de som particular de uma ou mais fontes de som da cena de áudio gravada. Isto significa que os valores de posição indicam as posições das fontes de som ao invés dos microfones de gravação. Com relação ao valor de pressão isto significa que o fluxo de dados de áudio compreende um ou mais valores de pressão para cada uma das fontes de som, ou seja, os valores de pressão indicam um sinal de áudio que é relacionado a uma fonte de som ao invés de uma gravação de um microfone espacial real.Thus, Figure 1 illustrates an apparatus 150 that can be employed to receive or process the audio data stream mentioned above, that is, the apparatus 150 can be employed on one side of the receiver/synthesis. The audio data stream comprises audio data comprising one or more pressure values and one or more position values for each of a plurality of sound sources, i.e., each of the pressure values and the position values refers to a particular sound source of one or more sound sources in the recorded audio scene. This means that the position values indicate the positions of the sound sources rather than the recording microphones. Regarding the pressure value, this means that the audio data stream comprises one or more pressure values for each of the sound sources, i.e., the pressure values indicate an audio signal that is related to a sound source. rather than a recording from an actual space microphone.

De acordo com uma aplicação, o receptor 160 pode ser adaptado para receber o fluxo de dados de áudio compreendendo os dados de áudio, em que os dados de áudio ainda compreendem um ou mais valores de difusão para cada uma das fontes de som. O módulo de sintese 170 pode ser adaptado para gerar pelo menos um sinal de saida de áudio com base pelo menos em um de um ou mais valores de difusão.According to one application, the receiver 160 may be adapted to receive the audio data stream comprising the audio data, wherein the audio data further comprises one or more diffusion values for each of the sound sources. The synthesis module 170 may be adapted to generate at least one audio output signal based on at least one of one or more broadcast values.

A Figura 2 ilustra um aparelho 200 para gerar um fluxo de dados de áudio compreendendo dados da fonte de som referentes a uma ou mais fontes de som de acordo com uma aplicação. O aparelho 200 para gerar um fluxo de dados de áudio compreende um determinador 210 para determinar os dados da fonte de som com base, pelo menos, em um sinal de entrada de áudio gravado pelo menos por um microfone espacial e com base nas informações laterais de áudio fornecidas, pelo menos, por dois microfones espaciais. Além disso, o aparelho 200 compreende um gerador de fluxo de dados 220 para gerar o fluxo de dados de áudio de modo que o fluxo de dados de áudio compreenda os dados da fonte de som. Os dados da fonte de som compreendem um ou mais valores de pressão para cada uma das fontes de som. Além disso, os dados da fonte de som ainda compreendem um ou mais valores de posição indicando uma posição da fonte de som para cada uma das fontes de som. Além disso, os dados da fonte de som é definido para uma posição de tempo/frequência de uma pluralidade de posições de tempo/frequência. O fluxo de dados de áudio gerado pelo aparelho 200 pode, então, ser transmitido. Assim, o aparelho 200 pode ser empregado em um lado do transmissor/análise. O fluxo de dados de áudio compreende dados de áudio que compreendem um ou mais valores de pressão e um ou mais valores de posição para cada uma de uma pluralidade de fontes de som, ou seja, cada um dos valores de pressão e dos valores de posição refere-se a uma fonte de som particular de uma ou mais fontes de som da cena de áudio gravada. Isto significa que com relação aos valores de posição, os valores de posição indicam as posições das fontes de som ao invés dos microfones de gravação.Figure 2 illustrates an apparatus 200 for generating an audio data stream comprising sound source data relating to one or more sound sources in accordance with an application. Apparatus 200 for generating an audio data stream comprises a determiner 210 for determining sound source data based on at least one audio input signal recorded by at least one spatial microphone and based on side information from audio provided by at least two space microphones. Furthermore, the apparatus 200 comprises a data stream generator 220 for generating the audio data stream such that the audio data stream comprises the sound source data. The sound source data comprises one or more pressure values for each of the sound sources. Furthermore, the sound source data further comprises one or more position values indicating a sound source position for each of the sound sources. Furthermore, the sound source data is defined for a time/frequency position of a plurality of time/frequency positions. The audio data stream generated by apparatus 200 may then be transmitted. Thus, the device 200 can be used on one side of the transmitter/analysis. The audio data stream comprises audio data comprising one or more pressure values and one or more position values for each of a plurality of sound sources, i.e., each of the pressure values and the position values refers to a particular sound source of one or more sound sources in the recorded audio scene. This means that with regard to position values, position values indicate the positions of sound sources rather than recording microphones.

Em outra aplicação, o determinador 210 pode ser adaptado para determinar os dados da fonte de som com base nas informações de difusão pelo menos por um microfone espacial. O gerador de fluxo de dados 220 pode ser adaptado para gerar o fluxo de dados de áudio de modo que o fluxo de dados de áudio compreende os dados da fonte de som. Os dados da fonte de som ainda compreendem um ou mais valores de difusão para cada uma das fontes de som.In another application, the determiner 210 may be adapted to determine sound source data based on diffusion information by at least one spatial microphone. The data stream generator 220 may be adapted to generate the audio data stream such that the audio data stream comprises the sound source data. The sound source data further comprises one or more diffusion values for each of the sound sources.

A Figura 3a ilustra um fluxo de dados de áudio de acordo com uma aplicação. O fluxo de dados de áudio compreende dados de áudio referentes a duas fontes de som sendo ativas em uma posição de tempo/frequência. Em particular, a Figura 3a ilustra os dados de áudio que são transmitidos para uma posição de tempo/frequência (k, n) , em que k denota o indice de frequência e n denota o indice de tempo. Os dados de áudio compreendem um valor de pressão Pl, um valor da posição Q1 e um valor da difusão ilil de uma primeira fonte de som. O valor da posição Q1 compreende três valores de coordenada XI, Y1 e Z1 indicando a posição da primeira fonte de som. Além disso, os dados de áudio compreendem um valor de pressão P2, um valor da posição Q2 e um valor da difusão Φ 2 de uma segunda fonte de som. O valor da posição Q2 compreende três valores de coordenada X2, Y2 e Z2 indicando a posição da segunda fonte de som.Figure 3a illustrates an audio data stream according to an application. The audio data stream comprises audio data relating to two sound sources being active at a time/frequency position. In particular, Figure 3a illustrates audio data that is transmitted to a time/frequency position (k, n), where k denotes the frequency index and n denotes the time index. The audio data comprises a pressure value Pl, a position value Q1 and an IL diffusion value of a first sound source. The position value Q1 comprises three coordinate values XI, Y1 and Z1 indicating the position of the first sound source. Furthermore, the audio data comprises a pressure value P2, a position value Q2 and a diffusion value Φ2 of a second sound source. The position value Q2 comprises three coordinate values X2, Y2 and Z2 indicating the position of the second sound source.

A Figura 3b ilustra um fluxo de áudio de acordo com outra aplicação. Novamente, os dados de áudio compreendem um valor de pressão Pl, um valor da posição Q1 e um valor da difusão i|r 1 de uma primeira fonte de som. O valor da posição Q1 compreende três valores de coordenada XI, Yl e Z1 indicando a posição da primeira fonte de som. Além disso, os dados de áudio compreendem um valor de pressão P2, um valor da posição Q2 e um valor da difusão Φ 2 de uma segunda fonte de som. O valor da posição Q2 compreende três valores de coordenada X2, Y2 e Z2 indicando a posição da segunda fonte de som.Figure 3b illustrates an audio stream according to another application. Again, the audio data comprises a pressure value Pl, a position value Q1 and a diffusion value i|r 1 of a first sound source. The position value Q1 comprises three coordinate values XI, Yl and Z1 indicating the position of the first sound source. Furthermore, the audio data comprises a pressure value P2, a position value Q2 and a diffusion value Φ2 of a second sound source. The position value Q2 comprises three coordinate values X2, Y2 and Z2 indicating the position of the second sound source.

A Figura 3c fornece outra ilustração do fluxo de dados de áudio. Conforme o fluxo de dados de áudio fornece informações de codificação de áudio espacial com base em geometria (GAC I geometry-based spatial audio coding), ele também é referido como "fluxo de codificação de áudio espacial com base em geometria" ou "fluxo GAC". O fluxo de dados de áudio compreende informações que se referem a uma ou mais fontes de som, por exemplo, uma ou mais fonte isotrópica do tipo ponto (IPLS). Conforme já explicado acima, o fluxo GAC pode compreender os seguintes sinais, em que k e n denotam o indice de frequência e o indice de tempo da posição de tempo/frequência considerado: P(k, n) : Pressão complexa na fonte de som, por exemplo, nas IPLS. Este sinal possivelmente compreende som direto (o som originado da própria IPLS) e som difuso. Q(k,n): Posição (por exemplo, coordenadas cartesianas em 3D) da fonte de som, por exemplo, da IPLS: A posição pode, por exemplo, compreender as coordenadas cartesianas X(k,n) , Y(k,n) , Z (k,n) .Figure 3c provides another illustration of the audio data flow. As the audio data stream provides geometry-based spatial audio coding (GAC) information, it is also referred to as a "geometry-based spatial audio coding stream" or "GAC stream ". The audio data stream comprises information that refers to one or more sound sources, for example, one or more isotropic point-type sources (IPLS). As already explained above, the GAC flow can comprise the following signals, where k and n denote the frequency index and the time index of the considered time/frequency position: P(k, n) : Complex pressure at the sound source, e.g. example, in IPLS. This signal possibly comprises direct sound (the sound originating from the IPLS itself) and diffuse sound. Q(k,n): Position (e.g. 3D Cartesian coordinates) of the sound source, e.g. of the IPLS: The position may, for example, comprise the Cartesian coordinates X(k,n) , Y(k, n) , Z (k,n) .

Difusão na IPLS: i|r(k,n). Este parâmetro é relacionado à razão de potência do som direto ao som difuso compreendido em P(k,n). Se P(k,n) = Pdir(k,n) + Pdiff(k,n), então uma possibilidade de expressar a difusão é ψ(k,n) = |Pdiff(k,n) |2 / |P(k,n)I2. Se |P(k,n)l; for conhecido, outras representações equivalentes são concebíveis, por exemplo, a Razão Direto para Difuso (DDR I Direct to Diffuse Ratio) r=|Pdir(k,n)|2/|Pdiff(k,n)|2. Conforme já estabelecido, k e n denotam os índices de frequência e tempo, respectivamente. Se desejado e se a análise permitir, mais do que uma IPLS pode ser representada em um dado intervalo de tempo/frequência. Isto é descrito na Figura 3c como várias camadas M, de modo que o sinal de pressão para a camada i-th (ou seja, para a IPLS i-th) seja denotada com Pi(k, n).Para conveniência, a posição da IPLS pode ser expressa como o vetor Qi(k, n) = [Xd(k, n), Y±(k, n) , Zd(k, n)]T. Diferentemente do que o estado da técnica, todos os parâmetros no fluxo GAC são expressos com relação a uma ou mais fonte de som, por exemplo, com relação à IPLS, assim obtendo independência da posição de gravação. Na Figura 3c, bem como na Figura 3a e 3b, todas as quantidades na figura são consideradas no domínio de tempo/frequência; a (k,n) notação foi negligenciada por razões de simplicidade, por exemplo, Pi significa Pi(k,n), por exemplo Pi — Pi (k,n) .Diffusion in IPLS: i|r(k,n). This parameter is related to the power ratio of the direct sound to the diffuse sound included in P(k,n). If P(k,n) = Pdir(k,n) + Pdiff(k,n), then one possibility to express diffusion is ψ(k,n) = |Pdiff(k,n) |2 / |P( k,n)I2. If |P(k,n)l; is known, other equivalent representations are conceivable, for example, the Direct to Diffuse Ratio (DDR I Direct to Diffuse Ratio) r=|Pdir(k,n)|2/|Pdiff(k,n)|2. As already established, k and n denote the frequency and time indices, respectively. If desired and if the analysis allows, more than one IPLS can be represented in a given time/frequency interval. This is described in Figure 3c as multiple M layers, so that the pressure signal for the i-th layer (i.e., for the i-th IPLS) is denoted with Pi(k, n). For convenience, the position of IPLS can be expressed as the vector Qi(k, n) = [Xd(k, n), Y±(k, n) , Zd(k, n)]T. Unlike the prior art, all parameters in the GAC stream are expressed with respect to one or more sound sources, for example, with respect to IPLS, thus achieving independence from the recording position. In Figure 3c, as well as Figure 3a and 3b, all quantities in the figure are considered in the time/frequency domain; the (k,n) notation has been neglected for reasons of simplicity, e.g. Pi means Pi(k,n), e.g. Pi — Pi (k,n) .

A seguir, um aparelho para gerar um fluxo de dados de áudio de acordo com uma aplicação é explicado em mais detalhes. Como o aparelho da Figura 2, o aparelho da Figura 4 compreende um determinador 210 e um gerador de fluxo de dados 220 que pode ser semelhante ao determinador 210. Como o determinador analisa os dados de entrada de áudio para determinar os dados da fonte de som com base no gerador de fluxo de dados gera o fluxo de dados de áudio, o determinador e o gerador de fluxo de dados podem juntos ser referidos como um "módulo de análise", (veja módulo de análise 410 na Figura 4). O módulo de análise 410 calcula o fluxo GAC a partir das gravações de N microfones espaciais. Dependendo do número M de camadas desejado (por exemplo, o número de fontes de som no qual as informações devem ser compreendidas no fluxo de dados de áudio para uma posição de tempo/frequência particular), o tipo e número de N microfones espaciais, diferentes métodos para a análise são concebíveis. Alguns exemplos são dados a seguir.In the following, an apparatus for generating an audio data stream according to an application is explained in more detail. Like the apparatus of Figure 2, the apparatus of Figure 4 comprises a determiner 210 and a data stream generator 220 that may be similar to the determiner 210. How the determiner analyzes input audio data to determine sound source data Based on the data stream generator generating the audio data stream, the determiner and the data stream generator can together be referred to as an "analysis module", (see analysis module 410 in Figure 4). Analysis module 410 calculates GAC flow from recordings from N spatial microphones. Depending on the desired number M of layers (e.g., the number of sound sources in which information is to be comprised in the audio data stream for a particular time/frequency position), the type and number of N spatial microphones, different methods for analysis are conceivable. Some examples are given below.

Como um primeiro exemplo, a estimativa do parâmetro para uma fonte de som, por exemplo, uma IPLS, por intervalo de tempo/frequência é considerada. No caso de M = 1, o fluxo GAC pode ser prontamente obtido com os conceitos explicados acima para o aparelho para gerar um sinal de saída de áudio de um microfone virtual, em que um microfone espacial virtual pode ser colocado na posição da fonte de som, por exemplo, na posição da IPLS. Isso permite que os sinais de pressão sejam calculados na posição da IPLS, junto com as estimativas de posição correspondentes, e possivelmente a difusão. Estes três parâmetros sâo agrupados juntos em um fluxo GAC e também podem ser manipulados pelo módulo 102 na Figura 8 antes de ser transmitidos ou armazenados. Por exemplo, o determinador pode determinar a posição de uma fonte de som empregando os conceitos propostos para a estimativa da posição de eventos sonoros do aparelho para gerar um sinal de saida de áudio de um microfone virtual.As a first example, parameter estimation for a sound source, for example an IPLS, by time/frequency interval is considered. In the case of M = 1, the GAC stream can be readily obtained with the concepts explained above for apparatus for generating an audio output signal from a virtual microphone, wherein a virtual spatial microphone can be placed at the position of the sound source , for example, in the IPLS position. This allows pressure signals to be calculated at the IPLS position, along with corresponding position estimates, and possibly diffusion. These three parameters are grouped together in a GAC stream and can also be manipulated by module 102 in Figure 8 before being transmitted or stored. For example, the determiner may determine the position of a sound source by employing the concepts proposed for estimating the position of sound events from the apparatus to generate an audio output signal from a virtual microphone.

Além disso, o determinador pode compreender um aparelho para gerar um sinal de saída de áudio e pode utilizar a posição da fonte de som determinada como a posição do microfone virtual para calcular os valores de pressão (por exemplo, os valores do sinal de saida de áudio a ser gerados) e a difusão na posição da fonte de som.Furthermore, the determiner may comprise an apparatus for generating an audio output signal and may use the determined sound source position as the position of the virtual microphone to calculate pressure values (e.g., audio output signal values). audio to be generated) and diffusion at the position of the sound source.

Em particular, o determinador 210, por exemplo, na Figura 4, é configurado para determinar os sinais de pressão, as estimativas de posição correspondentes, e a difusão correspondente, enquanto o gerador de fluxo de dados 220 é configurado para gerar o fluxo de dados de áudio com base nos sinais de pressão calculados, estimativas de posição e difusão.In particular, the determiner 210, for example in Figure 4, is configured to determine the pressure signals, the corresponding position estimates, and the corresponding diffusion, while the data stream generator 220 is configured to generate the data stream audio based on calculated pressure signals, position and diffusion estimates.

Conforme outro exemplo, a estimativa do parâmetro para 2 fontes de som, por exemplo, 2 IPLS, por intervalo de tempo/frequência é considerada. Se o módulo de análise 410 estimar duas fontes de som por posição de tempo/frequência, então o seguinte conceito com base nos avaliadores do estado da técnica pode ser utilizado.As per another example, parameter estimation for 2 sound sources, for example, 2 IPLS, per time/frequency interval is considered. If the analysis module 410 estimates two sound sources by time/frequency position, then the following concept based on prior art evaluators can be used.

A Figura 5 ilustra uma cena sonora composta por duas fontes de som e dois conjuntos uniformes de microfone linear.Figure 5 illustrates a sound scene composed of two sound sources and two uniform linear microphone arrays.

A referência é feita a ESPRIT, vide [26] R. Roy and T. Kailath. ESPRIT-estimation of signal parameters via rotational invariance techniques. Acoustics, Speech and Signal Processing, IEEE Transactions on, 37 (7) :984-995, July 1989. ESPRIT ( [26]) pode ser empregado separadamente em cada conjunto para obter duas estimativas de DOA para cada posição de tempo/frequência em cada conjunto. Devido à ambiguidade de pareamento, isso leva a duas possíveis soluções para as posições da fonte. Como pode ser visto da Figura 5, as duas possíveis soluções são dadas por (1, 2) e (1', 2') . Para solucionar esta ambiguidade, a solução seguinte pode ser aplicada. O sinal emitido em cada fonte é estimado utilizando um gerador de feixe orientado na direção das posições estimadas da fonte e aplicando o fator correto para compensar a propagação (por exemplo, multiplicação pelo inverso da atenuação apresentada pela onda) . Isso pode ser realizado para cada fonte em cada conjunto para cada uma das possíveis soluções. Nós podemos então definir um erro de estimativa para cada par de fontes (i, j) como: Eirj = IPi.i - Pi,2l + |Pj;i - Pj/2I , d) onde (i, j) £ {(1, 2), (1', 2')} (vide Figura 5) e Pj.,1 é responsável pela potência do sinal compensado vista pelo conjunto r da fonte de som i. 0 erro é mínimo para o par de fontes de som verdadeiro. Visto que a questão de pareamento está solucionada e as estimativas da DOA corretas são calculadas, estes são agrupadas, juntas com os sinais de pressão correspondentes e estimativas de difusão em um fluxo GAC. Os sinais de pressão e estimativas de difusão podem ser obtidos usando o mesmo método já descrito para a estimativa do parâmetro para uma fonte de som.Reference is made to ESPRIT, see [26] R. Roy and T. Kailath. ESPRIT-estimation of signal parameters via rotational invariance techniques. Acoustics, Speech and Signal Processing, IEEE Transactions on, 37 (7):984-995, July 1989. ESPRIT ([26]) can be employed separately on each set to obtain two DOA estimates for each time/frequency position in each set. Due to the pairing ambiguity, this leads to two possible solutions for the source positions. As can be seen from Figure 5, the two possible solutions are given by (1, 2) and (1', 2') . To resolve this ambiguity, the following solution can be applied. The signal emitted at each source is estimated using a beam generator oriented in the direction of the estimated source positions and applying the correct factor to compensate for propagation (for example, multiplying by the inverse of the attenuation presented by the wave). This can be performed for each source in each set for each of the possible solutions. We can then define an estimation error for each pair of sources (i, j) as: Eirj = IPi.i - Pi,2l + |Pj;i - Pj/2I , d) where (i, j) £ {( 1, 2), (1', 2')} (see Figure 5) and Pj.,1 is responsible for the compensated signal power seen by set r of sound source i. The error is minimal for the true sound source pair. Once the matching issue is resolved and the correct DOA estimates are calculated, these are grouped, together with the corresponding pressure signals and diffusion estimates in a GAC flow. Pressure signals and diffusion estimates can be obtained using the same method already described for parameter estimation for a sound source.

A Figura 6a ilustra um aparelho 600 para gerar, pelo menos, um sinal de saída de áudio com base em um fluxo de dados de áudio de acordo com uma aplicação. O aparelho 600 compreende um receptor 610 e um módulo de síntese 620. O receptor 610 compreende um módulo de modificação 630 para modificar os dados de áudio do fluxo de dados de áudio recebido pela modificação de pelo menos um dos valores de pressão dos dados de áudio, pelo menos um dos valores de posição dos dados de áudio ou pelo menos um dos valores de difusão dos dados de áudio referentes a pelo menos uma das fontes de som.Figure 6a illustrates an apparatus 600 for generating at least one audio output signal based on an audio data stream in accordance with an application. Apparatus 600 comprises a receiver 610 and a synthesis module 620. The receiver 610 comprises a modification module 630 for modifying the audio data of the received audio data stream by modifying at least one of the pressure values of the audio data. , at least one of the position values of the audio data or at least one of the spread values of the audio data relating to at least one of the sound sources.

A Figura 6b ilustra um aparelho 660 para gerar um fluxo de dados de áudio compreendendo dados da fonte de som referentes a uma ou mais fontes de som de acordo com uma aplicação. O aparelho para gerar um fluxo de dados de áudio compreende um determinador 670, um gerador de fluxo de dados 680 e ainda um módulo de modificação 690 para modificar o fluxo de dados de áudio gerado pelo gerador de fluxo de dados modificando pelo menos um dos valores de pressão dos dados de áudio, pelo menos um dos valores de posição dos dados de áudio ou pelo menos um dos valores de difusão dos dados de áudio referentes pelo menos a uma das fontes de som.Figure 6b illustrates an apparatus 660 for generating an audio data stream comprising sound source data relating to one or more sound sources in accordance with an application. The apparatus for generating an audio data stream comprises a determiner 670, a data stream generator 680, and further a modifying module 690 for modifying the audio data stream generated by the data stream generator by modifying at least one of the values of pressure of the audio data, at least one of the position values of the audio data or at least one of the diffusion values of the audio data relating to at least one of the sound sources.

Enquanto o módulo de modificação 610 da Figura 6a é empregado em um lado do receptor/síntese, o módulo de modificação 660 da Figura 6b é empregado em um lado do transmissor/análise.While the modification module 610 of Figure 6a is employed on a receiver/synthesis side, the modification module 660 of Figure 6b is employed on a transmitter/analysis side.

As modificações do fluxo de dados de áudio conduzidas pelos módulos de modificação 610, 660 também podem ser consideradas como modificações da cena sonora. Assim, os módulos de modificação 610, 660 também podem ser referidos como módulos de manipulação da cena sonora.Modifications of the audio data stream conducted by modification modules 610, 660 can also be considered as modifications of the sound scene. Thus, modification modules 610, 660 can also be referred to as sound scene manipulation modules.

A representação do campo sonoro fornecida pelo fluxo GAC permite diferentes tipos de modificações do fluxo de dados de áudio, ou seja, como uma consequência, manipulações da cena sonora. Alguns exemplos neste contexto são: 1. Expandir seções arbitrárias de espaço/volumes na cena sonora (por exemplo, expansão de uma fonte de som do tipo ponto para torná-la mais ampla à escuta); 2. Transformar uma seção selecionada de espaço/volume em qualquer outra seção arbitrária de espaço/volume na cena sonora (o espaço/volume transformado poderia, por exemplo, conter uma fonte que é necessária ser movido a uma nova localização); 3. Filtrar com base na posição, onde as regiões selecionadas da cena sonora são melhoradas ou parcialmente/completamente suprimidas.The representation of the sound field provided by the GAC stream allows different types of modifications of the audio data stream, that is, as a consequence, manipulations of the sound scene. Some examples in this context are: 1. Expanding arbitrary sections of space/volumes in the sound scene (for example, expanding a point-type sound source to make it wider for listening); 2. Transform a selected section of space/volume into any other arbitrary section of space/volume in the sound scene (the transformed space/volume could, for example, contain a source that is required to be moved to a new location); 3. Filter based on position, where selected regions of the sound scene are enhanced or partially/completely suppressed.

A seguir uma camada de um fluxo de dados de áudio, por exemplo, um fluxo GAC, é assumida para compreender todos os dados de áudio de uma das fontes de som com relação a uma posição de tempo/frequência particular. A Figura 7 descreve um módulo de modificação de acordo com uma aplicação. A unidade de modificação da Figura 7 compreende um demultiplexador 401, um processador de manipulação 420 e um multiplexador 405. O demultiplexador 401 é configurado para separar as diferentes camadas do fluxo GAC da camada M e formar os fluxos GAC de camada única M. Além disso, o processador de manipulação 420 compreende unidades 402, 403 e 404, que são aplicadas em cada um dos fluxos GAC separadamente. Além disso, o multiplexador 405 é configurado para formar o fluxo GAC da camada M resultante dos fluxos GAC de camada única manipulados.Next, a layer of an audio data stream, for example, a GAC stream, is assumed to comprise all audio data from one of the sound sources with respect to a particular time/frequency position. Figure 7 describes a modification module according to an application. The modification unit of Figure 7 comprises a demultiplexer 401, a handling processor 420, and a multiplexer 405. The demultiplexer 401 is configured to separate the different layers of the GAC stream from the M layer and form the M single-layer GAC streams. , the handling processor 420 comprises units 402, 403 and 404, which are applied to each of the GAC streams separately. Furthermore, the multiplexer 405 is configured to form the M-layer GAC stream resulting from the manipulated single-layer GAC streams.

Com base nos dados de posição do fluxo GAC e no conhecimento sobre a posição das fontes reais (por exemplo, transmissores), a energia pode ser associada com uma determinada fonte real para cada posição de tempo/frequência. Os valores de pressão P são, então, ponderados corretamente para modificar o ruído da respectiva fonte real (por exemplo, transmissor). Requer informações a priori ou uma estimativa da localização das fontes de som reais (por exemplo, transmissores).Based on GAC flow position data and knowledge about the position of real sources (e.g. transmitters), energy can be associated with a given real source for each time/frequency position. The pressure values P are then weighted correctly to modify the noise of the respective real source (e.g. transmitter). It requires a priori information or an estimate of the location of actual sound sources (e.g., transmitters).

Em algumas aplicações, se o conhecimento sobre a posição das fontes reais estiver disponível, então, com base nos dados da posição do fluxo GAC, a energia pode ser associada com uma determinada fonte real para cada posição de tempo/frequência.In some applications, if knowledge about the position of the real sources is available, then, based on the GAC flow position data, the energy can be associated with a given real source for each time/frequency position.

A manipulação do fluxo de dados de áudio, por exemplo, o fluxo GAC, pode ocorrer no módulo de modificação 630 do aparelho 600 para gerar, pelo menos, um sinal de saída de áudio da Figura 6a, ou seja, em um lado do receptor/síntese e/ou no módulo de modificação 690 do aparelho 660 para gerar um fluxo de dados de áudio da Figura 6b, ou seja, em um lado do transmissor/análise. Por exemplo, o fluxo de dados de áudio, ou seja, o fluxo GAC, pode ser modificado antes da transmissão, ou antes da síntese após a transmissão.Manipulation of the audio data stream, e.g., the GAC stream, may occur in the modification module 630 of the apparatus 600 to generate at least one audio output signal of Figure 6a, i.e., on one side of the receiver. /synthesis and/or in the modification module 690 of the apparatus 660 to generate an audio data stream of Figure 6b, i.e., on one side of the transmitter/analysis. For example, the audio data stream, that is, the GAC stream, can be modified before transmission, or before synthesis after transmission.

Diferente do módulo de modificação 630 da Figura 6a no lado do receptor/síntese, o módulo de modificação 690 da Figura 6b no lado do transmissor/análise pode explorar as informações adicionais das entradas 111 a 11N (os sinais gravados) e 121 a 12N (posição e orientação relativa dos microfones espaciais) , pois estas informações estão disponíveis no lado do transmissor. Utilizar estas informações, uma unidade de modificação de acordo com uma aplicação alternativa pode ser observada, que é descrita na Figura 8.Different from the modification module 630 of Figure 6a on the receiver/synthesis side, the modification module 690 of Figure 6b on the transmitter/analysis side can exploit additional information from inputs 111 to 11N (the recorded signals) and 121 to 12N ( relative position and orientation of spatial microphones) as this information is available on the transmitter side. Using this information, a modification unit according to an alternative application can be observed, which is described in Figure 8.

A Figura 9 descreve uma aplicação ilustrando uma visão geral esquemática de um sistema, caracterizado por um fluxo GAC ser gerado em um lado do transmissor/análise, onde, opcionalmente, o fluxo GAC pode ser modificado por um módulo de modificação 102 em um lado do transmissor/análise, onde o fluxo GAC pode, opcionalmente, ser modificado em um lado do receptor/sintese pelo módulo de modificação 103 e em que o fluxo GAC é utilizado para gerar uma pluralidade de sinais de áudio de saida 191 ... 19L. No lado do transmissor/análise, a representação do campo sonoro (por exemplo, o fluxo GAC) é calculada na unidade 101 das entradas 111 a 11N, ou seja, os sinais gravados com N > 2 microfones espaciais, e das entradas 121 a 12N, ou seja, posição e orientação relativa dos microfones espaciais.Figure 9 depicts an application illustrating a schematic overview of a system, characterized in that a GAC stream is generated on one side of the transmitter/analysis, where, optionally, the GAC stream can be modified by a modification module 102 on one side of the transmitter/analysis, wherein the GAC stream may optionally be modified on one side of the receiver/synthesis by the modification module 103 and wherein the GAC stream is used to generate a plurality of output audio signals 191...19L. On the transmitter/analysis side, the sound field representation (e.g. GAC flow) is calculated in unit 101 from inputs 111 to 11N, i.e., signals recorded with N > 2 spatial microphones, and from inputs 121 to 12N , i.e., position and relative orientation of spatial microphones.

A saida da unidade 101 é a representação do campo sonoro previamente mencionada, que a seguir é denotada como fluxo de Codificação de Áudio espacial com base em Geometria (GAC). Semelhantemente à proposta em Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA 'll), Edinburgh, United Kingdom, May 2011. e conforme descrito para o aparelho para gerar um sinal de saida de áudio de um microfone virtual em uma posição virtual configurável, uma cena sonora complexa é modelada por meios de fontes de som, por exemplo, fontes de som isotrópicas do tipo ponto (IPLS), que são ativas nas aberturas específicas em uma representação de tempo/frequência, como a fornecida pela Transformada de Fourier de Curta Duração (STFT). O fluxo GAC pode ser ainda processado no módulo de modificação opcional 102, que também pode ser referido como uma unidade de manipulação. O módulo de modificação 102 permite uma variedade de aplicações. O fluxo GAC então pode ser transmitido ou armazenado. A natureza paramétrica do fluxo GAC é altamente eficiente. No lado do receptor/síntese, um ou mais módulos de modificação opcionais (unidades de manipulação) 103 podem ser empregados. O fluxo GAC resultante entra na unidade da sintese 104 o que gera os sinais do alto-falante. Dada a independência da representação da gravação, o usuário final no lado da reprodução pode potencialmente manipular a cena sonora e decidir a posição de escuta e orientação dentro da cena sonora livremente.The output of unit 101 is the previously mentioned sound field representation, which is hereinafter denoted as the Geometry-based Spatial Audio Coding (GAC) stream. Similarly to the proposal in Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA 'll), Edinburgh, United Kingdom, May 2011. and as described for apparatus for generating an audio output signal from a virtual microphone at a configurable virtual position , a complex sound scene is modeled by means of sound sources, for example, isotropic point-type sound sources (IPLS), which are active at specific openings in a time/frequency representation, such as that provided by the Fourier Transform of Short Term (STFT). The GAC stream may be further processed in the optional modification module 102, which may also be referred to as a handling unit. Modification module 102 allows for a variety of applications. The GAC stream can then be transmitted or stored. The parametric nature of the GAC flow is highly efficient. On the receptor/synthesis side, one or more optional modification modules (handling units) 103 may be employed. The resulting GAC stream enters the synthesis unit 104 which generates the speaker signals. Given the independence of the recording representation, the end user on the playback side can potentially manipulate the sound scene and decide the listening position and orientation within the sound scene freely.

A modificação/manipulação do fluxo de dados de áudio, por exemplo, o fluxo GAC, pode ocorrer nos módulos de modificação 102 e/ou 103 na Figura 9, pela modificação do fluxo GAC corretamente mesmo antes da transmissão no módulo 102 ou após a transmissão antes da síntese 103. Diferente no módulo de modificação 103 no lado do receptor/sintese, o módulo de modificação 102 no lado do transmissor/análise pode explorar as informações adicionais das entradas 111 a 11N (os dados de áudio fornecidos pelos microfones espaciais) e 121 a 12N (posição e orientação relativas dos microfones espaciais), pois estas informações estão disponíveis no lado do transmissor. A Figura 8 ilustra uma aplicação alternativa de um módulo de modificação que emprega estas informações.Modification/manipulation of the audio data stream, e.g., the GAC stream, can occur in the modification modules 102 and/or 103 in Figure 9, by modifying the GAC stream correctly even before transmission in module 102 or after transmission. before synthesis 103. Unlike the modification module 103 on the receiver/synthesis side, the modification module 102 on the transmitter/analysis side can exploit the additional information from inputs 111 to 11N (the audio data provided by the spatial microphones) and 121 to 12N (relative position and orientation of space microphones), as this information is available on the transmitter side. Figure 8 illustrates an alternative application of a modification module that employs this information.

Exemplos de diferentes conceitos para a manipulação do fluxo GAC são descritos a seguir com referência à Figura 7 e à Figura 8. Unidades com sinais de referência iguais têm função igual. 1. Expansão de volumeExamples of different concepts for manipulating GAC flow are described below with reference to Figure 7 and Figure 8. Units with equal reference signals have equal function. 1. Volume expansion

Assume-se que uma determinada energia na cena está localizada dentro do volume V. O volume V pode indicar uma área predefinida de um ambiente. © denota o conjunto de posições de tempo/frequência (k, n) no qual as fontes de som correspondentes, por exemplo, IPLS, estão localizadas dentro do volume V. Se a expansão do volume V em outro volume V' for desejada, isto pode ser obtido adicionando um termo aleatório aos dados de posição no fluxo GAC sempre (k, n) G θ (avaliado nas unidades de decisão 403) e substituindo Q(k, n) = [X(k, n), Y (k, n) ,Z(k, n)]T (a camada do índice é reduzida para simplicidade) de modo que as saídas 431 a 43M das unidades 404 na Figura 7 e 8 se tornem Q(k, n) = [X(k, n) + Φx(k, n) ; Y (k, n) + Φy(k, n) Z (k, n) + Φz (k, n) ]T (2) onde Φx, Φy e Φz são variáveis aleatórias cuja faixa depende da geometria do novo volume V' com relação ao volume original V. Este conceito pode, por exemplo, ser empregado para fazer com que uma fonte de som seja percebida mais ampla. Neste exemplo, o volume original V é extremamente pequeno, ou seja, a fonte de som, por exemplo, a IPLS, deve estar localizada no mesmo ponto Q(k, n) = [X(k, n) , Y (k, n) , Z(k, n)]'r para todos (k, n) G 0. Este mecanismo pode ser visto como uma forma de hesitação do parâmetro de posição Q(k, n). De acordo com uma aplicação, cada um dos valores de posição de cada uma das fontes de som compreende pelo menos dois valores de coordenada, e o módulo de modificação é adaptado para modificar os valores de coordenada adicionando pelo menos um número aleatório aos valores de coordenada, quando os valores de coordenada indicam que uma fonte de som está localizada em uma posição dentro de uma área predefinida de um ambiente. 2. Transformação de Volume Além da expansão do volume, os dados de posição do fluxo GAC podem ser modificados para realocar as seções de espaço/volumes dentro do campo sonoro. Neste caso também, os dados a ser manipulados compreendem as coordenadas espaciais da energia localizada. V denota novamente o volume que deve ser realocado, e © denota o conjunto de todos as posições de tempo/frequência (k, n) para os quais a energia está localizada dentro do volume V. Novamente, o volume V pode indicar uma área predefinida de um ambiente. A realocação do volume pode ser obtida pela modificação do fluxo GAC, de modo que todas as posições de tempo/frequência (k,n) e ©, Q(k,n) sejam substituídas por f(Q(k,n)) nas saidas 431 a 43M das unidades 404, onde f é uma função das coordenadas espaciais (X, Y, Z) , descrevendo a manipulação do volume a ser realizada. A função f pode representar uma simples transformação linear como rotação, tradução ou qualquer outro mapeamento não linear complexo. Esta técnica pode ser usada, por exemplo, para mover fontes de som de uma posição para outra dentro da cena sonora garantindo que © corresponde ao conjunto de posições de tempo/frequência nos quais as fontes de som foram localizadas dentro do volume V. A técnica permite uma variedade de outras manipulações complexas de toda a cena sonora, como reflexão da cena, rotação da cena, ampliação da cena e/ou compressão, etc. Por exemplo, aplicando um mapeamento linear apropriado no volume V, o efeito complementar da expansão do volume, ou seja, redução do volume pode ser obtido. Isto poderia, por exemplo, ser feito pelo mapeamento Q(k,n) para (k,n) © © a f(Q(k,n)) © V', onde V' c V e V' compreende um volume significativamente menor do que V.A given energy in the scene is assumed to be located within volume V. Volume V can indicate a predefined area of an environment. © denotes the set of time/frequency positions (k, n) at which the corresponding sound sources, e.g. IPLS, are located within volume V. If expansion of volume V into another volume V' is desired, this can be obtained by adding a random term to the position data in the GAC stream always (k, n) G θ (evaluated in decision units 403) and substituting Q(k, n) = [X(k, n), Y (k , n) ,Z(k, n)]T (the index layer is reduced for simplicity) so that the outputs 431 to 43M of units 404 in Figure 7 and 8 become Q(k, n) = [X( k, n) + Φx(k, n) ; Y (k, n) + Φy(k, n) Z (k, n) + Φz (k, n) ]T (2) where Φx, Φy and Φz are random variables whose range depends on the geometry of the new volume V' with respect to the original volume V. This concept can, for example, be used to make a sound source be perceived wider. In this example, the original volume V is extremely small, that is, the sound source, for example the IPLS, must be located at the same point Q(k, n) = [X(k, n) , Y (k, n) , Z(k, n)]'r for all (k, n) G 0. This mechanism can be seen as a form of hesitation of the position parameter Q(k, n). According to one application, each of the position values of each of the sound sources comprises at least two coordinate values, and the modification module is adapted to modify the coordinate values by adding at least one random number to the coordinate values. , when coordinate values indicate that a sound source is located at a position within a predefined area of a room. 2. Volume Transformation In addition to volume expansion, GAC stream position data can be modified to relocate sections of space/volumes within the sound field. In this case too, the data to be manipulated comprises the spatial coordinates of the localized energy. V again denotes the volume that must be relocated, and © denotes the set of all time/frequency positions (k, n) for which energy is located within volume V. Again, volume V can indicate a predefined area of an environment. Volume reallocation can be achieved by modifying the GAC flow so that all time/frequency positions (k,n) and ©, Q(k,n) are replaced with f(Q(k,n)) in outputs 431 to 43M of units 404, where f is a function of spatial coordinates (X, Y, Z), describing the volume manipulation to be performed. The function f can represent a simple linear transformation such as rotation, translation or any other complex non-linear mapping. This technique can be used, for example, to move sound sources from one position to another within the sound scene ensuring that © corresponds to the set of time/frequency positions at which the sound sources were located within volume V. The technique allows a variety of other complex manipulations of the entire sound scene, such as scene reflection, scene rotation, scene enlargement and/or compression, etc. For example, by applying an appropriate linear mapping on volume V, the complementary effect of volume expansion, i.e., volume reduction, can be obtained. This could, for example, be done by mapping Q(k,n) to (k,n) © © a f(Q(k,n)) © V', where V' c V and V' comprises a significantly smaller volume than V.

De acordo com uma aplicação, o módulo de modificação é adaptado para modificar os valores de coordenada aplicando uma função deterministica nos valores de coordenada, quando os valores de coordenada indicam que uma fonte de som está localizada em uma posição dentro de uma área predefinida de um ambiente. 3. Filtração com base na posiçãoAccording to one application, the modification module is adapted to modify the coordinate values by applying a deterministic function on the coordinate values, when the coordinate values indicate that a sound source is located at a position within a predefined area of a environment. 3. Position-based filtering

A ideia de filtração com base na geometria (ou filtração com base na posição) oferece um método para melhorar ou remover completamente/parcialmente as seções de espaço/volumes da cena sonora. Comparado com a expansão do volume e técnicas de transformação, neste caso, entretanto, apenas os dados de pressão do fluxo GAC são modificados pela aplicação das ponderações em escala. Na filtração com base na geometria, uma distinção pode ser feita entre o lado do transmissor 102 e o módulo de modificação do lado do receptor 103, em que o anterior pode utilizar entradas 111 a 11N e 121 A 12N para auxiliar o cálculo computacional de ponderações de filtro apropriadas, conforme descrito na Figura 8. Assumindo que o objetivo é suprimir/melhorar a energia originada de uma seção selecionada de espaço/volume V, a filtração com base na geometria pode ser aplicada como segue: Para todos os (k, n) 6 ©, a pressão complexa P(k, n) no fluxo GAC é modificada para r|P(k, n) nas saldas de 402, onde g é um fator de ponderação real, por exemplo, calculado pela unidade 402. Em algumas aplicações, o módulo 402 pode ser adaptado para calcular um fator de ponderação também dependente da difusão. O conceito da filtração com base na geometria pode ser utilizado em uma pluralidade de aplicações, como melhoria do sinal e separação da fonte. Algumas das aplicações e as informações necessárias a priori compreendem:The idea of geometry-based filtering (or position-based filtering) offers a method to enhance or completely/partially remove sections of space/volumes from the sound scene. Compared to volume expansion and transformation techniques, in this case, however, only the GAC flow pressure data is modified by applying the scaled weights. In geometry-based filtering, a distinction may be made between the transmitter side 102 and the receiver side modification module 103, where the former may utilize inputs 111 to 11N and 121 to 12N to aid the computational calculation of weights. Assuming the objective is to suppress/enhance energy originating from a selected section of space/volume V, geometry-based filtering can be applied as follows: For all (k, n ) 6 ©, the complex pressure P(k, n) in the GAC flow is modified to r|P(k, n) at the 402 outputs, where g is a real weighting factor, for example, calculated by unit 402. In In some applications, module 402 can be adapted to calculate a weighting factor also dependent on diffusion. The concept of geometry-based filtration can be used in a plurality of applications, such as signal enhancement and source separation. Some of the applications and information required a priori include:

Desreverberação. Conhecendo a geometria do ambiente, o filtro espacial pode ser utilizado para suprimir a energia localizada fora dos cantos do ambiente que podem ser causados pela propagação de várias passagens. Esta aplicação pode ser de interesse, por exemplo, para comunicação sem mãos em salas de reunião e . carros. Observe que para suprimir a reverberação tardia, é suficiente fechar o filtro em caso de alta difusão, pelo qual suprime reflexões prematuramente e um filtro dependente de posição é mais efetivo. Neste caso, conforme já mencionado, a geometria da sala precisa ser conhecida a-priori. Supressão do Ruído de Fundo. Um conceito semelhante também pode ser utilizado para suprimir o ruído de fundo. Se as regiões potenciais onde as fontes podem estar localizadas, (por exemplo, as cadeiras dos participantes em salas de reunião ou os assentos em um carro) forem conhecidas, então, a energia localizada fora destas regiões está associada ao ruído de fundo e é assim suprimida pelo filtro espacial. Esta aplicação requer informações a priori ou uma estimativa, com base nos dados disponíveis nos fluxos GAC, da localização aproximada da fontes.Dereverberation. Knowing the geometry of the environment, the spatial filter can be used to suppress energy located outside the corners of the environment that may be caused by multi-pass propagation. This application may be of interest, for example, for hands-free communication in meeting rooms and . cars. Note that to suppress late reverberation, it is sufficient to close the filter in case of high diffusion, whereby it suppresses reflections prematurely and a position-dependent filter is more effective. In this case, as already mentioned, the geometry of the room needs to be known a priori. Background Noise Suppression. A similar concept can also be used to suppress background noise. If the potential regions where the sources might be located (e.g., participants' chairs in meeting rooms or seats in a car) are known, then energy located outside these regions is associated with background noise and is thus suppressed by the spatial filter. This application requires a priori information or an estimate, based on data available in GAC streams, of the approximate location of the sources.

A supressão de um intervencionista do tipo ponto. Se o intervencionista é claramente localizada no espaço, ao invés de difuso, a filtração com base na posição pode ser aplicada para atenuar a energia localizada na posição do intervencionista. Requer informações a priori informações ou uma estimativa da localização do intervencionista. Controle de Eco. Neste caso os intervencionistas a ser suprimidos são os sinais do alto-falante. Para esta finalidade, semelhantemente ao caso para intervencionistas do tipo ponto, a energia localizada exatamente ou próxima da posição dos alto-falantes é suprimida. Requer informações a priori informações ou uma estimativa das posições do alto-falante.The suppression of a point-type interventionist. If the interventionist is clearly localized in space, rather than diffuse, position-based filtering can be applied to attenuate the localized energy at the interventionist's position. Requires a priori information or an estimate of the interventionist's location. Echo Control. In this case the interventionists to be suppressed are the loudspeaker signals. For this purpose, similarly to the case for point-type interventionists, energy located at or near the position of the speakers is suppressed. It requires a priori information or an estimate of speaker positions.

Detecção de voz melhorada. As técnicas de melhoria de sinal associadas com a invenção de filtração com base na geometria podem ser implementadas como uma etapa de processamento em um sistema de detecção da atividade vocal convencional, por exemplo, em carros. A desreverberação, ou supressão do ruido pode ser utilizada como adicionais para melhorar o desempenho do sistema.Improved voice detection. The signal enhancement techniques associated with the invention of geometry-based filtering can be implemented as a processing step in a conventional vocal activity detection system, for example, in cars. Dereverberation, or noise suppression, can be used as an additional feature to improve system performance.

Supervisão. Preservar apenas a energia de certas áreas e suprimir o resto é uma técnica muito utilizada nas aplicações de supervisão. Requer informações a priori sobre a geometria e localização da área de interesse.Supervision. Preserving only the energy of certain areas and suppressing the rest is a technique widely used in supervision applications. It requires a priori information about the geometry and location of the area of interest.

Separação da Fonte. Em um ambiente com várias fontes simultaneamente ativas a filtração espacial com base na geometria pode ser aplicada para a separação da fonte. Colocar um filtro espacial apropriadamente desenhado centralizado na localização de uma fonte resulta na supressão/atenuação de outras fontes simultaneamente ativas. Esta inovação pode ser usada, por exemplo, como frontal em SAOC. Informações a priori ou uma estimativa das localizações da fonte são necessárias.Source Separation. In an environment with multiple simultaneously active sources geometry-based spatial filtering can be applied for source separation. Placing an appropriately designed spatial filter centered on the location of a source results in the suppression/attenuation of other simultaneously active sources. This innovation can be used, for example, as a front end in SAOC. A priori information or an estimate of source locations is required.

Controle de Ganho Automático dependente da Posição (AGC I Automatic Gain Control) . Ponderações dependentes da posição podem ser utilizados, por exemplo, para equalizer o ruido de diferentes transmissores em aplicações de teleconferência.Position-dependent Automatic Gain Control (AGC I Automatic Gain Control). Position-dependent weighting can be used, for example, to equalize noise from different transmitters in teleconferencing applications.

A seguir, os módulos de sintese de acordo com as aplicações são descritos. De acordo com uma aplicação, um módulo de sintese pode ser adaptado para gerar pelo menos um sinal de saida de áudio com base pelo menos em um valor de pressão de dados de áudio de um fluxo de dados de áudio e com base pelo menos em um valor da posição dos dados de áudio do fluxo de dados de áudio. Pelo menos um valor de pressão pode ser um valor de pressão de um sinal de pressão, por exemplo, um sinal de áudio.Next, the synthesis modules according to the applications are described. According to one application, a synthesis module may be adapted to generate at least one audio output signal based on at least one audio data pressure value of an audio data stream and based on at least one audio data position value of the audio data stream. At least one pressure value may be a pressure value of a pressure signal, for example an audio signal.

Os princípios da operação atrás da síntese GAC são motivados pelas suposições da percepção de som espacial dado em [27] WC2004077884: Tapio Lokki, Juha Merimaa, and Ville Pulkki. Method for reproducing natural or modified spatial impression in multichannel listening, 2006.The principles of operation behind GAC synthesis are motivated by the assumptions of spatial sound perception given in [27] WC2004077884: Tapio Lokki, Juha Merimaa, and Ville Pulkki. Method for reproducing natural or modified spatial impression in multichannel listening, 2006.

Em particular, os sinais espaciais necessários para corretamente perceber a imagem espacial de uma cena sonora podem ser obtidos reproduzindo corretamente uma direção de chegada do som não difuso para cada posição de tempo/frequência. A síntese, descrita na Figura 10a é assim dividida em dois estágios. O primeiro estágio considera a posição e orientação do escuta dentro da cena sonora e determina qual M IPLS é dominante para cada posição de tempo/frequência. Consequentemente, seu sinal de pressão Pdir e direção de chegada θ pode ser calculado.In particular, the spatial signals necessary to correctly perceive the spatial image of a sound scene can be obtained by correctly reproducing a non-diffuse sound arrival direction for each time/frequency position. The synthesis, described in Figure 10a, is thus divided into two stages. The first stage considers the position and orientation of the listener within the sound scene and determines which M IPLS is dominant for each time/frequency position. Consequently, its pressure signal Pdir and arrival direction θ can be calculated.

As fontes remanescentes e o som difuso são coletados em um segundo sinal de pressão Pdiff. O segundo estágio é idêntico à segunda metade da síntese DirAC descrita em [27]. O som não difuso é reproduzido com um mecanismo de posicionamento que produz uma fonte do tipo ponto, onde o som difuso é reproduzido a partir de todos os alto-falantes após serem descorrelacionados.The remaining sources and diffuse sound are collected into a second pressure signal Pdiff. The second stage is identical to the second half of the DirAC synthesis described in [27]. Non-diffuse sound is reproduced with a positioning mechanism that produces a point-type source, where diffuse sound is reproduced from all speakers after being decorrelated.

A Figura 10a descreve um módulo de síntese de acordo com uma aplicação ilustrando a síntese do fluxo GAC.Figure 10a depicts a synthesis module according to an application illustrating GAC flow synthesis.

A primeira unidade de síntese de estágio 501, calcula os sinais de pressão Pdir e Pdiff que precisam ser reproduzidos diferentemente. De fato, enquanto Pdlr compreende o som que tem que ser reproduzido coerentemente no espaço, Pdiff compreende o som difuso. A terceira saida da primeira unidade de sintese de estágio 501 é a Direção de Chegada (DOA) θ 505 do ponto de vista da posição de escuta desejada, ou seja, as informações de direção de chegada. Observe que a Direção de chegada (DOA) pode ser expressa como um ângulo azimutal se espaço 2D, ou por um par de ângulos azimutal e de elevação em 3D. Equivalentemente, um vetor padrão da unidade indicado na DOA pode ser utilizado.The first stage synthesis unit 501 calculates the pressure signals Pdir and Pdiff which need to be reproduced differently. In fact, while Pdlr understands the sound that has to be reproduced coherently in space, Pdiff understands the diffuse sound. The third output of the first stage synthesis unit 501 is the Direction of Arrival (DOA) θ 505 from the point of view of the desired listening position, i.e., the direction of arrival information. Note that the Direction of Arrival (DOA) can be expressed as an azimuthal angle in 2D space, or by a pair of azimuthal and elevation angles in 3D. Equivalently, a standard unit vector indicated in the DOA can be used.

A DOA especifica de qual direção (relativo à posição de escuta desejada) o sinal Pdir deve vir. A primeira unidade de sintese de estágio 501 considera o fluxo GAC como uma entrada, ou seja, uma representação paramétrica do campo sonoro, e calcula os sinais previamente mencionados com base na posição do escuta e orientação especificada pela entrada 141.The DOA specifies from which direction (relative to the desired listening position) the Pdir signal should come. The first stage synthesis unit 501 considers the GAC stream as an input, i.e., a parametric representation of the sound field, and calculates the previously mentioned signals based on the listener's position and orientation specified by the input 141.

De fato, o usuário final pode decidir livremente a posição de escuta e orientação dentro da cena sonora descrita pelo fluxo GAC.In fact, the end user can freely decide the listening position and orientation within the sound scene described by the GAC stream.

A segunda unidade de sintese de estágio 502 calcula os sinais L do alto-falante 511 a 51L com base no conhecimento da configuração do alto-falante 131. Favor lembrar que a unidade 502 é idêntica à segunda metade da sintese DirAC descrita em [27].The second stage synthesis unit 502 calculates the L signals from the speaker 511 to 51L based on knowledge of the configuration of the speaker 131. Please remember that the unit 502 is identical to the second half of the DirAC synthesis described in [27]. .

A Figura 10b descreve uma primeira unidade de armazenamento de sintese de acordo com uma aplicação. A entrada fornecida ao bloco é um fluxo GAC composto por camadas. Em uma primeira etapa, a unidade 601 demultiplexa as camadas M no fluxo GAC paralelo M de uma camada cada. O fluxo GAC i-th compreende um sinal de pressão Pi, uma difusão Φi e um vetor de posição Q± = [XiA Y±, ZiJT. O sinal de pressão Pi compreende um ou mais valores de pressão. O vetor de posição é um valor da posição. Pelo menos um sinal de saida de áudio é agora gerado com base nestes valores.Figure 10b depicts a first synthesis storage unit according to an application. The input provided to the block is a GAC stream composed of layers. In a first step, unit 601 demultiplexes the M layers into the M parallel GAC stream of one layer each. The i-th GAC flow comprises a pressure signal Pi, a diffusion Φi and a position vector Q± = [XiA Y±, ZiJT. The pressure signal Pi comprises one or more pressure values. The position vector is a position value. At least one audio output signal is now generated based on these values.

O sinal de pressão para som direto e difuso Pdir/i e Pdiffziz θ obtido de Pj aplicando um fator correto derivado da difusão Φi. Os sinais de pressão compreendem o som direto entram em um bloco de compensação da propagação 602, que calcula os atrasos correspondentes à propagação do sinal da posição da fonte de som, por exemplo, a posição de IPLS, na posição de escuta. Além disso, o bloco também calcula os fatores de ganho necessários para compensar os diferentes declínios de magnitude. Em outras aplicações, apenas os diferentes declínios de magnitude são compensados, enquanto os atrasos não são compensados.The pressure signal for direct and diffuse sound Pdir/i and Pdiffziz θ obtained from Pj by applying a diffusion-derived correct factor Φi. The pressure signals comprising direct sound enter a propagation compensation block 602, which calculates delays corresponding to signal propagation from the position of the sound source, e.g., the IPLS position, to the listening position. Additionally, the block also calculates the gain factors needed to compensate for different magnitude declines. In other applications, only the different magnitude declines are compensated, while the delays are not compensated.

Os sinais de pressão compensados, denotados por entram no bloco 603, que emite o índice imax da entrada mais forte The compensated pressure signals, denoted by enter block 603, which outputs the imax index of the strongest entry

A ideia principal por trás deste mecanismo é que a M IPLS ativa na posição de tempo/frequência em estudo, apenas a mais forte (com relação à posição do escuta) será reproduzida coerentemente (ou seja, como som direto). Blocos 604 e 605 selecionam de suas entradas o que é definido por imax. O bloco 607 calcula a direção de chegada da imax-th IPLS com relação à posição e orientação do ouvinte (entrada 141). A saída do bloco 604corresponde à saída do bloco 501, a saber, o som sinal Pdir que será reproduzido como som direto pelo bloco 502. O som difuso, a saber, a saída 504 Pdiff, compreende à soma de todo o som difuso nas ramificações M, bem como todos os sinais de som direto exceto para imax-th, a saber Vj + imax.The main idea behind this mechanism is that if the M IPLS is active at the time/frequency position under study, only the strongest one (in relation to the listening position) will be reproduced coherently (i.e., as direct sound). Blocks 604 and 605 select from their inputs what is defined by imax. Block 607 calculates the direction of arrival of the imax-th IPLS with respect to the position and orientation of the listener (entry 141). The output of block 604 corresponds to the output of block 501, namely the sound signal Pdir that will be reproduced as direct sound by block 502. The diffuse sound, namely output 504 Pdiff, comprises the sum of all the diffuse sound in the M branches, as well as all direct sound signals except for imax-th, namely Vj + imax.

A Figura 10c ilustra uma segunda unidade de armazenamento de síntese 502. Conforme previamente mencionado, este estágio é idêntico à segunda metade do módulo de síntese proposto em [27] . O som não difuso Pdir 503 é reproduzido como uma fonte do tipo ponto, por exemplo, por posicionamento, cujos ganhos são calculados no bloco 701 com base na direção de chegada (505) . Por outro lado, o som difuso, Pdiff, passa pelos descorrelacionadores distintos L (711 a 71L) . Para cada um dos sinais do alto-falante L, o som direto e as passagens difusas são adicionados antes de passar pelo filtro de banco inverso (703).Figure 10c illustrates a second synthesis storage unit 502. As previously mentioned, this stage is identical to the second half of the synthesis module proposed in [27]. The non-diffuse sound Pdir 503 is reproduced as a point-type source, for example by positioning, the gains of which are calculated in block 701 based on the direction of arrival (505). On the other hand, the diffuse sound, Pdiff, passes through the distinct decorrelators L (711 to 71L). For each of the L speaker signals, the direct sound and diffuse passes are added before passing through the inverse bank filter (703).

A Figura 11 ilustra um módulo de síntese de acordo com uma aplicação alternativa. Todas as quantidades na figura são consideradas no domínio de tempo/frequência; a notação (k,n) foi negligenciada por razões de simplicidade, por exemplo, Pi = Pi(k,n) . Para melhorar a qualidade do áudio da representação no caso de cenas sonoras particularmente complexas, por exemplo, várias fontes ativas ao mesmo tempo, o módulo de síntese, por exemplo, módulo de síntese 104 pode, por exemplo, ser observado conforme mostrado na Figura 11. Ao invés de selecionar a maioria das IPLS dominantes a ser reproduzidas coerentemente a síntese na Figura 11 realiza uma síntese completa de cada uma das camadas M separadamente. Os sinais do alto-falante L da camada i-th são a saída do bloco 502 e são denotados por 191i a 19Li. O sinal do alto-falante h-th 19h na saída da primeira unidade de armazenamento de síntese 501 é a soma de 19hf a 19hM. Por favor, observe que diferentemente da Figura 10b, a etapa de estimativa deFigure 11 illustrates a synthesis module according to an alternative application. All quantities in the figure are considered in the time/frequency domain; the (k,n) notation was neglected for simplicity reasons, e.g. Pi = Pi(k,n) . To improve the audio quality of the representation in the case of particularly complex sound scenes, e.g. several sources active at the same time, the synthesis module, e.g. synthesis module 104, can for example be observed as shown in Figure 11 Instead of selecting the majority of dominant IPLS to be reproduced coherently, the synthesis in Figure 11 performs a complete synthesis of each of the M layers separately. The i-th layer L speaker signals are the output of block 502 and are denoted by 191i to 19Li. The signal from the h-th speaker 19h at the output of the first synthesis storage unit 501 is the sum of 19hf to 19hM. Please note that unlike Figure 10b, the estimation step

DOA no bloco 607 precisa ser realizada para cada uma das camadas M.DOA in block 607 needs to be performed for each of the M layers.

A Figura 26 ilustra um aparelho 950 para gerar um fluxo de dados do microfone virtual de acordo com uma aplicação. O aparelho 950 para gerar um fluxo de dados do microfone virtual compreende um aparelho 960 para gerar um sinal de saída de áudio de um microfone virtual de acordo com uma das aplicações descritas acima, por exemplo, de acordo com a Figura 12, e um aparelho 970 para gerar um fluxo de dados de áudio de acordo com uma das aplicações descritas acima, por exemplo, de acordo com a Figura 2, em que o fluxo de dados de áudio gerado pelo aparelho 97 0 para gerar um fluxo de dados de áudio é o fluxo de dados do microfone virtual.Figure 26 illustrates an apparatus 950 for generating a virtual microphone data stream in accordance with an application. Apparatus 950 for generating a virtual microphone data stream comprises an apparatus 960 for generating an audio output signal from a virtual microphone in accordance with one of the applications described above, e.g., in accordance with Figure 12, and an apparatus 970 for generating an audio data stream in accordance with one of the applications described above, for example, in accordance with Figure 2, wherein the audio data stream generated by the apparatus 970 for generating an audio data stream is the virtual microphone data stream.

O aparelho 960, por exemplo, na Figure 26 para gerar um sinal de saida de áudio de um microfone virtual compreende um avaliador de posição dos eventos sonoros e um módulo de cálculo computacional de informação como na Figura 12. O avaliador de posição dos eventos sonoros é adaptado para estimar uma posição da fonte de som indicando uma posição de uma fonte de som no ambiente, em que o avaliador de posição dos eventos sonoros é adaptado para estimar a posição da fonte de som com base em uma primeira informação de direção fornecida por um primeiro microfone espacial real sendo localizado em uma primeira posição do microfone real no ambiente, e com base em uma segunda informação de direção fornecida por um segundo microfone espacial real sendo localizado em uma segunda posição do microfone real no ambiente. 0 módulo de cálculo computacional de informação é adaptado para gerar o sinal de saida de áudio com base em um sinal de entrada de áudio gravado, com base na primeira posição do microfone real e com base na posição do microfone calculada.Apparatus 960, for example, in Figure 26 for generating an audio output signal from a virtual microphone comprises a sound event position evaluator and a computational information calculation module as in Figure 12. The sound event position evaluator is adapted to estimate a position of the sound source by indicating a position of a sound source in the environment, wherein the sound event position estimator is adapted to estimate the position of the sound source based on a first direction information provided by a first real spatial microphone being located at a first real microphone position in the environment, and based on a second direction information provided by a second real spatial microphone being located at a second real microphone position in the environment. The information computational calculation module is adapted to generate the audio output signal based on a recorded audio input signal, based on the first actual microphone position and based on the calculated microphone position.

O aparelho 960 para gerar um sinal de saída de áudio de um microfone virtual é disposto para fornecer o sinal de saída de áudio ao aparelho 970 para gerar um fluxo de dados de áudio. O aparelho 97 0 para gerar um fluxo de dados de áudio compreende um determinador, por exemplo, o determinador 210 descrito com relação à Figura 2. O determinador do aparelho 970 para gerar um fluxo de dados de áudio determina os dados da fonte de som com base no sinal de saída de áudio fornecido pelo aparelho 960 para gerar um sinal de saída de áudio de um microfone virtual.Apparatus 960 for generating an audio output signal from a virtual microphone is arranged to provide the audio output signal to apparatus 970 for generating an audio data stream. The apparatus 970 for generating an audio data stream comprises a determiner, e.g., the determiner 210 described with respect to Figure 2. The determinant of the apparatus 970 for generating an audio data stream determines the sound source data with based on the audio output signal provided by apparatus 960 to generate an audio output signal from a virtual microphone.

A Figura 27 ilustra um aparelho 980 para gerar, pelo menos, um sinal de saída de áudio com base em um fluxo de dados de áudio de acordo com uma das aplicações descritas acima, por exemplo, o aparelho de acordo com a reivindicação 1, sendo configurado para gerar o sinal de saída de áudio com base em um fluxo de dados do microfone virtual como o fluxo de dados de áudio fornecido por um aparelho 950 para gerar um fluxo de dados do microfone virtual, por exemplo, o aparelho 950 na Figura 26.Figure 27 illustrates an apparatus 980 for generating at least one audio output signal based on an audio data stream according to one of the applications described above, e.g., the apparatus according to claim 1, being configured to generate the audio output signal based on a virtual microphone data stream such as the audio data stream provided by an apparatus 950 to generate a virtual microphone data stream, e.g., the apparatus 950 in Figure 26 .

O aparelho 980 para gerar um fluxo de dados do microfone virtual insere o sinal do microfone virtual gerado no aparelho 980 para gerar pelo menos um sinal de saída de áudio com base em um fluxo de dados de áudio. Deve ser observado que o fluxo de dados do microfone virtual é um fluxo de dados de áudio. O aparelho 980 para gerar pelo menos um sinal de saída de áudio com base em um fluxo de dados de áudio gera um sinal de saída de áudio com base no fluxo de dados do microfone virtual como fluxo de dados de áudio, por exemplo, conforme descrito com relação ao aparelho da Figura 1.The apparatus 980 for generating a virtual microphone data stream inputs the generated virtual microphone signal into the apparatus 980 to generate at least one audio output signal based on an audio data stream. It should be noted that the virtual microphone data stream is an audio data stream. Apparatus 980 for generating at least one audio output signal based on an audio data stream generates an audio output signal based on the virtual microphone data stream as an audio data stream, for example, as described in relation to the device in Figure 1.

Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é claro que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou a uma característica de uma etapa do método. De modo análogo, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente.Although some aspects have been described in the context of an apparatus, it is clear that these aspects also represent a description of the corresponding method, where a block or device corresponds to a method step or a characteristic of a method step. Similarly, aspects described in the context of a method step also represent a description of a corresponding block or item or characteristic of a corresponding apparatus.

O sinal decomposto inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido em um meio de transmissão como um meio de transmissão sem fio ou um meio de transmissão com fio como a Internet.The inventive decomposed signal may be stored on a digital storage medium or may be transmitted on a transmission medium such as a wireless transmission medium or a wired transmission medium such as the Internet.

Dependendo de certas exigências da implementação, aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma memória ROM, uma PROM, uma EPROM, uma EEPROM ou uma FLASH, tendo sinais de controle legíveis eletronicamente armazenados nele, que cooperam (ou são capazes de cooperar) com um sistema de computador programável de modo que o respectivo método seja realizado.Depending on certain implementation requirements, applications of the invention may be implemented in hardware or in software. The implementation may be carried out using a digital storage medium, for example, a floppy disk, a DVD, a CD, a ROM memory, a PROM, an EPROM, an EEPROM or a FLASH, having electronically readable control signals stored therein, which cooperate (or are capable of cooperating) with a programmable computer system so that the respective method is carried out.

Algumas aplicações de acordo com a invenção compreendem um transportador de dados não transitório, tendo sinais de controle legíveis eletronicamente que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui seja realizado.Some applications in accordance with the invention comprise a non-transient data carrier having electronically readable control signals that are capable of cooperating with a programmable computer system so that one of the methods described herein is carried out.

Geralmente, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código do programa, o código do programa sendo operativo para realizar um dos métodos quando o produto do programa de computador opera em um computador. O código do programa pode, por exemplo, ser armazenado em um transportador legivel por máquina.Generally, applications of the present invention can be implemented as a computer program product with a program code, the program code being operative to carry out one of the methods when the computer program product operates on a computer. Program code can, for example, be stored on a machine-readable carrier.

Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos aqui, armazenados em um transportador legivel por máquina.Other applications comprise computer program for carrying out one of the methods described herein, stored on a machine-readable carrier.

Em outras palavras, uma aplicação do método inventivo é, desta forma, um programa de computador, tendo um código do programa para realizar um dos métodos descritos aqui, quando o programa de computador opera em um computador. Outra aplicação dos métodos inventivos é, desta forma, um transportador de dados (ou um meio de armazenamento digital, ou um meio legivel por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos aqui. Outra aplicação do método inventivo é, desta forma, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos descritos aqui. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet. Outra aplicação compreende um meio de processamento, por exemplo, um computador, ou um dispositivo de lógica programável, configurado ou adaptado para realizar um dos métodos descritos aqui. instalado nele o programa de computador para realizar um dos métodos descritos aqui.In other words, an application of the inventive method is thus a computer program, having program code for carrying out one of the methods described herein, when the computer program operates on a computer. Another application of the inventive methods is, therefore, a data carrier (or a digital storage medium, or a computer readable medium) comprising, recorded thereon, the computer program for carrying out one of the methods described here. Another application of the inventive method is, therefore, a data stream or a sequence of signals that represents the computer program for carrying out one of the methods described here. The data stream or signal sequence may, for example, be configured to be transferred via a data communication connection, for example via the Internet. Another application comprises a processing means, for example, a computer, or a programmable logic device, configured or adapted to perform one of the methods described herein. installed on it the computer program to carry out one of the methods described here.

Em algumas aplicações, um dispositivo de lógica programável (por exemplo, um conjunto de portas lógicas programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos aqui. Em algumas aplicações, um conjunto de portas lógicas programáveis pode cooperar com um microprocessador para realizar um dos métodos descritos aqui. Geralmente, os métodos são preferivelmente realizados por qualquer aparelho de hardware.In some applications, a programmable logic device (e.g., a set of programmable logic gates) may be used to perform some or all of the functionality of the methods described herein. In some applications, a set of programmable logic gates may cooperate with a microprocessor to perform one of the methods described here. Generally, the methods are preferably performed by any hardware apparatus.

As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção. É entendido que as modificações e variações das disposições e os detalhes descritos aqui serão evidentes a outros especialistas na técnica. É a intenção, portanto, ser limitada apenas pelo escopo das reivindicações de patente iminentes e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações aqui. Literatura: Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859-871, 1985. V. Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing," in Proceedings of the AES 28th International Conference, pp. 251-258, Piteâ, Sweden, June 30 - July 2, 2006. V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc., vol. 55, no. 6, pp. 503-516, June 2007. C. Faller: "Microphone Front-Ends for Spatial Audio Coders", in Proceedings of the AES 125th International Convention, San Francisco, Oct. 2008. M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Küch, D. Mahne, R. Schultz-Amling. and 0. Thiergart, "A spatial filtering approach for directional audio coding," in Audio Engineering Society Convention 126, Munich, Germany, May 2009. R. Schultz-Amling, F. Küch, O. Thiergart, and M. Kallinger, "Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, London UK, May 2010. J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger, and 0. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology," in Audio Engineering Society Convention 128, London UK, May 2010. E. G. Williams, Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography, Academic Press, 1999. A. Kuntz and R. Rabenstein, "Limitations in the extrapolation of wave fields from circular measurements," in 15th European Signal Processing Conference (EUSIPCO 2007), 2007. A. Walther and C. Faller, "Linear simulation of spaced microphone arrays using b-format recordings," in Audio Engiineering Society Convention 128, London UK, May 2010. US61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal. S. Rickard and Z. Yilmaz, "On the approximate W- disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1. R. Roy, A. Paulraj, and T. Kailath, "Direction- of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986. R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986. J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553. F. J. Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989. R. Schultz-Amling, F. Küch, M. Kallinger, G. Del Galdo, T. Ahonen and V. Pulkki, "Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding," in Audio Engineering Society Convention 124, Amsterdam, The Netherlands, May 2008. M. Kallinger, F. Küch, R. Schultz-Amling, G. Del Galdo, T. Ahonen and V. Pulkki, "Enhanced direction estimation using microphone arrays for directional audio coding;" in HandsFree Speech Communication and Microphone Arrays, 2008. HSCMA 2008, May 2008, pp. 45-48. R. K. Furness, "Ambisonics - An overview," in AES 8th International Conference, April 1990, pp. 181-189. TobiasWeller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA 'll), Edinburgh, United Kingdom, May 2011. J. Herre, K. Kjbrling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Rõdén, W. Oomen, K. Linzmeier, K.S. Chong: "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", 122nd AES Convention, Vienna, Austria, 2007, Preprint 7084. Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503-516, June 2007 . C. Faller. Microphone front-ends for spatial audio coders. In Proc, of the AES 125th International Convention, San Francisco, Oct. 2008. Emmanuel Gallo and Nicolas Tsingos. Extracting and re-rendering structured auditory scenes from field recordings. In AES 30th International Conference on Intelligent Audio Environments, 2007. Jeroen Breebaart, Jonas Engdegârd, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Jeroens Koppens, Werner Oomen, Barbara Resch, Erik Schuijers, and Leonid Terentiev. Spatial audio object coding (saoc) - the upcoming mpeg standard on parametric object based audio coding. In Audio Engineering Society Convention 124, 5 2008. R. Roy and T. Kailath. ESPRIT-estimation of signal parameters via rotational invariance techniques. Acoustics Speech and Signal Processing, IEEE Transactions on, 37 (7):984-995, July 1989. W02004077884: Tapio Lokki, Juha Merimaa, and Ville Pulkki. Method for reproducing natural or modified spatial 5 impression in multichannel listening, 2006. [28] Svein Berge. Device and method for converting spatial audio signal. US patent application, Appl. No. 10/547,151.The applications described above are merely illustrative of the principles of the present invention. It is understood that modifications and variations of the arrangements and details described herein will be apparent to others skilled in the art. It is intended, therefore, to be limited only by the scope of the impending patent claims and not by the specific details presented in the form of a description and explanation of the applications herein. Literature: Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859-871, 1985. V. Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing," in Proceedings of the AES 28th International Conference, pp. 251-258, Piteâ, Sweden, June 30 - July 2, 2006. V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc., vol. 55, no. 6, pp. 503-516, June 2007. C. Faller: "Microphone Front-Ends for Spatial Audio Coders", in Proceedings of the AES 125th International Convention, San Francisco, Oct. 2008. M. Kallinger, H. Ochsenfeld, G. Del Galdo , F. Küch, D. Mahne, R. Schultz-Amling. and 0. Thiergart, "A spatial filtering approach for directional audio coding," in Audio Engineering Society Convention 126, Munich, Germany, May 2009. R. Schultz-Amling, F. Küch, O. Thiergart, and M. Kallinger, " Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, London UK, May 2010. J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger, and 0. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology," in Audio Engineering Society Convention 128, London UK, May 2010. E. G. Williams, Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography, Academic Press, 1999. A. Kuntz and R. Rabenstein, "Limitations in the extrapolation of wave fields from circular measurements," in 15th European Signal Processing Conference (EUSIPCO 2007), 2007. A. Walther and C. Faller, "Linear simulation of spaced arrays using b-format recordings," in Audio Engineering Society Convention 128, London UK, May 2010. US61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal. S. Rickard and Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1. R. Roy, A. Paulraj, and T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986. R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986. J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 276-280, 1986. 548-553. F. J. Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989. R. Schultz-Amling, F. Küch, M. Kallinger, G. Del Galdo, T. Ahonen and V. Pulkki, "Planar array microphone processing for the analysis and reproduction of spatial audio using directional audio coding," in Audio Engineering Society Convention 124, Amsterdam, The Netherlands, May 2008. M. Kallinger, F. Küch, R. Schultz-Amling, G. Del Galdo, T. Ahonen and V. Pulkki, "Enhanced direction estimation using microphone arrays for directional audio coding;" in HandsFree Speech Communication and Microphone Arrays, 2008. HSCMA 2008, May 2008, pp. 45-48. R. K. Furness, "Ambisonics - An overview," in AES 8th International Conference, April 1990, pp. 181-189. Tobias Weller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA 'll), Edinburgh, United Kingdom, May 2011. J. Herre, K. Kjbrling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen , J. Koppens, J. Hilpert, J. Rõdén, W. Oomen, K. Linzmeier, K.S. Chong: "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", 122nd AES Convention, Vienna, Austria, 2007, Preprint 7084. Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng Soc, 55(6):503-516, June 2007 . C. Faller. Microphone front-ends for spatial audio coders. In Proc, of the AES 125th International Convention, San Francisco, Oct. 2008. Emmanuel Gallo and Nicolas Tsingos. Extracting and re-rendering structured auditory scenes from field recordings. In AES 30th International Conference on Intelligent Audio Environments, 2007. Jeroen Breebaart, Jonas Engdegârd, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Jeroens Koppens, Werner Oomen, Barbara Resch, Erik Schuijers, and Leonid Terentiev. Spatial audio object coding (saoc) - the upcoming mpeg standard on parametric object based audio coding. In Audio Engineering Society Convention 124, 5 2008. R. Roy and T. Kailath. ESPRIT-estimation of signal parameters via rotational invariance techniques. Acoustics Speech and Signal Processing, IEEE Transactions on, 37 (7):984-995, July 1989. W02004077884: Tapio Lokki, Juha Merimaa, and Ville Pulkki. Method for reproducing natural or modified spatial 5 impression in multichannel listening, 2006. [28] Svein Berge. Device and method for converting spatial audio signals. US patent application, Appl. No. 10/547,151.

Claims (16)

1. Um dispositivo (150) para gerar pelo menos dois sinais de saída de áudio com base em um fluxo de dados de áudio que contém dados de áudio relacionados a duas ou mais fontes sonoras, em que o dispositivo (150) caracterizado por compreender: um receptor (160) para receber o fluxo de dados de áudio contendo os dados de áudio, em que os dados de áudio contêm, para cada uma das duas ou mais fontes sonoras, um ou mais valores de pressão sonora, em que os dados de áudio ainda contêm, para cada uma das duas ou mais fontes sonoras, um ou mais valores de posição que indicam a posição de uma das duas ou mais fontes sonoras, em que cada um dos um ou mais valores de posição compreende pelo menos dois valores de coordenadas, e em que os dados de áudio ainda contêm um ou mais valores de difusão sonora para cada uma das duas ou mais fontes sonoras; e um módulo de síntese (170; 620) para gerar os pelo menos dois sinais de saída de áudio com base nos um ou mais valores de pressão sonora de cada uma das duas ou mais fontes sonoras, com base nos um ou mais valores de posição de cada uma das duas ou mais fontes sonoras e com base nos um ou mais valores de difusão sonora de cada uma das duas ou mais fontes sonoras, em que o módulo de síntese (170; 620) compreende uma unidade de síntese de primeira etapa para gerar um sinal de pressão sonora direta compreendendo som direto, um sinal de pressão sonora difusa compreendendo som difuso e informações de direção de chegada com base nos valores de pressão sonora das duas ou mais fontes sonoras dos dados de áudio do fluxo de dados de áudio, com base nos valores de posição das duas ou mais fontes sonoras dos dados de áudio do fluxo de dados de áudio e com base nos valores de difusão sonora das duas ou mais fontes sonoras dos dados de áudio do fluxo de dados de áudio, e em que o módulo de síntese (170; 620) compreende uma unidade de síntese de segunda etapa para gerar os pelo menos dois sinais de saída de áudio com base no sinal de pressão sonora direta, no sinal de pressão sonora difusa e nas informações de direção de chegada, em que o sinal de pressão sonora direta compreende o valor de pressão sonora direta compensado daquela das duas ou mais fontes sonoras que possui um índice imax, com em que é o valor de pressão sonora direta compensado de uma das fontes sonoras i-ésimas das duas ou mais fontes sonoras, e em que o sinal de pressão sonora difusa depende de todos os valores de pressão difusa das duas ou mais fontes sonoras e de todos os valores de pressão sonora direta compensada das duas ou mais fontes sonoras, exceto o valor de pressão sonora direta compensado da fonte sonora imax.1. A device (150) for generating at least two audio output signals based on an audio data stream that contains audio data related to two or more sound sources, wherein the device (150) characterized by comprising: a receiver (160) for receiving the audio data stream containing the audio data, wherein the audio data contains, for each of the two or more sound sources, one or more sound pressure values, wherein the audio data audio further contain, for each of the two or more sound sources, one or more position values that indicate the position of one of the two or more sound sources, wherein each of the one or more position values comprises at least two position values. coordinates, and wherein the audio data further contains one or more sound diffusion values for each of the two or more sound sources; and a synthesis module (170; 620) for generating the at least two audio output signals based on the one or more sound pressure values of each of the two or more sound sources, based on the one or more position values of each of the two or more sound sources and based on the one or more sound diffusion values of each of the two or more sound sources, wherein the synthesis module (170; 620) comprises a first stage synthesis unit for generate a direct sound pressure signal comprising direct sound, a diffuse sound pressure signal comprising diffuse sound, and direction of arrival information based on the sound pressure values of the two or more sound sources of the audio data of the audio data stream, based on the position values of the two or more sound sources of the audio data of the audio data stream and based on the sound diffusion values of the two or more sound sources of the audio data of the audio data stream, and wherein the synthesis module (170; 620) comprises a second stage synthesis unit for generating the at least two audio output signals based on the direct sound pressure signal, the diffuse sound pressure signal, and the direction of arrival information, wherein the pressure signal direct sound comprises the direct sound pressure value compensated for that of the two or more sound sources that has an imax index, with on what is the compensated direct sound pressure value of one of the i-th sound sources of the two or more sound sources, and wherein the diffuse sound pressure signal depends on all diffuse pressure values of the two or more sound sources and all compensated direct sound pressure values of the two or more sound sources, except the compensated direct sound pressure value of the imax sound source. 2. O dispositivo (150) de acordo com a reivindicação 1, caracterizado por os dados de áudio são definidos em um domínio tempo-frequência.2. The device (150) according to claim 1, characterized in that the audio data is defined in a time-frequency domain. 3. O dispositivo (150) de acordo com a reivindicação 1, caracterizado por o receptor (160) compreende ainda um módulo de modificação (630) para modificar os dados de áudio do fluxo de dados de áudio recebido, modificando pelo menos um dos valores de pressão sonora de duas ou mais fontes sonoras dos dados de áudio, ou modificando pelo menos um dos valores de posição de duas ou mais fontes sonoras dos dados de áudio, ou modificando pelo menos um dos valores de difusão sonora das duas ou mais fontes sonoras dos dados de áudio, e em que o módulo de síntese (170; 620) é adaptado para gerar o pelo menos um sinal de saída de áudio com base no pelo menos um valor de pressão sonora que foi modificado ou com base no pelo menos um valor de posição que foi modificado ou com base no pelo menos um valor de difusão sonora que foi modificado.3. The device (150) according to claim 1, characterized in that the receiver (160) further comprises a modification module (630) for modifying the audio data of the received audio data stream by modifying at least one of the values of sound pressure of two or more sound sources of the audio data, or modifying at least one of the position values of two or more sound sources of the audio data, or modifying at least one of the sound diffusion values of the two or more sound sources of the audio data, and wherein the synthesis module (170; 620) is adapted to generate the at least one audio output signal based on the at least one sound pressure value that has been modified or based on the at least one position value that has been modified or based on at least one sound diffusion value that has been modified. 4. O dispositivo (150) de acordo com a reivindicação 3, caracterizado por cada um dos valores de posição de cada uma das duas ou mais fontes sonoras compreende pelo menos dois valores de coordenadas, e em que o módulo de modificação (630) é adaptado para modificar os valores de coordenadas adicionando pelo menos um número aleatório aos valores de coordenadas, quando os valores de coordenadas indicam que uma fonte sonora está localizada em uma posição dentro de uma área pré-definida de um ambiente.4. The device (150) according to claim 3, characterized in that each of the position values of each of the two or more sound sources comprises at least two coordinate values, and in which the modification module (630) is adapted to modify coordinate values by adding at least one random number to the coordinate values, when the coordinate values indicate that a sound source is located at a position within a pre-defined area of a room. 5. O dispositivo (150) de acordo com a reivindicação 3, caracterizado por cada um dos valores de posição de cada uma das duas ou mais fontes sonoras compreende pelo menos dois valores de coordenadas, e em que o módulo de modificação (630) é adaptado para modificar os valores de coordenadas aplicando uma função determinística aos valores de coordenadas, quando os valores de coordenadas indicam que uma fonte sonora está localizada em uma posição dentro de uma área pré-definida de um ambiente.5. The device (150) according to claim 3, characterized in that each of the position values of each of the two or more sound sources comprises at least two coordinate values, and in which the modification module (630) is adapted to modify coordinate values by applying a deterministic function to the coordinate values, when the coordinate values indicate that a sound source is located at a position within a pre-defined area of a room. 6. O dispositivo (150) de acordo com a reivindicação 3, caracterizado por cada um dos valores de posição de cada uma das duas ou mais fontes sonoras compreende pelo menos dois valores de coordenadas, e em que o módulo de modificação (630) é adaptado para modificar um valor de pressão sonora selecionado dos um ou mais valores de pressão sonora das duas ou mais fontes sonoras dos dados de áudio, o valor de pressão sonora selecionado relacionado à mesma fonte sonora que os valores de coordenadas, quando os valores de coordenadas indicam que uma fonte sonora está localizada em uma posição dentro de uma área pré-definida de um ambiente.6. The device (150) according to claim 3, characterized in that each of the position values of each of the two or more sound sources comprises at least two coordinate values, and in which the modification module (630) is adapted to modify a selected sound pressure value of the one or more sound pressure values of the two or more sound sources of the audio data, the selected sound pressure value relating to the same sound source as the coordinate values, when the coordinate values indicate that a sound source is located in a position within a pre-defined area of an environment. 7. O dispositivo (150) de acordo com a reivindicação 6, caracterizado por o módulo de modificação (630) é adaptado para modificar o valor de pressão sonora selecionado dos um ou mais valores de pressão sonora das duas ou mais fontes sonoras dos dados de áudio com base em um dos um ou mais valores de difusão de som, quando os valores de coordenadas indicam que a fonte sonora está localizada na posição dentro da área pré-definida de um ambiente.7. The device (150) according to claim 6, characterized in that the modification module (630) is adapted to modify the selected sound pressure value of the one or more sound pressure values of the two or more sound sources of the data. audio based on one of one or more sound diffusion values, when the coordinate values indicate that the sound source is located at the position within the pre-defined area of an environment. 8. O dispositivo (150) de acordo com a reivindicação 1, configurado para gerar o sinal de saída de áudio com base em um fluxo de dados de microfone virtual como o fluxo de dados de áudio fornecido por um dispositivo para gerar um fluxo de dados de microfone virtual, compreendendo: um dispositivo para gerar um sinal de saída de áudio de um microfone virtual; e um dispositivo para gerar um fluxo de dados de áudio como o fluxo de dados de microfone virtual, caracterizado por o fluxo de dados de áudio compreende dados de áudio, em que os dados de áudio compreendem, para cada uma das uma ou mais fontes sonoras, um ou mais valores de posição que indicam a posição da fonte sonora, em que cada um dos um ou mais valores de posição compreende pelo menos dois valores de coordenadas, em que o dispositivo para gerar um fluxo de dados de áudio compreende: um determinador (210; 670) para determinar os dados da fonte sonora com base em pelo menos um sinal de entrada de áudio gravado por pelo menos um microfone e com base em informações adicionais de áudio fornecidas por pelo menos dois microfones espaciais, as informações adicionais de áudio sendo informações adicionais espaciais que descrevem o som espacial; e um gerador de fluxo de dados para gerar o fluxo de dados de áudio de forma que o fluxo de dados de áudio compreenda os dados da fonte sonora; em que cada um dos pelo menos dois microfones espaciais é um dispositivo para aquisição de som espacial capaz de recuperar a direção de chegada do som, e em que os dados da fonte sonora compreendem um ou mais valores de pressão sonora para cada uma das fontes sonoras, em que os dados da fonte sonora compreendem, além disso, um ou mais valores de posição que indicam a posição da fonte sonora para cada uma das fontes sonoras, e em que os dados da fonte sonora compreendem, além disso, um ou mais valores de difusão de som para cada uma das fontes sonoras.8. The device (150) according to claim 1, configured to generate the audio output signal based on a virtual microphone data stream such as the audio data stream provided by a device for generating a data stream virtual microphone, comprising: a device for generating an audio output signal from a virtual microphone; and a device for generating an audio data stream such as the virtual microphone data stream, characterized in that the audio data stream comprises audio data, wherein the audio data comprises, for each of the one or more sound sources , one or more position values indicating the position of the sound source, wherein each of the one or more position values comprises at least two coordinate values, wherein the device for generating an audio data stream comprises: a determiner (210; 670) to determine sound source data based on at least one audio input signal recorded by at least one microphone and based on additional audio information provided by at least two spatial microphones, the additional audio information being additional spatial information that describes the spatial sound; and a data stream generator for generating the audio data stream such that the audio data stream comprises the sound source data; wherein each of the at least two spatial microphones is a spatial sound acquisition device capable of recovering the direction of arrival of the sound, and wherein the sound source data comprises one or more sound pressure values for each of the sound sources , wherein the sound source data further comprises one or more position values indicating the position of the sound source for each of the sound sources, and wherein the sound source data further comprises one or more values of sound diffusion for each of the sound sources. 9. Um sistema, compreendendo: um dispositivo (150) para gerar pelo menos dois sinais de saída de áudio com base em um fluxo de dados de áudio compreendendo dados de áudio relacionados a duas ou mais fontes sonoras, e um dispositivo (200) para gerar um fluxo de dados de áudio compreendendo dados da fonte sonora relacionados a duas ou mais fontes sonoras, caracterizado por o dispositivo (150) para gerar pelo menos dois sinais de saída de áudio compreende: um receptor (160) para receber o fluxo de dados de áudio compreendendo os dados de áudio, em que os dados de áudio compreendem, para cada uma das duas ou mais fontes sonoras, um ou mais valores de pressão sonora, em que os dados de áudio compreendem, além disso, para cada uma das duas ou mais fontes sonoras, um ou mais valores de posição que indicam a posição de uma das duas ou mais fontes sonoras, em que cada um dos um ou mais valores de posição compreende pelo menos dois valores de coordenadas, e em que os dados de áudio compreendem, além disso, um ou mais valores de difusão de som para cada uma das duas ou mais fontes sonoras; e um módulo de síntese (170; 620) para gerar os pelo menos dois sinais de saída de áudio com base no um ou mais valores de pressão sonora de cada uma das duas ou mais fontes sonoras, com base no um ou mais valores de posição de cada uma das duas ou mais fontes sonoras e com base no um ou mais valores de difusão de som de cada uma das duas ou mais fontes sonoras, em que o módulo de síntese (170; 620) compreende uma unidade de síntese de primeira etapa para gerar um sinal de pressão sonora direta compreendendo som direto, um sinal de pressão sonora difusa compreendendo som difuso e informações de direção de chegada com base nos valores de pressão sonora das duas ou mais fontes sonoras dos dados de áudio do fluxo de dados de áudio, com base nos valores de posição das duas ou mais fontes sonoras dos dados de áudio do fluxo de dados de áudio e com base nos valores de difusão de som das duas ou mais fontes sonoras dos dados de áudio do fluxo de dados de áudio, e em que o módulo de síntese (170; 620) compreende uma unidade de síntese de segunda etapa para gerar os pelo menos dois sinais de saída de áudio com base no sinal de pressão sonora direta, no sinal de pressão sonora difusa e nas informações de direção de chegada, em que o sinal de pressão sonora direta compreende o valor de pressão sonora direta compensado daquela das duas ou mais fontes sonoras que possui um índice imax, com em que é o valor de pressão sonora direta compensado de uma das fontes sonoras i-ésimas das duas ou mais fontes sonoras, e em que o sinal de pressão sonora difusa depende de todos os valores de pressão sonora difusa das duas ou mais fontes sonoras e de todos os valores de pressão sonora direta compensada das duas ou mais fontes sonoras, exceto o valor de pressão sonora direta compensado da fonte sonora imax -ésima. em que o dispositivo (200) para gerar um fluxo de dados de áudio compreende: um determinador (210; 670) para determinar os dados da fonte sonora com base em pelo menos um sinal de entrada de áudio gravado por pelo menos um microfone e com base em informações adicionais de áudio fornecidas por pelo menos dois microfones espaciais, as informações adicionais de áudio sendo informações adicionais espaciais que descrevem o som espacial; e um gerador de fluxo de dados para gerar o fluxo de dados de áudio de forma que o fluxo de dados de áudio compreenda os dados da fonte sonora; em que cada um dos pelo menos dois microfones espaciais é um dispositivo para aquisição de som espacial capaz de recuperar a direção de chegada do som, e em que os dados da fonte sonora compreendem um ou mais valores de pressão sonora para cada uma das duas ou mais fontes sonoras, em que os dados da fonte sonora compreendem, além disso, um ou mais valores de posição que indicam a posição da fonte sonora para cada uma das duas ou mais fontes sonoras, e em que os dados da fonte sonora compreendem, além disso, um ou mais valores de difusão de som para cada uma das duas ou mais fontes sonoras.9. A system, comprising: a device (150) for generating at least two audio output signals based on an audio data stream comprising audio data relating to two or more sound sources, and a device (200) for generating an audio data stream comprising sound source data related to two or more sound sources, characterized in that the device (150) for generating at least two audio output signals comprises: a receiver (160) for receiving the data stream audio data comprising audio data, wherein the audio data comprises, for each of the two or more sound sources, one or more sound pressure values, wherein the audio data further comprises, for each of the two or more sound sources, one or more position values that indicate the position of one of the two or more sound sources, wherein each of the one or more position values comprises at least two coordinate values, and wherein the audio data further comprise one or more sound diffusion values for each of the two or more sound sources; and a synthesis module (170; 620) for generating the at least two audio output signals based on the one or more sound pressure values of each of the two or more sound sources, based on the one or more position values of each of the two or more sound sources and based on the one or more sound diffusion values of each of the two or more sound sources, wherein the synthesis module (170; 620) comprises a first stage synthesis unit to generate a direct sound pressure signal comprising direct sound, a diffuse sound pressure signal comprising diffuse sound, and direction of arrival information based on the sound pressure values of the two or more sound sources of the audio data of the audio data stream , based on the position values of the two or more sound sources of the audio data of the audio data stream and based on the sound diffusion values of the two or more sound sources of the audio data of the audio data stream, and where the synthesis module (170; 620) comprises a second stage synthesis unit for generating the at least two audio output signals based on the direct sound pressure signal, the diffuse sound pressure signal, and the direction of arrival information, wherein the pressure signal direct sound comprises the direct sound pressure value compensated for that of the two or more sound sources that has an imax index, with on what is the compensated direct sound pressure value of one of the i-th sound sources of the two or more sound sources, and wherein the diffuse sound pressure signal depends on all diffuse sound pressure values of the two or more sound sources and all the compensated direct sound pressure values of the two or more sound sources, except the compensated direct sound pressure value of the imax -th sound source. wherein the device (200) for generating an audio data stream comprises: a determiner (210; 670) for determining sound source data based on at least one audio input signal recorded by at least one microphone and with based on additional audio information provided by at least two spatial microphones, the additional audio information being additional spatial information that describes the spatial sound; and a data stream generator for generating the audio data stream such that the audio data stream comprises the sound source data; wherein each of the at least two spatial microphones is a spatial sound acquisition device capable of recovering the direction of arrival of the sound, and wherein the sound source data comprises one or more sound pressure values for each of the two or more sound sources, wherein the sound source data further comprises one or more position values indicating the position of the sound source for each of the two or more sound sources, and wherein the sound source data further comprises Additionally, one or more sound diffusion values for each of the two or more sound sources. 10. Um método para gerar pelo menos dois sinais de saída de áudio com base em um fluxo de dados de áudio compreendendo dados de áudio relacionados a duas ou mais fontes sonoras, caracterizado por o método compreender: receber o fluxo de dados de áudio compreendendo os dados de áudio, em que os dados de áudio compreendem, para cada uma das duas ou mais fontes sonoras, um ou mais valores de pressão sonora, em que os dados de áudio compreendem, além disso, para cada uma das duas ou mais fontes sonoras, um ou mais valores de posição que indicam a posição de uma das duas ou mais fontes sonoras, em que cada um dos um ou mais valores de posição compreende pelo menos dois valores de coordenadas, e em que os dados de áudio compreendem, além disso, um ou mais valores de difusão de som para cada uma das duas ou mais fontes sonoras; e gerar os pelo menos dois sinais de saída de áudio com base no valor de pressão sonora de cada uma das duas ou mais fontes sonoras, com base no valor de posição de cada uma das duas ou mais fontes sonoras e com base no valor de difusão de som de cada uma das duas ou mais fontes sonoras, em que gerar os pelo menos dois sinais de saída de áudio compreende gerar um sinal de pressão sonora direta compreendendo som direto, um sinal de pressão sonora difusa compreendendo som difuso e informações de direção de chegada com base nos valores de pressão sonora das duas ou mais fontes sonoras dos dados de áudio do fluxo de dados de áudio, com base nos valores de posição das duas ou mais fontes sonoras dos dados de áudio do fluxo de dados de áudio e com base nos valores de difusão de som das duas ou mais fontes sonoras dos dados de áudio do fluxo de dados de áudio, e em que gerar os pelo menos dois sinais de saída de áudio compreende gerar os pelo menos dois sinais de saída de áudio com base no sinal de pressão sonora direta, no sinal de pressão sonora difusa e nas informações de direção de chegada, em que o sinal de pressão sonora direta compreende o valor de pressão sonora direta compensado daquela das duas ou mais fontes sonoras que possui um índice imax, com em que é o valor de pressão sonora direta compensado de uma das fontes sonoras i-ésimas das duas ou mais fontes sonoras, e em que o sinal de pressão sonora difusa depende de todos os valores de pressão sonora difusa das duas ou mais fontes sonoras e de todos os valores de pressão sonora direta compensada das duas ou mais fontes sonoras, exceto o valor de pressão sonora direta compensado da fonte sonora imax -ésima.10. A method for generating at least two audio output signals based on an audio data stream comprising audio data relating to two or more sound sources, characterized in that the method comprises: receiving the audio data stream comprising the audio data, wherein the audio data comprises, for each of the two or more sound sources, one or more sound pressure values, wherein the audio data further comprises, for each of the two or more sound sources , one or more position values indicating the position of one of two or more sound sources, wherein each of the one or more position values comprises at least two coordinate values, and wherein the audio data further comprises , one or more sound diffusion values for each of the two or more sound sources; and generating the at least two audio output signals based on the sound pressure value of each of the two or more sound sources, based on the position value of each of the two or more sound sources and based on the diffusion value of sound from each of the two or more sound sources, wherein generating the at least two audio output signals comprises generating a direct sound pressure signal comprising direct sound, a diffuse sound pressure signal comprising diffuse sound, and direction information of arrival based on the sound pressure values of the two or more sound sources of the audio data of the audio data stream, based on the position values of the two or more sound sources of the audio data of the audio data stream, and based on in the sound diffusion values of the two or more sound sources of the audio data of the audio data stream, and wherein generating the at least two audio output signals comprises generating the at least two audio output signals based on the direct sound pressure signal, the diffuse sound pressure signal and the direction of arrival information, wherein the direct sound pressure signal comprises the direct sound pressure value compensated for that of the two or more sound sources having an imax index, with on what is the compensated direct sound pressure value of one of the i-th sound sources of the two or more sound sources, and wherein the diffuse sound pressure signal depends on all of the diffuse sound pressure values of the two or more sound sources and all the compensated direct sound pressure values of the two or more sound sources, except the compensated direct sound pressure value of the imax -th sound source. 11. O sistema de acordo com a reivindicação 9, caracterizado por os dados da fonte sonora são definidos em um domínio tempo-frequência.11. The system according to claim 9, characterized in that the sound source data is defined in a time-frequency domain. 12. O sistema de acordo com a reivindicação 9, caracterizado por o determinador (210; 670) do dispositivo (200) para gerar o fluxo de dados de áudio é adaptado para determinar o um ou mais valores de difusão de som dos dados da fonte sonora com base em informações de difusão de som relacionadas a pelo menos um microfone espacial dos pelo menos dois microfones espaciais, as informações de difusão de som indicando a difusão do som em pelo menos um dos pelo menos dois microfones espaciais.12. The system according to claim 9, characterized in that the determiner (210; 670) of the device (200) for generating the audio data stream is adapted to determine the one or more sound diffusion values of the source data sound based on sound diffusion information relating to at least one spatial microphone of the at least two spatial microphones, the sound diffusion information indicating the diffusion of sound in at least one of the at least two spatial microphones. 13. O sistema de acordo com a reivindicação 12, caracterizado por o dispositivo (200) para gerar o fluxo de dados de áudio compreende, além disso, um módulo de modificação (690) para modificar o fluxo de dados de áudio gerado pelo gerador de fluxo de dados, modificando pelo menos um dos valores de pressão sonora das duas ou mais fontes sonoras dos dados de áudio, pelo menos um dos valores de posição das duas ou mais fontes sonoras dos dados de áudio ou pelo menos um dos valores de difusão de som das duas ou mais fontes sonoras dos dados de áudio relacionados a pelo menos uma das fontes sonoras.13. The system according to claim 12, characterized in that the device (200) for generating the audio data stream further comprises a modification module (690) for modifying the audio data stream generated by the audio data stream generator. data stream, modifying at least one of the sound pressure values of the two or more sound sources of the audio data, at least one of the position values of the two or more sound sources of the audio data, or at least one of the diffusion values of sound of the two or more sound sources of the audio data related to at least one of the sound sources. 14. O sistema de acordo com a reivindicação 13, caracterizado por cada um dos valores de posição de cada uma das fontes sonoras compreende pelo menos dois valores de coordenadas, e em que o módulo de modificação (690) do dispositivo (200) para gerar o fluxo de dados de áudio é adaptado para modificar os valores de coordenadas adicionando pelo menos um número aleatório aos valores de coordenadas ou aplicando uma função determinística nos valores de coordenadas, quando os valores de coordenadas indicam que uma fonte sonora está localizada em uma posição dentro de uma área pré-definida de um ambiente.14. The system according to claim 13, characterized in that each of the position values of each of the sound sources comprises at least two coordinate values, and in which the modification module (690) of the device (200) for generating the audio data stream is adapted to modify the coordinate values by adding at least one random number to the coordinate values or by applying a deterministic function to the coordinate values, when the coordinate values indicate that a sound source is located at a position within of a pre-defined area of an environment. 15. O sistema de acordo com a reivindicação 13, caracterizado por cada um dos valores de posição de cada uma das fontes sonoras compreende pelo menos dois valores de coordenadas, e, quando os valores de coordenadas de uma das fontes sonoras indicam que essa fonte sonora está localizada em uma posição dentro de uma área pré-definida de um ambiente, o módulo de modificação (690) do dispositivo (200) para gerar o fluxo de dados de áudio é adaptado para modificar um valor de pressão sonora selecionado dessa fonte sonora dos dados de áudio.15. The system according to claim 13, characterized in that each of the position values of each of the sound sources comprises at least two coordinate values, and, when the coordinate values of one of the sound sources indicate that that sound source is located at a position within a predefined area of an environment, the modification module (690) of the device (200) for generating the audio data stream is adapted to modify a selected sound pressure value of that sound source of the audio data. 16. O sistema de acordo com a reivindicação 13, caracterizado por o módulo de modificação (690) do dispositivo (200) para gerar o fluxo de dados de áudio é adaptado para modificar os valores de coordenadas aplicando uma função determinística nos valores de coordenadas, quando os valores de coordenadas indicam que uma fonte sonora está localizada em uma posição dentro de uma área pré-definida de um ambiente.16. The system according to claim 13, characterized in that the modification module (690) of the device (200) for generating the audio data stream is adapted to modify the coordinate values by applying a deterministic function to the coordinate values, when coordinate values indicate that a sound source is located at a position within a pre-defined area of an environment.
BR112013013678-2A 2010-12-03 2011-12-02 APPARATUS AND METHOD FOR SPATIAL AUDIO CODING BASED ON GEOMETRY BR112013013678B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US61/419,623 2010-12-03
US61/420,099 2010-12-06

Publications (1)

Publication Number Publication Date
BR112013013678B1 true BR112013013678B1 (en) 2024-04-24

Family

ID=

Similar Documents

Publication Publication Date Title
CA2819502C (en) Apparatus and method for geometry-based spatial audio coding
AU2012343819B2 (en) Apparatus and method for merging geometry-based spatial audio coding streams
BR112013013678B1 (en) APPARATUS AND METHOD FOR SPATIAL AUDIO CODING BASED ON GEOMETRY