BR112015021520B1 - APPARATUS AND METHOD FOR CREATING ONE OR MORE AUDIO OUTPUT CHANNEL SIGNALS DEPENDING ON TWO OR MORE AUDIO INPUT CHANNEL SIGNALS - Google Patents

APPARATUS AND METHOD FOR CREATING ONE OR MORE AUDIO OUTPUT CHANNEL SIGNALS DEPENDING ON TWO OR MORE AUDIO INPUT CHANNEL SIGNALS Download PDF

Info

Publication number
BR112015021520B1
BR112015021520B1 BR112015021520-3A BR112015021520A BR112015021520B1 BR 112015021520 B1 BR112015021520 B1 BR 112015021520B1 BR 112015021520 A BR112015021520 A BR 112015021520A BR 112015021520 B1 BR112015021520 B1 BR 112015021520B1
Authority
BR
Brazil
Prior art keywords
audio input
input channel
spectral density
power spectral
signal
Prior art date
Application number
BR112015021520-3A
Other languages
Portuguese (pt)
Other versions
BR112015021520A2 (en
Inventor
Christian Uhle
Emanuel Habets
Patrick GAMPP
Michael KRATZ
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V
Publication of BR112015021520A2 publication Critical patent/BR112015021520A2/en
Publication of BR112015021520B1 publication Critical patent/BR112015021520B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved

Abstract

aparelho e método para a decomposição multicanal direta-ambiente para processamento de sinal de audio. é fornecido um aparelho para criar um ou mais sinais do canal de saída de áudio dependendo de dois ou mais sinais do canal de entrada de áudio. cada um dos dois ou mais sinais do canal de entrada de áudio compreende partes do sinal direto e partes do sinal ambiente. 0 aparelho compreende uma unidade de determinação do filtro (110) para determinar um filtro através da estimativa de uma primeira informação da densidade espectral de potência e da estimativa de uma segunda informação da densidade espectral de potência. além disso, o aparelho compreende um processador de sinal (120) para criarum ou mais sinais do canal de saída de áudio aplicando o filtro nos dois ou mais sinais do canal de entrada de áudio. a primeira informação da densidade espectral de potência indica informação da densidade espectral de potência sobre os dois ou mais sinais do canal de entrada de áudio, e a segunda informação da densidade espectral de potência indica informação da densidade espectral de potência sobre as partes do sinal ambiente dos dois ou mais sinais do canal de entrada de áudio. ou, a primeira informação da densidade espectral de potência indica a informação da densidade espectral de potência sobre os dois ou mais sinais do canal de entrada de áudio, e a segunda informação da densidade espectral de potência indica informação da densidade espectral de potência sobre as partes do sinal direto dos dois ou mais sinais do canal de entrada de áudio. ou, a primeira informação da densidade espectral de potência indica a informação da densidade espectral de potência sobre as partes de sinal direto dos dois ou mais sinais do canal de entrada de áudio, e a segunda informação da densidade espectral de potência indica informação da densidade espectral de potência sobre as partes do sinal ambiente dos dois ou mais sinais do canal de entrada de áudio. fig. 1apparatus and method for direct-environment multichannel decomposition for audio signal processing. an apparatus is provided to create one or more audio output channel signals depending on two or more audio input channel signals. each of the two or more signals of the audio input channel comprises parts of the direct signal and parts of the ambient signal. The apparatus comprises a filter determination unit (110) for determining a filter by estimating a first power spectral density information and estimating a second power spectral density information. further, the apparatus comprises a signal processor (120) for creating one or more audio output channel signals by applying the filter to the two or more audio input channel signals. the first power spectral density information indicates power spectral density information about the two or more audio input channel signals, and the second power spectral density information indicates power spectral density information about the parts of the ambient signal. of the two or more audio input channel signals. or, the first power spectral density information indicates power spectral density information about the two or more audio input channel signals, and the second power spectral density information indicates power spectral density information about the parts. of the direct signal from the two or more audio input channel signals. or, the first power spectral density information indicates power spectral density information about the direct signal portions of the two or more audio input channel signals, and the second power spectral density information indicates spectral density information of power over the ambient signal parts of the two or more audio input channel signals. fig. 1

Description

[001] A presente invenção refere-se a um aparelho e método para adecomposição direta-ambiente multicanal para o processamento de sinal de áudio.[001] The present invention relates to an apparatus and method for direct decomposition-multichannel environment for audio signal processing.

[002] O processamento do sinal de áudio está cada vez mais importante.Neste campo, a separação de sinais sonoros em sinais de som diretos e ambiente tem um papel importante.[002] Audio signal processing is increasingly important. In this field, the separation of sound signals into direct and ambient sound signals plays an important role.

[003] De um modo geral, os sons acústicos consistem de uma mistura desons diretos e sons ambiente (ou difusos). Os sons diretos são emitidos por fontes de sons, por ex., um instrumento musical, um vocalista ou um altifalante, e chegam pelo caminho mais curto possível ao recetor, por ex. a entrada do ouvido do ouvinte ou o microfone.[003] In general, acoustic sounds consist of a mixture of direct sounds and ambient (or diffuse) sounds. Direct sounds are emitted by sound sources, eg a musical instrument, a vocalist or a loudspeaker, and arrive via the shortest possible path to the receiver, eg. the listener's ear input or the microphone.

[004] Quando se escuta um som direto, ele é percecionado como vindo deuma direção da fonte do som. O auditório relevante sugere que a localização e outras propriedades de som espacial são a diferença do nível interaural, a diferença do tempo interaural e a coerência interaural. As ondas de som direto, que evocam a diferença do nível interaural e a diferença do tempo interaural idênticas, são percecionadas como vindo da mesma direção. Na ausência do som difuso, os sinais que chegam ao ouvido esquerdo e direito ou qualquer outra multitude de sensores são coerentes.[004] When a direct sound is heard, it is perceived as coming from a direction from the source of the sound. The relevant audience suggests that location and other properties of spatial sound are the interaural level difference, the interaural time difference, and the interaural coherence. Direct sound waves, which evoke the identical interaural level difference and the identical interaural time difference, are perceived as coming from the same direction. In the absence of diffuse sound, the signals that reach the left and right ear or any other multitude of sensors are coherent.

[005] Os sons ambiente, em contrapartida, são emitidos por muitas fontesde som espaçadas ou limites refletores do som que contribuem para o mesmo som ambiente. Quando uma onda de som chega a uma parede em uma sala, uma parte sua é refletida, e a superposição de todas as reflexões em uma sala, a reverberação, é um exemplo proeminente para o som ambiente. Outros exemplos são sons de audiência (por ex. aplausos), sons ambientais (por ex. chuva) e outros sons de fundo (por ex. murmúrios). Os sons ambiente são percecionados como sendo difusos, não localizáveis e evocam uma impressão de envolvimento (de se ficar "imerso no som") pelo ouvinte. Quando se capta um campo de som ambiente que usa uma multitude de sensores espaçados, os sinais registados são pelo menos parcialmente incoerentes.[005] Ambient sounds, on the other hand, are emitted by many spaced sound sources or sound reflective limits that contribute to the same ambient sound. When a sound wave hits a wall in a room, a part of it is reflected, and the superposition of all reflections in a room, reverberation, is a prominent example of ambient sound. Other examples are audience sounds (eg applause), ambient sounds (eg rain) and other background sounds (eg murmurs). Ambient sounds are perceived as being diffuse, not locatable and evoke an impression of involvement (of being "immersed in the sound") by the listener. When capturing an ambient sound field using a multitude of spaced sensors, the recorded signals are at least partially incoherent.

[006] Várias aplicações de reprodução e pós-reprodução de sombeneficiam de uma decomposição de sinais de áudio em componentes de sinal direto e componentes de sinal ambiente. O principal desafio para esse processamento de sinal é conseguir uma alta separação, ao mesmo tempo que mantém uma alta qualidade de som para um número arbitrário de sinais do canal de entrada e para todas as possíveis características do sinal de entrada. A decomposição de ambiente direto (DAD), isto é, a decomposição de sinais de áudio em componentes de sinal direto e componentes de sinal ambiente, permite a reprodução ou modificação separada dos componentes do sinal, que é por exemplo pretendida para a mistura para cima dos sinais de áudio.[006] Various sound reproduction and post-reproduction applications benefit from a decomposition of audio signals into direct signal components and ambient signal components. The main challenge for this signal processing is to achieve high separation while maintaining high sound quality for an arbitrary number of input channel signals and for all possible input signal characteristics. Direct ambient decomposition (DAD), ie the decomposition of audio signals into direct signal components and ambient signal components, allows separate reproduction or modification of the signal components, which is for example intended for up-mixing of the audio signals.

[007] O termo upmixing refere-se ao processo de criar um sinal comcanais P que resulta em um sinal de entrada com N canais, em que P > N. A sua principal aplicação é a reprodução de sinais de áudio que usam configurações de som surround que têm mais canais do que disponível no sinal de entrada. Reproduzir o conteúdo usando algoritmos de processamento de sinal avançado permite ao ouvinte usar todos os canais disponíveis da configuração de reprodução de som multicanal. Esse processamento pode decompor o sinal de entrada em componentes de sinal significativos (por ex. com base na sua posição percecionada na imagem de estéreo, sons diretos versus sons ambiente, instrumentos únicos) ou em sinais em que estes componentes de sinal são atenuados ou impulsionados.[007] The term upmixing refers to the process of creating a signal with P channels that results in an input signal with N channels, where P > N. Its main application is the reproduction of audio signals that use sound settings that have more channels than available in the input signal. Playing content using advanced signal processing algorithms allows the listener to use all available channels of the multi-channel sound reproduction setup. Such processing can break down the input signal into significant signal components (eg based on their perceived position in the stereo image, direct sounds versus ambient sounds, single instruments) or into signals where these signal components are attenuated or boosted .

[008] São amplamente conhecidos dois conceitos de upmixing.1.Mistura para cima guiada: upmixing com informação adicional guiando o processo de upmixing. A informação adicional pode ser "codificada" de uma maneira específica no sinal de entrada ou pode ser adicionalmente guardada. 2.Mistura para cima não guiada: o sinal de saída é obtido a partir do sinal de entrada de áudio exclusivamente sem qualquer informação adicional.[008] Two upmixing concepts are widely known. 1. Upmixing guided: upmixing with additional information guiding the upmixing process. Additional information can be "encoded" in a specific way into the input signal or can be additionally stored. 2.Unguided Upmix: The output signal is taken from the input audio signal exclusively without any additional information.

[009] Podem ser ainda categorizados métodos de upmixing avançadosrelativamente ao posicionamento de sinais diretos e ambiente. Distingue-se entre a “abordagem direta/ambiente” e a abordagem "na banda". Ocomponente nuclear das técnicas baseadas em direto/ambiente é a extração de um sinal ambiente que é alimentado por ex. para os canais traseiros ou os canais de altura de uma configuração de som surround multicanal. A reprodução de ambiente usando os canais traseiros ou de altura evoca uma impressão de envolvimento (a ficar "imerso no som") pelo ouvinte.Adicionalmente, as fontes de som diretas podem ser distribuídas por entre os canais frontais de acordo com a sua posição percecionada no panorama estéreo. Em contrapartida, a abordagem "na banda" pretende posicionar todos os sons (som direto e também os sons ambiente) à volta do ouvinte usando todos os altifalantes disponíveis.[009] Advanced upmixing methods regarding the positioning of direct signals and environment can be further categorized. It distinguishes between the “direct/environmental approach” and the “in-band” approach. The core component of live/ambient based techniques is the extraction of an ambient signal that is powered by eg. for the rear channels or the height channels of a multi-channel surround sound setup. Ambient reproduction using the rear or height channels evokes an impression of involvement (becoming "immersed in the sound") by the listener. Additionally, direct sound sources can be distributed across the front channels according to their perceived position in stereo panorama. In contrast, the "in band" approach aims to position all sounds (direct sound as well as ambient sounds) around the listener using all available speakers.

[010] Decompor um sinal de áudio em sinais diretos e ambiente tambémpermite a modificação separada dos sons ambiente ou sons diretos, por ex. escalonando ou filtrando-os. Um caso de utilização é o processamento de um registo de um desempenho musical que foi captado com uma quantidade demasiado alta de som ambiente. Outro caso de utilização é a produção de áudio (por ex. para o som ou música de filmes), em que estão combinados os sinais de áudio captados em diferentes locais e, por isso, com diferentes características de som ambiente.[010] Decomposing an audio signal into direct and ambient signals also allows the separate modification of ambient sounds or direct sounds, eg. scaling or filtering them. A use case is processing a recording of a musical performance that was captured with too high an amount of ambient sound. Another use case is audio production (eg for movie sound or music), in which the audio signals captured at different locations are combined and therefore with different ambient sound characteristics.

[011] Em qualquer caso, os requisitos para esse processamento de sinalsão conseguir uma alta separação e, ao mesmo tempo, manter uma alta qualidade de som para um número arbitrário de sinais do canal de entrada e para todas as possíveis características do sinal de entrada.[011] In any case, the requirements for such signal processing are to achieve a high separation and at the same time maintain a high sound quality for an arbitrary number of input channel signals and for all possible input signal characteristics .

[012] Foram fornecidas várias abordagens na técnica anterior para DADou para atenuar ou impulsionar tanto os componentes de sinal direto ou os componentes de sinal ambiente, que serão brevemente resumidas a seguir.[012] Various approaches have been provided in the prior art for DADou to attenuate or boost either the direct signal components or the ambient signal components, which will be briefly summarized below.

[013] Há conhecidos conceitos que se referem ao processamento desinais de fala com o objetivo de remover ruído de fundo indesejado dos registos de microfone.[013] There are known concepts that refer to speech signal processing in order to remove unwanted background noise from microphone recordings.

[014] Um método para atenuar a reverberação dos registos de fala quetem dois canais de entrada é descrito em [1]. Os componentes do sinal de reverberação são reduzidos pela atenuação dos componentes de sinal não correlacionados (ou difusos) no sinal de entrada. O processamento é implementado no domínio da frequência de tempo, de modo a que os sinais de sub-banda são processados através de um método de ponderação espectral. Os fatores de ponderação reais são computorizados usando as densidades espectrais de potência (PSD)

Figure img0001
[014] A method to attenuate the reverberation of speech registers that have two input channels is described in [1]. Reverb signal components are reduced by attenuating uncorrelated (or diffuse) signal components in the input signal. Processing is implemented in the time frequency domain, so that subband signals are processed using a spectral weighting method. Actual weighting factors are computed using spectral power densities (PSD)
Figure img0001

[015] em que X(m,k) e Y(m,k) são representações do domínio dafrequência de tempo dos sinais de entrada do domínio do tempo xt[n] e yt[n], Ef} é a operação de expectação e X* é o conjugado complexo de X.[015] where X(m,k) and Y(m,k) are time frequency domain representations of the time domain input signals xt[n] and yt[n], Ef} is the expect operation and X* is the complex conjugate of X.

[016] Os autores originais destacam que as diferentes funções deponderação espectrais são viáveis quando proporcionais a *A<y(m,k), por ex. quando se usam pesos iguais à função normalizada de correlação cruzada (ou função coerente)

Figure img0002
[016] The original authors emphasize that the different spectral weighting functions are viable when proportional to *A<y(m,k), eg. when using weights equal to the normalized cross-correlation function (or coherent function)
Figure img0002

[017] Seguindo uma lógica similar, a descrição do método em [2] extrai umsinal ambiente usando a ponderação espectral com pesos derivados da função normalizada de correlação cruzada computorizada em bandas de frequência, seg Fórmula (4) (ou com as palavras dos autores originais, a "função de coerência de curto prazo intercanal"). A diferença comparada com [1] consiste no facto de, em vez de atenuar os componentes de sinal difuso, atenuam-se os componentes de sinal direto usando os pesos espectrais que são uma função pronta monotónica de ( 1 - p(m, k)).[017] Following a similar logic, the method description in [2] extracts an ambient signal using spectral weighting with weights derived from the normalized computerized cross-correlation function in frequency bands, according to Formula (4) (or with the authors' words originals, the "interchannel short-term coherence function"). The difference compared to [1] is that instead of attenuating the diffuse signal components, we attenuate the direct signal components using the spectral weights which are a monotonic ready function of ( 1 - p(m, k) ).

[018] A decomposição para a aplicação da mistura para cima de sinais deentrada com dois canais usando a filtração Wiener multicanal foi descrita em [3]. O processamento é realizado no domínio da frequência de tempo. O sinal de entrada é modelado como mistura do sinal ambiente e uma fonte ativa de fonte direta (por banda de frequência), em que o sinal direto em um canal é restringido para ser uma cópia escalonada do componente de sinal direto no segundo canal, isto é o balanço de amplitude. O coeficiente de balanço e as potências do sinal direto e sinal ambiente são estimados usando a correlação normalizada de correlação cruzada e as potências do sinal de entrada em ambos os canais. O sinal de saída direto e os sinais de saída ambiente são derivados das combinações lineares dos sinais de entrada, com coeficientes de ponderação de valor real. É aplicado um pós-escalonamento adicional, de modo a que a potência dos sinais de saída igualem as quantidades estimadas.[018] The decomposition for the application of up-mixing of two-channel input signals using multi-channel Wiener filtration was described in [3]. Processing is performed in the time frequency domain. The input signal is modeled as a mixture of the ambient signal and a direct source active source (by frequency band), where the direct signal on one channel is constrained to be a scaled copy of the direct signal component on the second channel. is the amplitude balance. The balance coefficient and the direct signal and ambient signal strengths are estimated using the normalized cross-correlation correlation and the input signal strengths in both channels. The direct output signal and ambient output signals are derived from linear combinations of the input signals, with real value weighting coefficients. Additional postscaling is applied so that the power of the output signals equals the estimated quantities.

[019] O método descrito em [4] extrai um sinal ambiente que usa aponderação espectral, com base em uma estimativa da potência ambiente. A potência ambiente é estimada com base nos pressupostos de que os componentes de sinal direto em ambos os canais estão completamente correlacionados, de que os sinais do canal ambiente não estão correlacionados entre si e com os sinais diretos, e de que as potências ambiente em ambos os canais são iguais.[019] The method described in [4] extracts an ambient signal that uses spectral weighting, based on an estimate of the ambient power. The ambient power is estimated based on the assumptions that the forward signal components on both channels are fully correlated, that the ambient channel signals are uncorrelated with each other and with the forward signals, and that the ambient powers on both the channels are the same.

[020] Um método para upmixing os sinais de estéreo que se baseia naCodificação de Áudio Direcional (DirAC) é descrito em [5]. DirAC pretende analisar e reproduzir a direção de chegada, a difusão e o espectro do campo sonoro. Para upmixing os sinais de entrada de estéreo, são simulados registos de formato B anecoicos dos sinais de entrada.[020] A method for upmixing stereo signals that is based on Directional Audio Coding (DirAC) is described in [5]. DirAC intends to analyze and reproduce the direction of arrival, diffusion and spectrum of the sound field. For upmixing the stereo input signals, anechoic format B registers of the input signals are simulated.

[021] Um método para extrair a reverberação não correlacionada a partirdo sinal de áudio de estéreo, que usa um algoritmo de filtro adaptativo, que pretende prever o componente de sinal direto em um sinal de canal usando o outro sinal do canal através de um algoritmo Quadrático Médio Mínimo (LMS), é descrito em [6]. Subsequentemente os sinais ambiente são derivados pela subtração dos sinais diretos estimados a partir dos sinais de entrada. A lógica desta abordagem é que a previsão funciona apenas para sinais correlacionado e que o erro de previsão é parecido com o sinal não correlacionado. Existem e são viáveis vários algoritmos de filtro adaptativo com base no princípio LMS, como por ex. o algoritmo LMS ou o algoritmo Normalizado LMS (NLMS).[021] A method for extracting uncorrelated reverb from stereo audio signal, which uses an adaptive filter algorithm, which intends to predict the direct signal component in one channel signal using the other channel signal through an algorithm Minimum Mean Square (LMS), is described in [6]. Subsequently the ambient signals are derived by subtracting the estimated direct signals from the input signals. The logic of this approach is that the prediction only works for correlated signals and that the prediction error is similar to the uncorrelated signal. Several adaptive filter algorithms based on the LMS principle exist and are feasible, eg. the LMS algorithm or the Normalized LMS algorithm (NLMS).

[022] Para a decomposição dos sinais de entrada com mais de doiscanais, é descrito um método em [7] em que os sinais multicanal são primeiramente downmixed para obter um sinal de estéreo de 2 canais e subsequentemente é aplicado um método para processar sinais de entrada de estéreo apresentados em [3].[022] For the decomposition of input signals with more than two channels, a method is described in [7] in which the multi-channel signals are first downmixed to obtain a 2-channel stereo signal and subsequently a method for processing signals is applied. stereo input presented in [3].

[023] Para processar os sinais de mono, o método descrito em [8] extraium sinal ambiente usando a ponderação espectral, em que os pesos espectrais são computorizados usando uma extração característica e uma aprendizagem supervisionada.[023] To process mono signals, the method described in [8] extracts an ambient signal using spectral weighting, in which spectral weights are computed using characteristic extraction and supervised learning.

[024] Outro método para extrair um sinal ambiente a partir dos registos demono para a aplicação da mistura para cima obtém a representação do domínio da frequência do tempo a partir da diferença da representação do domínio da frequência do tempo do sinal de entrada e uma versão comprimida disso, preferencialmente computorizada usando a fatorização de matriz não negativa [9].[024] Another method for extracting an ambient signal from the demon registers for applying up-mix obtains the time frequency domain representation from the difference of the time frequency domain representation of the input signal and a version compressed from this, preferably computerized using non-negative matrix factorization [9].

[025] Um método para extrair e mudar os componentes de sinalreverberantes em um sinal de áudio com base na estimativa da função de transferência de magnitude do sistema reverberante que criou o sinal reverberante é descrito em [10]. Uma estimativa das magnitudes da representação do domínio da frequência dos componentes do sinal é derivada através da filtração recursiva e pode ser modificada.[025] A method for extracting and changing the reverberant signal components in an audio signal based on estimating the magnitude transfer function of the reverberant system that created the reverberant signal is described in [10]. An estimate of the magnitudes of the frequency domain representation of the signal components is derived through recursive filtering and can be modified.

[026] O objetivo da presente invenção é fornecer conceitos melhoradospara a decomposição do ambiente direto multicanal para o processamento do sinal de áudio. O objetivo da presente invenção é conseguido por um aparelho de acordo com a reivindicação 1, por um método de acordo com areivindicação 14 e por um programa de computador de acordo com areivindicação 15.[026] The objective of the present invention is to provide improved concepts for the decomposition of the multichannel direct environment for the processing of the audio signal. The object of the present invention is achieved by an apparatus according to claim 1, by a method according to claim 14 and by a computer program according to claim 15.

[027] É fornecido um aparelho para criar um ou mais sinais do canal desaída de áudio dependendo de dois ou mais sinais do canal de entrada de áudio. Cada um dos dois ou mais sinais do canal de entrada de áudio compreende partes do sinal direto e partes do sinal ambiente. O aparelho compreende uma unidade de determinação do filtro para determinar um filtro através da estimativa de uma primeira informação da densidade espectral de potência e da estimativa de uma segunda informação da densidade espectral de potência. Além disso, o aparelho compreende um processador de sinal para criar um ou mais sinais do canal de saída de áudio aplicando o filtro nos dois ou mais sinais do canal de entrada de áudio. A primeira informação da densidade espectral de potência indica informação da densidade espectral de potência sobre os dois ou mais sinais do canal de entrada de áudio, e a segunda informação da densidade espectral de potência indica informação da densidade espectral de potência sobre as partes do sinal ambiente dos dois ou mais sinais do canal de entrada de áudio. Ou, a primeira informação da densidade espectral de potência indica a informação da densidade espectral de potência sobre os dois ou mais sinais do canal de entrada de áudio, e a segunda informação da densidade espectral de potência indica informação da densidade espectral de potência sobre as partes do sinal direto dos dois ou mais sinais do canal de entrada de áudio. Ou, a primeira informação da densidade espectral de potência indica a informação da densidade espectral de potência sobre as partes de sinal direto dos dois ou mais sinais do canal de entrada de áudio, e a segunda informação da densidade espectral de potência indica informação da densidade espectral de potência sobre as partes do sinal ambiente dos dois ou mais sinais do canal de entrada de áudio.[027] A device is provided to create one or more audio output channel signals depending on two or more audio input channel signals. Each of the two or more audio input channel signals comprises parts of the direct signal and parts of the ambient signal. The apparatus comprises a filter determination unit for determining a filter by estimating a first power spectral density information and estimating a second power spectral density information. Furthermore, the apparatus comprises a signal processor for creating one or more audio output channel signals by applying the filter to the two or more audio input channel signals. The first power spectral density information indicates power spectral density information about the two or more audio input channel signals, and the second power spectral density information indicates power spectral density information about the parts of the ambient signal. of the two or more audio input channel signals. Or, the first power spectral density information indicates power spectral density information about the two or more audio input channel signals, and the second power spectral density information indicates power spectral density information about the parts. of the direct signal from the two or more audio input channel signals. Or, the first power spectral density information indicates power spectral density information about the direct signal portions of the two or more audio input channel signals, and the second power spectral density information indicates spectral density information of power on the ambient signal parts of the two or more audio input channel signals.

[028] Os modelos fornecem conceitos para a decomposição de sinais deentrada de áudio em componentes de sinal direto e componentes de sinal ambiente, que podem ser aplicados à pós-produção e reprodução sonora. O principal desafio para esse processamento de sinal é conseguir uma alta separação, ao mesmo tempo que mantém uma alta qualidade de som para um número arbitrário de sinais do canal de entrada e para todas as possíveis características do sinal de entrada. Os conceitos fornecidos baseiam-se no processamento do sinal multicanal no domínio da frequência do tempo que leva a uma solução otimizada restrita no sentido do erro quadrático médio, e, por ex. sujeito a restrições na distorção dos sinais desejados estimados ou na redução da interferência residual.[028] The models provide concepts for the decomposition of audio input signals into direct signal components and ambient signal components, which can be applied to post-production and sound reproduction. The main challenge for this signal processing is to achieve high separation while maintaining high sound quality for an arbitrary number of input channel signals and for all possible input signal characteristics. The concepts provided are based on multichannel signal processing in the frequency domain of time which leads to an optimized solution constrained in the direction of the mean squared error, and e.g. subject to restrictions on the distortion of the estimated desired signals or on the reduction of residual interference.

[029] São fornecidos modelos para decompor sinais de entrada de áudioem componentes de sinais diretos e componentes de sinal ambiente. Além disso, é fornecida uma derivação de filtros para computorizar os componentes do sinal ambiente e, além isso, são descritos modelos para as aplicações dos filtros.[029] Templates for decomposing audio input signals into direct signal components and ambient signal components are provided. In addition, a derivation of filters is provided to computerize the components of the ambient signal and, in addition, models for filter applications are described.

[030] Alguns modelos referem-se à mistura para cima não guiada deacordo com a abordagem direta/ambiente com sinais de entrada com mais do que um canal.[030] Some models refer to unguided up-mix according to the direct/ambient approach with input signals with more than one channel.

[031] Para as aplicações previstas da decomposição descrita, uma estáinteressada em computorizar sinais de saída com o mesmo número de canais do sinal de entrada. Para esta aplicação, os modelos fornecem resultados muito bons em termos de separação e qualidade de som porque suportam sinais de entrada em que os sinais diretos são temporalmente atrasados entre os canais de entrada. Ao contrário de outros conceitos, por ex. os conceitos fornecidos em [3], os modelos não assumem que os sons diretos nos sinais de entrada são balançados pelo simples escalonamento (balanço de amplitude), mas também pela introdução de diferenças de tempo entre os sinais diretos em cada canal.[031] For the foreseen applications of the described decomposition, one is interested in computing output signals with the same number of channels as the input signal. For this application, the models provide very good results in terms of separation and sound quality because they support input signals where direct signals are temporally delayed between input channels. Unlike other concepts, eg. In the concepts given in [3], the models do not assume that the direct sounds in the input signals are balanced by simple scaling (amplitude balance), but also by introducing time differences between the direct signals in each channel.

[032] Além disso, os modelos são capazes de operar um sinal de entradacom um número arbitrário de canais, ao contrário de todos os outros conceitos na técnica anterior (ver acima) que apenas conseguem processar sinais de entrada com um ou dois canais.[032] Furthermore, the models are capable of operating an input signal with an arbitrary number of channels, unlike all other concepts in the prior art (see above) that can only process input signals with one or two channels.

[033] Outras vantagens de modelos são a utilização de parâmetros decontrolo, a estimativa da matriz PSD ambiente e outras modificações do filtro conforme descrito abaixo.[033] Other advantages of models are the use of control parameters, estimation of the ambient PSD matrix and other filter modifications as described below.

[034] Alguns modelos fornecem sons ambiente consistentes para todos osobjetos de som de entrada. Quando os sinais de entrada são decompostos em sons diretos e ambiente, alguns modelos adaptam as características do som ambiente através do processamento do sinal de áudio apropriado, e outros modelos substituem os componentes do sinal ambiente através de uma reverberação artificial e outros sons ambiente artificiais.[034] Some models provide consistent ambient sounds for all input sound objects. When input signals are decomposed into direct and ambient sounds, some models adapt the ambient sound characteristics by processing the appropriate audio signal, and other models substitute the ambient signal components through artificial reverberation and other artificial ambient sounds.

[035] De acordo com um modelo, o aparelho pode ainda compreender umbanco de filtro de análise que é configurado para transformar os dois ou mais sinais do canal de entrada de áudio de um domínio do tempo em um domínio da frequência do tempo. A unidade de determinação do filtro pode estar configurada para determinar o filtro através da estimativa da primeira informação da densidade espectral de potência e da segunda informação da densidade espectral de potência dependendo dos sinais do canal de entrada de áudio, que é representada no domínio da frequência de tempo. O processador do sinal pode ser configurado para criar um ou mais sinais do canal de saída de áudio, que é representado em um domínio da frequência do tempo, aplicando o filtro em dois ou mais sinais do canal de entrada de áudio, que é representado no domínio da frequência de tempo. Além disso, o aparelho pode ainda compreender um filtro de banco de síntese que é configurado para transformar um ou mais sinais do canal de saída de áudio, que é representado em um domínio da frequência de tempo, do domínio da frequência de tempo no domínio do tempo.[035] According to a model, the apparatus may further comprise an analysis filter bank that is configured to transform the two or more audio input channel signals from a time domain into a time frequency domain. The filter determining unit can be configured to determine the filter by estimating the first power spectral density information and the second power spectral density information depending on the signals of the audio input channel, which is represented in the frequency domain. of time. The signal processor can be configured to create one or more signals from the audio output channel, which is represented in a time frequency domain, by applying the filter to two or more signals from the audio input channel, which is represented in the time frequency domain. In addition, the apparatus may further comprise a synthesis bank filter which is configured to transform one or more signals from the audio output channel, which is represented in a time frequency domain, from the time frequency domain into the audio domain. time.

[036] É ainda fornecido um método para criar um ou mais sinais do canalde saída de áudio dependendo de dois ou mais sinais do canal de entrada de áudio. Cada um dos dois ou mais sinais do canal de entrada de áudio compreende partes do sinal direto e partes do sinal ambiente. O método compreende:[036] A method for creating one or more audio output channel signals depending on two or more audio input channel signals is further provided. Each of the two or more audio input channel signals comprises parts of the direct signal and parts of the ambient signal. The method comprises:

[037] - determinar um filtro através da estimativa de uma primeirainformação da densidade espectral de potência e da estimativa de uma segunda informação da densidade espectral de potência. E:[037] - determine a filter by estimating a first information of the power spectral density and estimating a second information of the power spectral density. AND:

[038] - criar um ou mais sinais do canal de saída de áudio aplicando o filtronos dois ou mais sinais do canal de entrada de áudio.[038] - Create one or more audio output channel signals by applying the filter to two or more audio input channel signals.

[039] A primeira informação da densidade espectral de potência indicainformação da densidade espectral de potência sobre os dois ou mais sinais do canal de entrada de áudio, e a segunda informação da densidade espectral de potência indica informação da densidade espectral de potência sobre as partes do sinal ambiente dos dois ou mais sinais do canal de entrada de áudio. Ou, a primeira informação da densidade espectral de potência indica a informação da densidade espectral de potência sobre os dois ou mais sinais do canal de entrada de áudio, e a segunda informação da densidade espectral de potência indica informação da densidade espectral de potência sobre as partes do sinal direto dos dois ou mais sinais do canal de entrada de áudio. Ou, a primeira informação da densidade espectral de potência indica a informação da densidade espectral de potência sobre as partes de sinal direto dos dois ou mais sinais do canal de entrada de áudio, e a segunda informação da densidade espectral de potência indica informação da densidade espectral de potência sobre as partes do sinal ambiente dos dois ou mais sinais do canal de entrada de áudio.[039] The first power spectral density information indicates power spectral density information about the two or more audio input channel signals, and the second power spectral density information indicates power spectral density information about the parts of the ambient signal of the two or more signals of the audio input channel. Or, the first power spectral density information indicates power spectral density information about the two or more audio input channel signals, and the second power spectral density information indicates power spectral density information about the parts. of the direct signal from the two or more audio input channel signals. Or, the first power spectral density information indicates power spectral density information about the direct signal portions of the two or more audio input channel signals, and the second power spectral density information indicates spectral density information of power on the ambient signal parts of the two or more audio input channel signals.

[040] Além disso, é fornecido um programa de computador paraimplementar o método acima descrito quando é executado em um computador ou em um processador de sinal.[040] In addition, a computer program is provided to implement the above-described method when running on a computer or on a signal processor.

[041] Passamos a descrever modelos da presente invenção em pormenor,fazendo referência às figuras, nas quais:[041] We will describe models of the present invention in detail, referring to the figures, in which:

[042] A Fig. 1 ilustra um aparelho para criar um ou mais sinais do canal desaída de áudio dependendo de dois ou mais sinais do canal de entrada de áudio de acordo com um modelo,[042] Fig. 1 illustrates an apparatus for creating one or more audio output channel signals depending on two or more audio input channel signals according to a model,

[043] a Fig. 2 ilustra sinais de entrada e de saída da decomposição de umregisto de 5 canais de música clássica, com sinais de entrada (coluna esquerda), sinais de saída ambiente (coluna central) e sinais de saída diretos (coluna direita) de acordo com um modelo,[043] Fig. 2 illustrates input and output signals from the decomposition of a 5-channel classical music record, with input signals (left column), ambient output signals (center column) and direct output signals (right column ) according to a template,

[044] a Fig. 3 apresenta uma vista geral básica da decomposição usandoa estimativa do sinal ambiente e a estimativa do sinal direto de acordo com um modelo,[044] Fig. 3 presents a basic overview of the decomposition using the estimation of the ambient signal and the estimation of the direct signal according to a model,

[045] a Fig. 4 mostra uma vista geral básica da decomposição usando aestimativa do sinal direta de acordo com um modelo,[045] Fig. 4 shows a basic overview of the decomposition using the estimation of the direct signal according to a model,

[046] a Fig. 5 ilustra uma vista geral básica da decomposição usando aestimativa do sinal ambiente de acordo com um modelo,[046] Fig. 5 illustrates a basic overview of the decomposition using the estimation of the ambient signal according to a model,

[047] a Fig. 6a ilustra um aparelho de acordo com outro modelo, em que oaparelho compreende ainda um banco de filtro de análise e um banco de filtro de síntese, e[047] Fig. 6a illustrates an apparatus according to another model, in which the apparatus further comprises an analysis filter bank and a synthesis filter bank, and

[048] a Fig. 6b apresenta um aparelho de acordo com outro modelo, queilustra a extração dos componentes do sinal direto, em que o bloco AFB é um conjunto de N bancos de filtros de análise (um para cada canal), e em que SFB é um conjunto de filtros de bancos de síntese.[048] Fig. 6b presents a device according to another model, which illustrates the extraction of direct signal components, in which the AFB block is a set of N analysis filter banks (one for each channel), and in which SFB is a set of synthesis bank filters.

[049] A Fig. 1 ilustra um aparelho para criar um ou mais sinais do canal desaída de áudio dependendo de dois ou mais sinais do canal de entrada de áudio de acordo com um modelo. Cada um dos dois ou mais sinais do canal de entrada de áudio compreende partes do sinal direto e partes do sinal ambiente.[049] Fig. 1 illustrates an apparatus for creating one or more audio output channel signals depending on two or more audio input channel signals according to a model. Each of the two or more audio input channel signals comprises parts of the direct signal and parts of the ambient signal.

[050] O aparelho compreende uma unidade de determinação do filtro 110para determinar um filtro através da estimativa de uma primeira informação da densidade espectral de potência e da estimativa de uma segunda informação da densidade espectral de potência.[050] The apparatus comprises a filter determination unit 110 for determining a filter by estimating a first power spectral density information and estimating a second power spectral density information.

[051] Além disso, o aparelho compreende um processador de sinal 120para criar um ou mais sinais do canal de saída de áudio aplicando o filtro nos dois ou mais sinais do canal de entrada de áudio.[051] Furthermore, the apparatus comprises a signal processor 120 for creating one or more audio output channel signals by applying the filter to the two or more audio input channel signals.

[052] A primeira informação da densidade espectral de potência indicainformação da densidade espectral de potência sobre os dois ou mais sinais do canal de entrada de áudio, e a segunda informação da densidade espectral de potência indica informação da densidade espectral de potência sobre as partes do sinal ambiente dos dois ou mais sinais do canal de entrada de áudio.[052] The first power spectral density information indicates power spectral density information about the two or more audio input channel signals, and the second power spectral density information indicates power spectral density information about the parts of the ambient signal of the two or more signals of the audio input channel.

[053] Ou, a primeira informação da densidade espectral de potência indicaa informação da densidade espectral de potência sobre os dois ou mais sinais do canal de entrada de áudio, e a segunda informação da densidade espectral de potência indica informação da densidade espectral de potência sobre as partes do sinal direto dos dois ou mais sinais do canal de entrada de áudio.[053] Or, the first power spectral density information indicates power spectral density information about the two or more audio input channel signals, and the second power spectral density information indicates power spectral density information about the direct signal parts of the two or more audio input channel signals.

[054] Ou, a primeira informação da densidade espectral de potência indicaa informação da densidade espectral de potência sobre as partes de sinal direto dos dois ou mais sinais do canal de entrada de áudio, e a segunda informação da densidade espectral de potência indica informação da densidade espectral de potência sobre as partes do sinal ambiente dos dois ou mais sinais do canal de entrada de áudio.[054] Or, the first power spectral density information indicates power spectral density information about the direct signal portions of the two or more audio input channel signals, and the second power spectral density information indicates power spectral density information. power spectral density on the ambient signal parts of the two or more audio input channel signals.

[055] São descritos modelos que fornecem conceitos para adecomposição de sinais de entrada de áudio em componentes de sinal direto e componentes de sinal ambiente, que podem ser aplicados à pós-produção e reprodução sonora. O principal desafio para esse processamento de sinal é conseguir uma alta separação e, ao mesmo tempo, manter uma alta qualidade de som para um número arbitrário de sinais do canal de entrada e para todas as possíveis características do sinal de entrada. Os modelos fornecidos baseiam-se no processamento do sinal multicanal no domínio da frequência do tempo e fornecem uma solução otimizada no sentido do erro quadrático médio sujeita a restrições na distorção dos sinais desejados estimados ou na redução da interferência residual.[055] Models are described that provide concepts for the decomposition of audio input signals into direct signal components and ambient signal components, which can be applied to post-production and sound reproduction. The main challenge for this signal processing is to achieve high separation while maintaining high sound quality for an arbitrary number of input channel signals and for all possible input signal characteristics. The models provided are based on multichannel signal processing in the time frequency domain and provide an optimized solution in the direction of the mean square error subject to restrictions on the distortion of the estimated desired signals or on the reduction of residual interference.

[056] Em primeiro lugar descrevem-se conceitos inventivos, nos quais sebaseiam os modelos da presente invenção.[056] Firstly, inventive concepts are described, on which the models of the present invention are based.

[057] Presume-se que são recebidos N sinais do canal de entrada yt[n]:[057] It is assumed that N signals are received from the input channel yt[n]:

[058]

Figure img0003
[058]
Figure img0003

[059] Por exemplo, N ≥ 2. O objetivo dos conceitos fornecidos é decomporos sinais do canal de entrada y1[n] ... yN[n] ( = [yt[n]]T ) em N componentes dosinal direto representados por dt[n] = [d1[n] ... dN[n]]T e/ou N componentes dosinal ambiente representados por at[n] = [a1[n] ... aN[n]]T. O processamentopode ser aplicado a todos os canais de entrada ou os canais do sinal deentrada são divididos em subconjuntos de canais que são processados à parte.[059] For example, N ≥ 2. The purpose of the given concepts is to decompose the input channel signals y1[n] ... yN[n] ( = [yt[n]]T ) into N direct signal components represented by dt[n] = [d1[n] ... dN[n]]T and/or N components of the ambient signal represented by t[n] = [a1[n] ... aN[n]]T. Processing can be applied to all input channels or the input signal channels are divided into subsets of channels that are processed separately.

[060] De acordo com alguns modelos, um ou mais dos componentes dosinal direto d1[n], ..., dN[n] e/ou um ou mais dos componentes do sinal ambientea1[n], ..., aN[n] devem ser estimados a partir dum ou mais sinais do canal deentrada y1[n], ..., yN[n] para obter uma ou mais estimativas

Figure img0004
Figure img0005
dos componentes do sinal direto d1[n], ..., dN[n] e/ou doscomponentes do sinal ambiente a1[n], ..., aN[n] como um ou mais sinais docanal de saída.[060] According to some models, one or more of the direct signal components d1[n], ..., dN[n] and/or one or more of the ambient signal components a1[n], ..., aN[ n] must be estimated from one or more signals of the input channel y1[n], ..., yN[n] to obtain one or more estimates
Figure img0004
Figure img0005
of the direct signal components d1[n], ..., dN[n] and/or of the ambient signal components a1[n], ..., aN[n] as one or more output channel signals.

[061] Um exemplo das saídas fornecidas de alguns modelos éapresentado na Fig. 2, para N = 5. Um ou mais sinais do canal de saída

Figure img0006
são obtidos pelaestimativa dos componentes do sinal direto e dos componentes do sinal ambiente independentemente, conforme é apresentado na Fig. 3. Em alternativa, uma estimativa (dz [ n ] ou a t [ n ]) para um dos dois sinais (seja d t [ n ] ou at[n]) é computorizada e o outro sinal é obtido pela subtração do primeiro resultado a partir do sinal de entrada. A Fig. 4 ilustra o processamento para estimar os componentes do sinal direto dt[n] primeiramente e derivar os componentes do sinal ambiente at[n] pela subtração da estimativa dos sinais diretos a partir do sinal de entrada. Com uma lógica similar, a estimativa dos componentes do sinal ambiente pode ser derivada primeiramente conforme ilustrado no diagrama de bloco na Fig. 5.[061] An example of the outputs provided by some models is shown in Fig. 2, for N = 5. One or more signals from the output channel
Figure img0006
are obtained by estimating the direct signal components and the ambient signal components independently, as shown in Fig. 3. Alternatively, an estimate (dz [ n ] or t [ n ]) for one of the two signals (let dt [ n ] ] or at[n]) is computed and the other sign is obtained by subtracting the first result from the input signal. Fig. 4 illustrates the processing to estimate the direct signal components dt[n] first and derive the ambient signal components at[n] by subtracting the estimate of the direct signals from the input signal. With similar logic, the estimation of the ambient signal components can be derived first as illustrated in the block diagram in Fig. 5.

[062] De acordo com os modelos, o processamento pode, por exemplo,ser realizado no domínio da frequência do tempo. Uma representação do domínio da frequência do tempo do sinal de áudio de entrada pode, por exemplo, ser obtida através de um banco de filtro (o banco de filtro de análise), por ex. a transformada de Fourier a Curto Prazo (STFT).[062] According to the models, the processing can, for example, be performed in the time frequency domain. A time-frequency domain representation of the input audio signal can, for example, be obtained via a filter bank (the analysis filter bank), e.g. the Short Term Fourier Transform (STFT).

[063] De acordo com um modelo ilustrado pela Fig. 6a, um filtro de bancode análise 605 transforma os sinais do canal de entrada de áudio yt[n] a partir do domínio do tempo no domínio da frequência do tempo. Além disso, na Fig. 6a, um banco de filtro de síntese 625 transforma a estimativa dos componentes do sinal direto d[m,1],...,d[m, k] a partir do domínio da frequência do tempo no domínio do tempo, para obter os sinais do canal de saída de áudio

Figure img0007
[063] According to a model illustrated by Fig. 6a, an analysis bank filter 605 transforms the audio input channel signals yt[n] from the time domain into the time frequency domain. Furthermore, in Fig. 6a, a synthesis filterbank 625 transforms the estimate of the direct signal components d[m,1],...,d[m, k] from the time-frequency domain in the domain. of time, to get the signals from the audio output channel
Figure img0007

[064] No modelo da Fig. 6a, o banco de filtro de análise 605 estáconfigurado para transformar os dois ou mais sinais do canal de entrada de áudio de um domínio do tempo em um domínio da frequência do tempo. A unidade de determinação do filtro 110 está configurada para determinar o filtro através da estimativa da primeira informação da densidade espectral de potência e da segunda informação da densidade espectral de potência dependendo dos sinais do canal de entrada de áudio, que são representados no domínio da frequência de tempo. O processador do sinal 120 está configurado para criar um ou mais sinais do canal de saída de áudio, que são representados em um domínio da frequência do tempo, aplicando o filtro em dois ou mais sinais do canal de entrada de áudio, que são representados no domínio da frequência de tempo. O filtro de banco de síntese 625 está configurado para transformar um ou mais sinais do canal de saída de áudio, que são representados em um domínio da frequência de tempo, do domínio da frequência de tempo no domínio do tempo.[064] In the model of Fig. 6a, the analysis filter bank 605 is configured to transform the two or more audio input channel signals from a time domain into a time frequency domain. The filter determining unit 110 is configured to determine the filter by estimating the first power spectral density information and the second power spectral density information depending on the audio input channel signals, which are represented in the frequency domain. of time. Signal processor 120 is configured to create one or more audio output channel signals, which are represented in a time frequency domain, by applying the filter to two or more audio input channel signals, which are represented in the time frequency domain. Synthesis bank filter 625 is configured to transform one or more audio output channel signals, which are represented in a time frequency domain, from the time frequency domain into the time domain.

[065] Uma representação do domínio da frequência do tempo compreendeum determinado número de sinais de sub-banda que evoluem ao longo do tempo. As sub-bandas adjacentes podem opcionalmente ser linearmente combinadas em sinais de sub-bandas maiores para reduzir a complexidade computacional. Cada sub-banda dos sinais de entrada é separadamente processada, conforme descrito em detalhe a seguir. Os sinais de saída do domínio do tempo são obtidos através da aplicação do processamento inverso do banco de filtro, isto é, o filtro de banco de síntese, respectivamente. Todos os sinais têm presumivelmente uma média de zero, os sinais do domínio da frequência do tempo podem ser modelados como variáveis aleatórias complexas.[065] A time frequency domain representation comprises a certain number of subband signals that evolve over time. Adjacent subbands can optionally be linearly combined into larger subband signals to reduce computational complexity. Each subband of input signals is processed separately, as described in detail below. The time domain output signals are obtained by applying the inverse processing of the filter bank, ie, the synthesis bank filter, respectively. All signals presumably have a mean of zero, the time frequency domain signals can be modeled as complex random variables.

[066] De seguida, são fornecidas definições e pressupostos.[066] The following are definitions and assumptions.

[067] As seguintes definições são usadas ao longo de toda a descrição dométodo desenvolvido: A representação do domínio da frequência do tempo de um sinal de entrada multicanal com N canais é dada por

Figure img0008
[067] The following definitions are used throughout the description of the developed method: The time frequency domain representation of a multichannel input signal with N channels is given by
Figure img0008

[068] com índice de tempo m e índice de sub-banda k, k = 1 ... K epresume-se ser uma mistura aditiva do componente do sinal direto d(m, k) e do componente do sinal ambiente a(m, k),[068] with time index m and subband index k, k = 1 ... K is assumed to be an additive mixture of the direct signal component d(m, k) and the ambient signal component a(m, k),

[069] isto é

Figure img0009
[069] this is
Figure img0009

[070] com

Figure img0010
[070] with
Figure img0010

[071] em que Di(m,k) representa o componente direto e Ai(m,k) ocomponente ambiente no /.° canal.[071] where Di(m,k) represents the direct component and Ai(m,k) the ambient component in the /th channel.

[072] O objetivo da decomposição de ambiente direto é estimar d(m,k) ea(m,k). Os sinais de saída são computorizados usando as matrizes do filtro HD(m,k) ou HA(m,k) ou ambas. As matrizes do filtro são do tamanho N x N e são de valor complexo, ou podem, em alguns modelos, por ex. ser de valor real. Uma estimativa dos N sinais do canal de componentes de sinal direto e de componentes do sinal ambiente é obtida a partir de

Figure img0011
[072] The objective of direct environment decomposition is to estimate d(m,k) and ea(m,k). Output signals are computed using HD(m,k) or HA(m,k) filter matrices or both. Filter matrices are of size N x N and are of complex value, or they can, in some models, eg. be of real value. An estimate of the N channel signals of direct signal components and ambient signal components is obtained from
Figure img0011

[073] Em alternativa, pode ser usada apenas uma matriz do filtro, e asubtração ilustrada na Fig. 4 pode ser expressa assim

Figure img0012
[073] Alternatively, only one filter matrix can be used, and the subtraction illustrated in Fig. 4 can be expressed as such
Figure img0012

[074] em que I é a matriz de identidade do tamanho N x N, ou, como sepode ver na Fig. 5, assim

Figure img0013
[074] where I is the identity matrix of size N x N, or, as shown in Fig. 5, so
Figure img0013

[075] respectivamente. Aqui, o expoente H representa a transposiçãoconjugada de uma matriz ou um vetor. A matriz do filtro HD(m,k) é usada paracomputorizar estimativas para os sinais diretos d(m, k) . A matriz do filtroHA(m,k) é usada para computorizar estimativas para os sinais ambiente a(m,k).[075] respectively. Here, the exponent H represents the conjugate transposition of a matrix or a vector. The HD(m,k) filter matrix is used to computerize estimates for the direct signals d(m,k) . The filter matrix HA(m,k) is used to compute estimates for the ambient signals a(m,k).

[076] Acima, Fórmulas (10) - (15), y( m,k) indica dois ou mais sinais docanal de entrada de áudio. a(m,k) indica uma estimativa das partes do sinal ambiente e d(m, k) indica uma estimativa das partes do sinal direto dos sinais do canal de entrada de áudio, respectivamente. a(m,k) e/ou d(m,k) um ou mais componentes de vetor de a (m, k) e/ou d( m, k) pode ser de um ou mais sinais do canal de saída de áudio.[076] Above, Formulas (10) - (15), y( m,k) indicates two or more audio input channel signals. a(m,k) indicates an estimate of the ambient signal parts and d(m,k) indicates an estimate of the direct signal parts of the audio input channel signals, respectively. a(m,k) and/or d(m,k) One or more vector components of a(m,k) and/or d(m,k) can be from one or more audio output channel signals .

[077] Um, alguns ou todas as Fórmulas (10), (11), (12), (13), (14) e (15)podem ser empregues pelo processador de sinal 120 da Fig. 1 e da Fig. 6a para aplicar o filtro da Fig. 1 e da Fig. 6a nos sinais do canal de entrada de áudio. O filtro da Fig. 1 e Fig. 6a pode, por exemplo, ser HD(m,k), HA(m,k), HH(m,k), HH(m,k), [I - HD(m,k)] ou [I - HA(m,k)]. Em outros modelos, porém, o filtro, determinado pela unidade de determinação do filtro 110 e empregue pelo processador de sinal 120, não pode ser uma matriz mas pode ser outro tipo qualquer de filtro. Por exemplo, em outros modelos, o filtro pode compreender um ou mais vetores que definem o filtro. Em outros modelos, o filtro pode compreender vários coeficientes que definem o filtro.[077] One, some or all of Formulas (10), (11), (12), (13), (14) and (15) may be employed by the signal processor 120 of Fig. 1 and Fig. 6a to apply the filter of Fig. 1 and Fig. 6a to the audio input channel signals. The filter of Fig. 1 and Fig. 6a can, for example, be HD(m,k), HA(m,k), HH(m,k), HH(m,k), [I - HD(m ,k)] or [I - HA(m,k)]. In other designs, however, the filter, determined by filter determination unit 110 and employed by signal processor 120, cannot be a matrix but can be any other type of filter. For example, in other models, the filter may comprise one or more vectors that define the filter. In other models, the filter may comprise several coefficients that define the filter.

[078] As matrizes de filtração são computorizadas a partir de estimativasdas estatísticas do sinal conforme descrito abaixo.[078] The filtration matrices are computed from statistical estimates of the signal as described below.

[079] Em particular, a unidade de determinação do filtro 110 estáconfigurada para determinar o filtro através da estimativa da primeira informação da densidade espectral de potência (PSD) e da segunda informação PSD.[079] In particular, the filter determination unit 110 is configured to determine the filter by estimating the first power spectral density (PSD) information and the second PSD information.

[080] Define:

Figure img0014
[080] Defines:
Figure img0014

[081] em que Ef} é o operador de expectação e X* representa oconjugado complexo de X. É obtido para i = jo PSD e para i + j os PSDs cruzados.[081] where Ef} is the expectation operator and X* represents the complex conjugate of X. It is obtained for i = jo PSD and for i + j the crossed PSDs.

[082] As matrizes de covariância para y(m, k), d(m,k) e a(m,k) são

Figure img0015
[082] The covariance matrices for y(m,k), d(m,k) and a(m,k) are
Figure img0015

[083] As matrizes de covariância Φy(m,k), Φd(m,k) e Φa(m,k)compreendem estimativas do PSD para todos os canais na diagonal principal, enquanto os elementos fora da diagonal são estimativas do PSD cruzado dos respectivos sinais do canal. Assim sendo, cada uma das matrizes Φy(m,k), Φd(m,k) e Φa(m,k) representa uma estimativa da informação da densidade espectral de potência.[083] The covariance matrices Φy(m,k), Φd(m,k) and Φa(m,k) comprise PSD estimates for all channels on the main diagonal, while the off-diagonal elements are cross PSD estimates of the respective channel signals. Therefore, each of the matrices Φy(m,k), Φd(m,k) and Φa(m,k) represents an estimate of the power spectral density information.

[084] Nas Fórmulas (17) - (19), Φy(m,k) indica uma informação dadensidade espectral de potência sobre os dois ou mais sinais do canal de entrada de áudio. Φd(m,k) indica uma informação da densidade espectral de potência sobre os componentes de sinal direto dos dois ou mais sinais do canal de entrada de áudio. Φa(m,k) indica uma informação da densidade espectral de potência sobre os componentes de sinal ambiente dos dois ou mais sinais do canal de entrada de áudio.[084] In Formulas (17) - (19), Φy(m,k) indicates a power spectral density information about the two or more signals of the audio input channel. Φd(m,k) indicates power spectral density information about the direct signal components of the two or more audio input channel signals. Φa(m,k) indicates power spectral density information about the ambient signal components of the two or more audio input channel signals.

[085] Cada uma das matrizes Φy(m,k), Φd(m,k) e Φa(m,k) das Fórmulas(17), (18) e (19) pode ser considerada informação da densidade espectral de potência. No entanto, note-se que em outros modelos, a primeira e a segunda informação da densidade espectral de potência não é uma matriz, mas pode ser representada em qualquer outro tipo de formato adequado. Por exemplo, de acordo com modelos, a primeira e/ou a segunda informação da densidade espectral de potência pode ser representada como um ou mais vetores. Em outros modelos, a primeira e/ou a segunda informação da densidade espectral de potência pode ser representada como vários coeficientes.[085] Each of the matrices Φy(m,k), Φd(m,k) and Φa(m,k) of Formulas(17), (18) and (19) can be considered information of the power spectral density. However, note that in other models, the first and second power spectral density information is not a matrix, but can be represented in any other suitable format. For example, according to models, the first and/or second power spectral density information can be represented as one or more vectors. In other models, the first and/or second power spectral density information can be represented as several coefficients.

[086] Presume-se que[086] It is assumed that

[087] Di(m,k) e Ai(m,k) estão mutuamente não correlacionados:

Figure img0016
[087] Di(m,k) and Ai(m,k) are mutually uncorrelated:
Figure img0016

[088] Ai(m,k) e Aj(m,k) estão mutuamente não correlacionados:

Figure img0017
[088] Ai(m,k) and Aj(m,k) are mutually uncorrelated:
Figure img0017

[089] A potência ambiente é igual em todos os canais:

Figure img0018
[089] The ambient power is the same on all channels:
Figure img0018

[090] Como consequência, observa-se que

Figure img0019
[090] As a consequence, it is observed that
Figure img0019

[091] Como consequência da Fórmula (20) observa-se que quando sãodeterminadas duas matrizes das matrizes Φy(m,k), Φd(m,k) e Φa(m,k), a terceira das matrizes fica imediatamente disponível. Outra consequência é que basta determinar apenas:[091] As a consequence of Formula (20) it is observed that when two matrices of the matrices Φy(m,k), Φd(m,k) and Φa(m,k) are determined, the third of the matrices is immediately available. Another consequence is that just determine:

[092] - informação da densidade espectral de potência sobre dois ou maissinais do canal de entrada de áudio, e informação da densidade espectral de potência sobre partes do sinal ambiente dos dois ou mais sinais do canal de entrada de áudio, ou[092] - power spectral density information about two or more signals of the audio input channel, and power spectral density information about parts of the ambient signal of the two or more signals of the audio input channel, or

[093] - informação da densidade espectral de potência sobre dois ou maissinais do canal de entrada de áudio, e informação da densidade espectral de potência sobre partes do sinal direto dos dois ou mais sinais do canal de entrada de áudio, ou[093] - power spectral density information about two or more audio input channel signals, and power spectral density information about direct signal portions of the two or more audio input channel signals, or

[094] - informação da densidade espectral de potência sobre as partes dosinal direto dos dois ou mais sinais do canal de entrada de áudio, e informação da densidade espectral de potência sobre partes do sinal ambiente dos dois ou mais sinais do canal de entrada de áudio,[094] - power spectral density information about the direct signal parts of the two or more audio input channel signals, and power spectral density information about the ambient signal parts of the two or more audio input channel signals ,

[095] porque a terceira informação da densidade espectral de potência(que não foi estimada) se torna imediatamente evidente a partir da relação dos três tipos de informação da densidade espectral de potência (por ex., através da Fórmula (20) ou através de outra qualquer reformulação da relação dos três tipos de informação da densidade espectral de potência (PSD do sinal de entrada completo, PSD dos componentes ambiente e PSD dos componentes diretos), quando esses três tipos de informação PSD não são representados como matrizes, mas quando estão disponíveis noutro tipo de representação adequada, por ex., como um ou vários vetores, ou por ex. como uma série de coeficientes, etc.[095] because the third power spectral density information (which was not estimated) becomes immediately evident from the relationship of the three types of power spectral density information (eg, via Formula (20) or via another is any reformulation of the relationship of the three types of power spectral density information (full input signal PSD, ambient component PSD and direct component PSD), when these three types of PSD information are not represented as matrices, but when they are available in another suitable representation type, eg as one or several vectors, or eg as a series of coefficients, etc.

[096] Para avaliar o desempenho do método desenvolvido, são definidosos seguintes sinais:[096] To assess the performance of the developed method, the following signals are defined:

[001] Distorção do sinal direto:

Figure img0020
[001] Direct signal distortion:
Figure img0020

[002] Sinal ambiente residual:

Figure img0021
[002] Residual ambient signal:
Figure img0021

[003] Distorção do sinal ambiente:

Figure img0022
[003] Distortion of the ambient signal:
Figure img0022

[004] Sinal direto residual:

Figure img0023
[004] Residual direct signal:
Figure img0023

[097] De seguida, descreve-se a derivação das matrizes do filtro em baixode acordo com a Fig. 4 e de acordo com a Fig. 5. Para melhor legibilidade, os índices de sub-banda e os índices de tempo são descartados.[097] Next, the derivation of the filter matrices is described below, according to Fig. 4 and according to Fig. 5. For better readability, the sub-band indices and the time indices are discarded.

[098] Descreve-se, em primeiro lugar, os modelos para a estimativa doscomponentes de sinal direto.[098] Firstly, the models for the estimation of the direct signal components are described.

[099] A lógica do método desenvolvido é computorizar os filtros, de modoa que o sinal ambiente residual ra é minimizado enquanto restringe a distorção do sinal direto qd. Isto leva ao problema de otimização restrito

Figure img0024
[099] The logic of the developed method is to computerize the filters, so that the residual ambient signal ra is minimized while restricting the distortion of the direct signal qd. This leads to the constrained optimization problem.
Figure img0024

[100] em que admx é a distorção máxima do sinal direto permitida. Asolução é dada por

Figure img0025
[100] where admx is the maximum allowable direct signal distortion. The solution is given by
Figure img0025

[101] O filtro para computorizar o sinal de saída direto do i.° canal é igual a

Figure img0026
[101] The filter for computing the direct output signal of the 1st channel is equal to
Figure img0026

[102] em que ui é um vetor nulo do comprimento N com 1 na i.a posição. Oparâmetro βi permite um compromisso entre a redução do sinal ambiente residual e a distorção do sinal ambiente. Para o sistema apresentado na Fig. 4, os níveis mais baixos de ambiente residual no sinal de saída direto leva a níveis mais altos de ambiente nos sinais de saída do ambiente. Uma menor distorção do sinal direto leva a uma melhor atenuação dos componentes do sinal direto nos sinais de saída ambiente. O parâmetro dependente do tempo e da frequência βi pode ser definido à parte para cada canal e pode ser controlado pelos sinais de entrada ou sinais derivados daí; conforme descrito a abaixo.[102] where ui is a null vector of length N with 1 in the i.th position. The βi parameter allows a compromise between the reduction of the residual ambient signal and the distortion of the ambient signal. For the system shown in Fig. 4, lower levels of residual environment in the direct output signal lead to higher levels of environment in the output signals from the environment. Less distortion of the direct signal leads to better attenuation of direct signal components in ambient output signals. The time and frequency dependent parameter βi can be set separately for each channel and can be controlled by the input signals or signals derived therefrom; as described below.

[103] Note-se que uma solução similar pode ser obtida pela formulação doproblema de otimização restrito como

Figure img0027
[103] Note that a similar solution can be obtained by formulating the constrained optimization problem as
Figure img0027

[104] Quando Φd é do grau um, a relação entre admx e βi para o i° sinalde canal é derivada assim

Figure img0028
[104] When Φd is of degree one, the relation between admx and βi for the ith channel signal is derived like this
Figure img0028

[105] em que Φ^ é o PSD do sinal direto no i.° canal, e A é a relaçãodireto/ambiente multicanal (DAR)

Figure img0029
[105] where Φ^ is the PSD of the direct signal on the 1st channel, and A is the direct/multichannel environment ratio (DAR)
Figure img0029

[106] em que o traço de uma matriz quadrada A é igual à soma dosNelementos na diagonal principal,

Figure img0030
[106] where the trace of a square matrix A is equal to the sum of the elements on the main diagonal,
Figure img0030

[107] Note-se que a declaração de que Φd é do grau um é apenas umapresunção. Não importa se na realidade esta presunção é verdadeira ou não, os modelos da presente invenção empregam as Fórmulas acima (26), (27) e (28), mesmo em situações em que, na realidade, o resultado exato de Φd é tal que Φd não é de grau um. Nessas situações, os modelos da presente invenção também fornecem bons resultados, mesmo quando a presunção de que Φd é de grau um, não é, na realidade, verdadeira.[107] Note that the statement that Φd is of degree one is only a presumption. Whether in reality this presumption is true or not, the models of the present invention employ the above Formulas (26), (27) and (28), even in situations where, in reality, the exact result of Φd is such that Φd is not grade one. In these situations, the models of the present invention also provide good results, even when the presumption that Φd is grade one is not actually true.

[108] De seguida descreve-se uma estimativa dos componentes do sinalambiente.[108] An estimate of the components of the environmental signal is described below.

[109] A lógica do método desenvolvido é computorizar os filtros, de modoa que o sinal direto residual rd é minimizado enquanto restringe a distorção do sinal direto qa. Isto leva ao problema de otimização restrito

Figure img0031
[109] The logic of the developed method is to computerize the filters, so that the residual direct signal rd is minimized while restricting the distortion of the direct signal qa. This leads to the constrained optimization problem.
Figure img0031

[110] em que a^^ é a distorção máxima do sinal ambiente permitida. Asolução é dada por

Figure img0032
[110] where a^^ is the maximum allowable ambient signal distortion. The solution is given by
Figure img0032

[111] O filtro para computorizar o sinal de saída ambiente do i.° canal éigual a

Figure img0033
[111] The filter for computing the ambient output signal of the 1st channel is equal to
Figure img0033

[112] De seguida, fornecem-se modelos detalhados que realizamconceitos da presente invenção.[112] The following are detailed models that carry out the concepts of the present invention.

[113] Para determinar informação da densidade espectral de potência, porexemplo, a matriz PSD dos sinais do canal de entrada de áudio Φy pode ser estimada diretamente usando a média de movimento a curto prazo ou a média recursiva. Na matriz PDS ambiente Φa , pode, por exemplo, ser estimado conforme descrito abaixo. A matriz PSD direta Φd , pode, por exemplo, ser depois obtida usando a Fórmula (20).[113] To determine power spectral density information, for example, the PSD matrix of audio input channel signals Φy can be estimated directly using short-term motion averaging or recursive averaging. In the environment PDS matrix Φa , it can, for example, be estimated as described below. The direct PSD matrix Φd , for example, can then be obtained using Formula (20).

[114] De seguida, volta-se a presumir que não está ativa mais do que umafonte de som direta ao mesmo tempo em cada sub-banda (fonte direta única), e que consequentemente Φd é de grau um.[114] Next, it is again assumed that no more than one direct sound source is active at the same time in each subband (single direct source), and that consequently Φd is grade one.

[115] Note-se que as declarações de que não mais do que uma fonte desom direta está ativa e que Φd é de grau um são apenas presunções. Não importa se na realidade estas presunções são verdadeiras ou não, os modelos da presente invenção empregam as Fórmulas abaixo, em particular, as Fórmulas (32) e (33), mesmo em situações em que, na realidade, mais do que uma fonte de som direta está ativa e, e mesmo quando, o resultado exato de Φd é tal que Φd não é de grau um. Nessas situações, os modelos da presente invenção também fornecem bons resultados, mesmo quando as presunções de que não mais do que uma fonte de som direta está ativa, e de que Φd é de grau um não são, na realidade, verdadeiras.[115] Note that statements that no more than one direct sound source is active and that Φd is grade one are just assumptions. It does not matter whether in reality these presumptions are true or not, the models of the present invention employ the Formulas below, in particular Formulas (32) and (33), even in situations where, in reality, more than one source of direct sound is active e, and even when, the exact result of Φd is such that Φd is not of degree one. In these situations, the models of the present invention also provide good results, even when the assumptions that no more than one direct sound source is active, and that Φd is grade one, are actually not true.

[116] Assim sendo, presumindo que não está ativa mais do que uma fontede som direta, e que Φd é de grau um, a Fórmula (23) pode ser expressa assim

Figure img0034
[116] Therefore, assuming that no more than one direct sound source is active, and that Φd is of degree one, Formula (23) can be expressed like this
Figure img0034

[117] A Fórmula (33) fornece uma solução para o problema de otimizaçãolimitado da Fórmula (22).[117] Formula (33) provides a solution to the bounded optimization problem in Formula (22).

[118] Nas Fórmulas acima (32) e (33), Φ “1 é a matriz inversa de Φa. Éevidente que Φ“1 também indica informação da densidade espectral de potência sobre as partes do sinal ambiente dos dois ou mais sinais do canal de entrada de áudio.[118] In the above Formulas (32) and (33), Φ “1 is the inverse matrix of Φa. It is evident that Φ“1 also indicates power spectral density information about the ambient signal parts of the two or more audio input channel signals.

[119] Para determinar HDβ), Φ“1 e Φd tem de ser determinado.Quando Φa está disponível, Φ“1 pode ser imediatamente determinado. À é definido de acordo com as Fórmulas (27) e (28) e o seu valor está disponível quando Φ“1 e Φ estão disponíveis. Para além de determinar Φ“1 , Φ e À, tem de ser escolhido um valor adequado para βi.[119] To determine HDβ), Φ“1 and Φd have to be determined. When Φa is available, Φ“1 can be immediately determined. À is defined according to Formulas (27) and (28) and its value is available when Φ“1 and Φ are available. In addition to determining Φ“1 , Φ and À, a suitable value for βi must be chosen.

[120] Além disso, a Fórmula (33) pode ser reformulada (ver Fórmula (20)),de modo a que:

Figure img0035
[120] In addition, Formula (33) may be reworded (see Formula (20)) so that:
Figure img0035

[121]e, assim sendo, de modo a que tenha de ser determinada apenas ainformação PSD Φy sobre os sinais do canal de entrada de áudio e ainformação PSD Φ sobre as partes do sinal direto dos sinais do canal deentrada de áudio.[121]and thus so that only the PSD information Φy about the audio input channel signals and the PSD information Φ about the direct signal parts of the audio input channel signals have to be determined.

[122] Além disso, a Fórmula (33) pode ser reformulada (ver Fórmula (20)),de modo a que:

Figure img0036
[122] In addition, Formula (33) may be reformulated (see Formula (20)) so that:
Figure img0036

[123] e, assim sendo, de modo a que tenha de ser determinada apenas ainformação PSD Φa1 sobre as partes do sinal ambiente dos sinais do canal deentrada de áudio e a informação PSD Φ sobre as partes do sinal direto dossinais do canal de entrada de áudio.[123] and, therefore, so that only the PSD information Φa1 about the ambient signal parts of the audio input channel signals and the PSD information Φ about the direct signal parts of the input channel signals has to be determined audio.

[124]Além disso, a Fórmula (33) pode ser reformulada, de modo a que:

Figure img0037
[124] In addition, Formula (33) can be reworded so that:
Figure img0037

[125]e, assim sendo, de modo a ser determinado HA(βi) .[125]and, therefore, in order to determine HA(βi) .

[126] A Fórmula (33c) fornece uma solução para o problema deotimização limitado da Fórmula (29).[126] Formula (33c) provides a solution to the limited optimization problem of Formula (29).

[127] Similarmente, as Fórmulas (33a) e (33b) podem ser reformuladaspara:

Figure img0038
[127] Similarly, Formulas (33a) and (33b) can be reformulated to:
Figure img0038

[128] ou para:

Figure img0039
[128] or to:
Figure img0039

[129] Note-se que ao determinar H (β) , o filtro H (β) está imediatamente disponível como: HA(βi) = I -H (β) .[129] Note that when determining H (β) , the filter H (β) is immediately available as: HA(βi) = I -H (β) .

[130] Além disso, note-se que ao determinar HA(βi) , o filtro H (β) estáimediatamente disponível como: HD(βi) = INXN -HA(βi) .[130] Furthermore, note that when determining HA(βi) , the filter H (β) is immediately available as: HD(βi) = INXN -HA(βi) .

[131] Tal como afirmado acima, para determinar H (β) , por ex. de acordo com a Fórmula (33), Φy e Φa podem ser determinados:[131] As stated above, to determine H(β) , e.g. according to Formula (33), Φy and Φa can be determined:

[132] A matriz PSD dos Sinais de áudio Φy (m,k) pode, por exemplo, serestimada diretamente, por exemplo, usando uma média recursiva[132] The PSD matrix of Audio Signals Φy (m,k) can, for example, be estimated directly, eg using a recursive mean

[133]

Figure img0040
[133]
Figure img0040

[134] em que α é um coeficiente do filtro que determina o tempo deintegração, ou[134] where α is a coefficient of the filter that determines the integration time, or

[135] por exemplo, usando a média ponderada de movimento a curtoprazo

Figure img0041
[135] for example, using short-term moving weighted average
Figure img0041

[136] em que L é, por ex., o número de valores passados usados para acomputação do PSD, e b0 ... bL são os coeficientes do filtro que estão, porexemplo, na faixa de [0 1] (por ex., 0 ≤ coeficiente do filtro ≤ 1), ou[136] where L is, eg, the number of passed values used for computing the PSD, and b0 ... bL are the filter coefficients that are, for example, in the range of [0 1] (eg. , 0 ≤ filter coefficient ≤ 1), or

[137] por exemplo, usando a média de movimento a curto prazo, de1acordo com a Equação (34b) mas com

Figure img0042
para todos i = 0... L.[137] for example, using short-term moving average, according to Equation (34b) but with
Figure img0042
for all i = 0... L.

[138] Agora descreve-se a estimativa da matriz PSD ambiente Φa deacordo com modelos.[138] We now describe the estimation of the ambient PSD matrix according to models.

[139] A matriz PSD ambiente Φa é dada por

Figure img0043
[139] The ambient PSD matrix Φa is given by
Figure img0043

[140] em que IWxAf é a matriz de identidade do tamanho N x N . $A é, porex., um número.[140] where IWxAf is the identity matrix of size N x N . $A is eg a number.

[141] Uma solução de acordo com um modelo é, por exemplo, obtidausando um valor constante, através da utilização da Fórmula (21) e definindo ΦA para uma constante positiva real ε. A vantagem desta abordagem é o facto de a complexidade computacional ser negligenciável.[141] A solution according to a model is, for example, obtained using a constant value, using Formula (21) and defining ΦA for a real positive constant ε. The advantage of this approach is that the computational complexity is negligible.

[142] Em modelos, a unidade de determinação do filtro 110 estáconfigurada para determinar ΦA dependendo dos dois ou mais sinais do canal de entrada de áudio.[142] On models, the filter determination unit 110 is configured to determine ΦA depending on the two or more audio input channel signals.

[143] Uma opção com complexidade computacional muito baixa é, deacordo com um modelo, usar uma fração da potência de entrada e definir ΦA para o valor médio ou o valor mínimo do PSD de entrada ou uma fração sua, por ex.

Figure img0044
[143] An option with very low computational complexity is, according to a model, to use a fraction of the input power and set ΦA to the mean or minimum value of the input PSD or a fraction thereof, eg.
Figure img0044

[144] em que o parâmetro g controla a quantidade de potência ambiente, e0 < g < 1[144] where parameter g controls the amount of ambient power, e0 < g < 1

[145] De acordo com um outro modelo, uma estimativa é conduzida combase na média aritmética. Tendo em conta a presunção que leva à Fórmula(20) e Fórmula (21), pode ver-se que o PSD ΦA pode ser computorizado usando

Figure img0045
[145] According to another model, an estimate is conducted based on the arithmetic mean. Taking into account the presumption that leads to Formula (20) and Formula (21), it can be seen that the PSD ΦA can be computerized using
Figure img0045

[146] Enquanto tr{Φy } pode ser diretamente computorizado usando porex. a integração recursiva da Fórmula (34a), ou por ex., a média ponderada de movimento a curto prazo da Fórmula (34b), tr{Φd } é estimada como

Figure img0046
[146] While tr{Φy } can be directly computerized using eg. the recursive integration of Formula (34a), or eg the weighted short-term moving average of Formula (34b), tr{Φd } is estimated as
Figure img0046

[147] Em alternativa, o PSD fˆA(m,k) pode ser computorizado para N > 2escolhendo dois sinais do canal de entrada e estimando fˆA(m,k) apenas paraum par de canais de sinal. São obtidos resultados mais precisos quando seaplica este procedimento a mais do que um par de sinais do canal de entrada equando se combinam os resultados, por ex. através da média das estimativasgerais. Os subconjuntos podem ser escolhidos, aproveitando um conhecimentoprévio dos canais com potência ambiente similar, por ex. estimando a potênciaambiente separadamente em todos os canais traseiros e todos os canaisfrontais de um registo 5.1.[147] Alternatively, the PSD fˆA(m,k) can be computed to N > 2 by choosing two signals from the input channel and estimating fˆA(m,k) only for a pair of signal channels. More accurate results are obtained when this procedure is applied to more than one pair of input channel signals and when the results are combined, e.g. through the average of the general estimates. The subsets can be chosen, taking advantage of a previous knowledge of the channels with similar ambient power, eg. estimating ambient power separately in all rear channels and all front channels of a 5.1 register.

[148] Além disso, note-se que das Fórmulas (20) e (35), advém o seguinte

Figure img0047
[148] In addition, note that from Formulas (20) and (35), comes the following
Figure img0047

[149] De acordo com alguns modelos, Φ é determinado peladeterminação ΦA (por ex., de acordo com a Fórmula (35) ou Fórmula (36) ou de acordo com as Fórmulas (37) - (40) ) e pela utilização da Fórmula (35a) para obter a informação da densidade espectral de potência sobre as partes do sinal ambiente dos sinais do canal de entrada de áudio. De seguida, H D (βi) pode ser determinado, por exemplo, através da utilização da Fórmula (33a).[149] According to some models, Φ is determined by determining ΦA (eg, according to Formula (35) or Formula (36) or according to Formulas (37) - (40) ) and by using the Formula (35a) for obtaining power spectral density information about the ambient signal parts of the audio input channel signals. Then, H D (βi) can be determined, for example, by using Formula (33a).

[150] De seguida, a escolha para o parâmetro βi é considerada.[150] Next, the choice for the βi parameter is considered.

[151] βi é um parâmetro de trade-off. O parâmetro de trade-off βi é umnúmero.[151] βi is a trade-off parameter. The trade-off parameter βi is a number.

[152] Em alguns modelos, é determinado apenas um parâmetro de tradeoff βi que é válido para todos os sinais do canal de entrada de áudio, e este parâmetro de trade-off é depois considerado como a informação de trade-off dos sinais do canal de entrada de áudio.[152] In some models, only one tradeoff parameter βi that is valid for all audio input channel signals is determined, and this trade-off parameter is then considered as the trade-off information of the channel signals audio input.

[153] Em outros modelos é determinado um parâmetro de trade-off βi paracada um dos dois ou mais sinais do canal de entrada de áudio, e estes dois ou mais parâmetros de compromisso dos sinais do canal de entrada de áudio formam depois em conjunto a informação de trade-off.[153] In other models, a trade-off parameter βi is determined for each of the two or more audio input channel signals, and these two or more compromise parameters of the audio input channel signals then together form the trade-off information.

[154] Em outros modelos, a informação de trade-off pode não serrepresentada como um parâmetro, mas pode ser representada em um tipo diferente de formato adequado.[154] In other models, trade-off information may not be represented as a parameter, but it may be represented in a different type of suitable format.

[155] Como se verificou acima, o parâmetro βi permite um compromissoentre a redução do sinal ambiente residual e a distorção do sinal direto. Pode ser escolhido ou pode ser constante, ou dependente do sinal, como se pode ver na Fig. 6b.[155] As noted above, the βi parameter allows for a compromise between the reduction of the residual ambient signal and the distortion of the direct signal. It can be chosen or it can be constant, or signal dependent, as seen in Fig. 6b.

[156] A Fig. 6b ilustra um aparelho de acordo com outro modelo. Oaparelho compreende um filtro de banco de análise 605 que transforma os sinais do canal de entrada de áudio yt[n] a partir do domínio do tempo no domínio da frequência do tempo. Além disso, o aparelho ainda compreende um filtro de banco de síntese 625 para transformar um ou mais sinais do canal de saída de áudio ( por ex. os componentes do sinal direto estimado d [n],...,d [n] dos sinais do canal de entrada de áudio) a partir do domínio de frequência do tempo no domínio do tempo.[156] Fig. 6b illustrates an apparatus according to another model. The apparatus comprises an analysis bank filter 605 which transforms the audio input channel signals yt[n] from the time domain into the time frequency domain. In addition, the apparatus further comprises a synthesis bank filter 625 for transforming one or more audio output channel signals (eg the estimated direct signal components d[n],...,d[n] of the audio input channel signals) from the time frequency domain in the time domain.

[157] Várias unidades de determinação K beta 1111, ..., 11K1(“computorizar Beta”) determinam os parâmetros βi . Além disso, várias unidades de computação de K subfiltros 1112, ., 11K2 determinam subfiltros HH(m,1),...,HH(m,K) . As várias unidades de determinação beta 1111, ., 11K1 e as várias unidades de computação de subfiltros 1112, ., 11K2 formam em conjunto a unidade de determinação do filtro 110 da Fig. 1 e da Fig. 6a de acordo com um modelo em particular. Os vários subfiltros HH(m,1),...,HH(m,K) formam em conjunto o filtro da Fig. 1 e da Fig. 6a de acordo com um modelo em particular.[157] Various units of determination K beta 1111, ..., 11K1(“computerize Beta”) determine the parameters βi . In addition, several computation units of K subfilters 1112, ., 11K2 determine subfilters HH(m,1),...,HH(m,K) . The various beta determination units 1111, ., 11K1 and the various subfilter computing units 1112, ., 11K2 together form the filter determination unit 110 of Fig. 1 and Fig. 6a according to a particular embodiment . The various subfilters HH(m,1),...,HH(m,K) together form the filter of Fig. 1 and Fig. 6a according to a particular model.

[158] Além disso, a Fig. 6b ilustra vários subprocessadores do sinal 121,..., 12K, em que cada subprocessador de sinal 121, ..., 12K está configurado para aplicar apenas um dos subfiltros HH(m,1),...,HH(m,K) em um dos sinais do canal de entrada de áudio para obter um dos sinais do canal de saída de áudio. Os vários subprocessadores de sinal 121, ..., 12K formam em conjunto o processador de final da Fig. 1 e da Fig. 6a de acordo com um modelo em particular.[158] Furthermore, Fig. 6b illustrates several subprocessors of signal 121,...,12K, where each subprocessor of signal 121,...,12K is configured to apply only one of the HH(m,1) subfilters ,...,HH(m,K) on one of the audio input channel signals to get one of the audio output channel signals. The various signal subprocessors 121,...,12K together form the end processor of Fig. 1 and Fig. 6a according to a particular model.

[159] De seguida, descrevem-se diferentes casos de utilização paracontrolar o parâmetro βi através da análise do sinal.[159] Below, different use cases are described to control the βi parameter through signal analysis.

[160] Em primeiro lugar, são considerados os sinais transitórios.[160] First, transient signals are considered.

[161] De acordo com um modelo, a unidade de determinação do filtro 110está configurada para determinar a informação de trade-off (βi, βj) dependendo se um transiente está presente em pelo menos um dos dois ou mais sinais do canal de entrada de áudio.[161] According to one model, the filter determination unit 110 is configured to determine the trade-off information (βi, βj) depending on whether a transient is present in at least one of the two or more signals of the input channel. audio.

[162] A estimativa da matriz PSD de entrada trabalha melhor para o sinalpermanente. Por outro lado, a decomposição do sinal de entrada transitório pode resultar em fuga do componente do sinal transitório para o sinal de saída ambiente. O controlo de βi através de uma análise do sinal relativamente ao grau da probabilidade da presença não permanente ou transitória, de modo a que βi seja inferior quando o sinal compreende transientes e de modo a que seja superior em partes sustentadas, resulta em sinais de saída mais consistentes quando são aplicados filtros HD(βi). O controlo de βi através de uma análise do sinal relativamente ao grau da probabilidade da presença não permanente ou transitória, de modo a que βi seja superior quando o sinal compreende transientes e de modo a que seja inferior em partes sustentadas, resulta em sinais de saída mais consistentes quando são aplicados filtros HA(βi).[162] The input PSD matrix estimate works best for the permanent signal. On the other hand, decomposition of the transient input signal can result in leakage of the transient signal component to the ambient output signal. Controlling βi through an analysis of the signal relative to the degree of probability of non-permanent or transient presence, so that βi is lower when the signal comprises transients and so that it is higher in sustained parts, results in output signals more consistent when HD(βi) filters are applied. Controlling βi through an analysis of the signal relative to the degree of probability of non-permanent or transient presence, so that βi is higher when the signal comprises transients and so that it is lower in sustained parts, results in output signals more consistent when HA(βi) filters are applied.

[163] Consideram-se agora os sinais ambiente indesejados.[163] Unwanted ambient signals are now considered.

[164] Em um modelo, a unidade de determinação do filtro 110 estáconfigurada para determinar a informação de trade-off (βi,, βj) dependendo de uma presença de ruído aditivo em pelo menos um canal de sinal, através do qual é transmitido um dos dois ou mais sinais do canal de entrada de áudio.[164] In one model, the filter determination unit 110 is configured to determine trade-off information (βi,, βj) depending on a presence of additive noise in at least one signal channel, through which a of the two or more audio input channel signals.

[165] O método proposto decompõe os sinais de entradaindependentemente da natureza dos componentes do sinal ambiente. Quando os sinais de entrada tiverem sido transmitidos através de canais de sinal ruidosos, é vantajoso estimar a probabilidade da presença indesejada de ruído aditivo e controlar βi de modo a aumentar a DAR (relação direto/ambiente) de saída.[165] The proposed method decomposes the input signals independently of the nature of the ambient signal components. When input signals have been transmitted through noisy signal channels, it is advantageous to estimate the probability of unwanted presence of additive noise and control βi so as to increase the output DAR (direct/ambient ratio).

[166] Descreve-se agora o controlo dos níveis dos sinais de saída.[166] The control of output signal levels is now described.

[167] Para controlar os níveis dos sinais de saída, βi pode serseparadamente definido para o i° canal. Os filtros para computorizar o sinal de saída ambiente do i.° canal são dados pela Fórmula (31).[167] To control the levels of the output signals, βi can be set separately for the 1st channel. The filters for computing the ambient output signal of the 1st channel are given by Formula (31).

[168] Para quaisquer dois canais, βi pode ser computorizado com base emβi de modo a que os PSDs dos sinais ambiente residuais ra,i e ra,j no i.° e j.° canal de saída sejam iguais a, isto é,

Figure img0048
[168] For any two channels, βi can be computed on the basis of βi such that the PSDs of the residual ambient signals ra,i and ra,j in the i. and j. output channel are equal to, i.e.,
Figure img0048

[169] ou

Figure img0049
[169] or
Figure img0049

[170] Em alternativa, βi pode ser computorizado de modo a que os PSDsdos sinais ambiente de saída ai e aj sejam iguais para todos os pares i e j.[170] Alternatively, βi can be computed so that the PSDs of the ambient output signals ai and aj are equal for all pairs i and j.

[171] Considera-se agora usar a informação de balanço.[171] It is now considered to use balance information.

[172] Para o caso de dois canais de entrada, equilibrar a informaçãoquantifica as diferenças de nível entre ambos os canais por sub-banda. A informação de balanço pode ser aplicada para controlar βi de modo a controlar a largura percecionada dos sinais de saída.[172] For the case of two input channels, balancing the information quantifies the level differences between both channels per subband. Balance information can be applied to control βi so as to control the perceived width of the output signals.

[173] De seguida, considera-se equalizar os sinais do canal ambiente desaída.[173] Next, it is considered equalizing the output ambient channel signals.

[174] O processamento descrito não garante que todos os sinais do canalambiente de saída tenham potências de sub-banda iguais. Para garantir que todos os sinais do canal ambiente de saída tenham potências de sub-banda iguais, os filtros são modificados conforme descrito a seguir para o modelo que usa filtros HD conforme descrito acima. A matriz de covariância do sinal de saída ambiente (compreendendo os auto-PSDs de cada canal na diagonal principal) pode ser obtida como

Figure img0050
[174] The processing described does not guarantee that all signals in the output environment channel have equal subband powers. To ensure that all ambient output channel signals have equal subband powers, the filters are modified as described below for the model that uses HD filters as described above. The covariance matrix of the ambient output signal (comprising the auto-PSDs of each channel on the main diagonal) can be obtained as
Figure img0050

[175] Para assegurar que os PSDs de todos os canais ambiente de saídasão iguais, os filtros HD são substituídos por HD :

Figure img0051
[175] To ensure that the PSDs of all ambient output channels are equal, HD filters are replaced by HD :
Figure img0051

[176] em que G é uma matriz diagonal, cujos elementos na diagonalprincipal são

Figure img0052
[176] where G is a diagonal matrix, whose elements on the main diagonal are
Figure img0052

[177] Para o modelo que usa filtros tHA conforme descrito acima, a matrizde covariância do sinal de saída ambiente (que compreende os auto-PSDs de cada canal na diagonal principal) pode ser obtida como

Figure img0053
[177] For the model using tHA filters as described above, the covariance matrix of the ambient output signal (which comprises the auto-PSDs of each channel on the main diagonal) can be obtained as
Figure img0053

[178] Para assegurar que os PSDs de todos os canais ambiente de saídasão iguais, os filtros HA são substituídos por HA :

Figure img0054
[178] To ensure that the PSDs of all ambient output channels are the same, the HA filters are replaced with HA :
Figure img0054

[179] Apesar de alguns aspetos terem sido descritos no contexto de umaparelho, é claro que estes aspetos também representam uma descrição do correspondente método, em que um bloco ou dispositivo corresponde a um passo de método ou a uma característica de um passo de método. De modo análogo, os aspetos descritos no contexto de um passo de método também representam uma descrição de um correspondente bloco ou item ou característica de um correspondente aparelho.[179] Although some aspects have been described in the context of an apparatus, it is clear that these aspects also represent a description of the corresponding method, in which a block or device corresponds to a method step or a characteristic of a method step. Similarly, aspects described in the context of a method step also represent a description of a corresponding block or item or feature of a corresponding apparatus.

[180] O sinal decomposto da invenção pode ser guardado em um meio dearmazenamento digital ou pode ser transmitido em um meio de transmissão, tal como um meio de transmissão sem fios ou um meio de transmissão com fios, tal como a Internet.[180] The decomposed signal of the invention can be stored in a digital storage medium or it can be transmitted in a transmission medium such as a wireless transmission medium or a wired transmission medium such as the Internet.

[181] Dependendo de certos requisitos de implementação, os modelos dainvenção podem ser implementados em hardware ou em software. A implementação pode ser realizada usando um meio de armazenamento digital, por exemplo uma disquete, um DVD, um CD, um ROM, um PROM, um EPROM, um EEPROM ou uma memória FLASH, com sinais de controlo de leitura eletrónica guardados lá, que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de modo a que seja executado o respetivo método.[181] Depending on certain implementation requirements, the models of the invention can be implemented in hardware or in software. The implementation can be carried out using a digital storage medium, for example a floppy disk, a DVD, a CD, a ROM, a PROM, an EPROM, an EEPROM or a FLASH memory, with electronic read control signals stored there, which cooperate (or are able to cooperate) with a programmable computer system so that the respective method is executed.

[182] Alguns modelos de acordo com a invenção compreendem umsuporte de dados não transitórios com sinais de controlo de leitura eletrónica, que são capazes de cooperar com um sistema de computador programável, de modo a que seja executado um dos métodos aqui descritos.[182] Some models according to the invention comprise a non-transient data carrier with electronically readable control signals, which are capable of cooperating with a programmable computer system, so that one of the methods described herein is executed.

[183] De um modo geral, os modelos da presente invenção podem serimplementados como um produto de programa de computador com um código de programa, sendo o código de programa operativo para executar um dos métodos quando o produto do programa de computador corre em um computador. O código de programa pode, por exemplo, ser guardado em um suporte de leitura em máquina.[183] In general, the embodiments of the present invention can be implemented as a computer program product with a program code, the program code being operative to execute one of the methods when the computer program product runs on a computer . Program code can, for example, be stored in a machine-readable medium.

[184] Outros modelos compreendem o programa de computador paraexecutar um dos métodos aqui descritos, guardados em um suporte de leitura em máquina.[184] Other models comprise the computer program to execute one of the methods described here, stored in a machine-readable support.

[185] Por outras palavras, um modelo do método da invenção é, por isso,um programa de computador com um código de programa para executar um dos métodos aqui descritos, quando o programa de computador corre em um computador.[185] In other words, a model of the method of the invention is therefore a computer program with program code for executing one of the methods described herein, when the computer program runs on a computer.

[186] Outro modelo dos métodos da invenção é, por isso, um suporte dedados (ou um suporte de armazenamento digital ou um suporte de leitura em computador) compreendendo, aí gravados, o programa de computador para executar um dos métodos aqui descritos.[186] Another embodiment of the methods of the invention is therefore a data carrier (or a digital storage medium or a computer readable medium) comprising, recorded therein, the computer program for executing one of the methods described herein.

[187] Outro modelo do método da invenção é, por isso, um fluxo de dadosou uma sequência de sinais que representam o programa de computador para executar um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma ligação de comunicação de dados, por exemplo via Internet.[187] Another embodiment of the method of the invention is therefore a data stream or a sequence of signals representing the computer program for executing one of the methods described herein. The data stream or signal sequence can, for example, be configured to be transferred via a data communication link, for example via the Internet.

[188] Outro modelo compreende um meio de processamento, porexemplo, um computador, ou um dispositivo lógico programável, configurado ou adaptado para executar um dos métodos aqui descritos.[188] Another model comprises a processing means, for example, a computer, or a programmable logic device, configured or adapted to perform one of the methods described herein.

[189] Outro modelo compreende um computador com o programa decomputador instalado para executar um dos métodos aqui descritos.[189] Another model comprises a computer with a computer program installed to execute one of the methods described here.

[190] Em alguns modelos, pode ser utilizado um dispositivo programávellógico (por exemplo uma rede de portas lógicas programáveis) para executar algumas ou todas as funcionalidades dos métodos aqui descritos Em alguns modelos, uma rede de portas lógicas programáveis pode cooperar com um microprocessador para executar um dos métodos aqui descritos. De um modo geral, os métodos são preferencialmente executados por qualquer aparelho de hardware.[190] In some models, a programmable logic device (eg a network of programmable logic gates) can be used to perform some or all of the functionality of the methods described here. In some models, a network of programmable logic gates can cooperate with a microprocessor to perform one of the methods described here. Generally speaking, the methods are preferably performed by any hardware device.

[191] Os modelos acima descritos são meramente ilustrativos para osprincípios da presente invenção. Compreende-se que as modificações e variações das disposições e dos detalhes descritos serão evidentes aos profissionais da matéria. Pretende-se, por isso, que seja limitado apenas pelo âmbito das reivindicações impendentes da patente e não pelos detalhes específicos da descrição e explicação dos modelos aqui constantes.[191] The models described above are merely illustrative for the principles of the present invention. It is understood that modifications and variations to the arrangements and details described will be apparent to those skilled in the art. It is, therefore, intended to be limited only by the scope of the pending patent claims and not by the specific details of the description and explanation of the models contained herein.

[192] Referências[1] J.B. Allen, D.A. Berkeley, and J. Blauert, "Multimicrophone signalprocessing technique to remove room reverberation from speech signals", J.Acoust.Soc. Am.,vol.62, 1977.[2] C. Avendano and J.-M. Jot, "A frequency-domain approach to multichannel upmix”, J. Audio Eng. Soc., vol. 52, 2004.[3] C. Faller, "Multiple-loudspeaker playback of stereo signals", J. AudioEng. Soc., vol. 54, 2006.[4] J. Merimaa, M. Goodwin, and J.-M. Jot, "Correlation-based ambienceextraction from stereo recordings”, in Proc. of the AES 123rd Conv., 2007.[5] Ville Pulkki, "Directional audio coding in spatial sound reproductionand stereo upmixing", in Proc. of the AES 28th Int. Conf., 2006.[6] J. Usher and J. Benesty, "Enhancement of spatial sound quality: Anew reverberation-extraction audio upmixer", IEEE Tram. on Audio, Speech. and Language Processing, vol.l5, pp. 2141-2150, 2007.[7] A. Walther and C. Faller, "Direct-ambient decomposition and upmixof surround sound signals", in Proc. of IEEE WASPAA,2011.[8] C. Uhle, J. Herre, S. Geyersberger, F. Ridderbusch, A. Walter; andO. Moser, "Apparatus and method for extracting an ambient signal in an: apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program", US Patent Application 2009/0080666, 2009.[9] C. Uhle, J. Herre, A. Walther, O. Hellmuth, and C. Janssen,"Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program", US Patent Application 2010/0030563, 2010. [10] G. Soulodre, "System for extracting and changing the reverberantcontent of an audio input signal", US Patent 8,036,767, Date of Patent: October 11, 2011.[192] References [1] J.B. Allen, D.A. Berkeley, and J. Blauert, "Multimicrophone signal processing technique to remove room reverberation from speech signals", J.Acoust.Soc. Am., vol.62, 1977.[2] C. Avendano and J.-M. Jot, "A frequency-domain approach to multichannel upmix", J. Audio Eng. Soc., vol. 52, 2004.[3] C. Faller, "Multiple-loudspeaker playback of stereo signals", J. AudioEng. Soc., vol. 54, 2006.[4] J. Merimaa, M. Goodwin, and J.-M. Jot, "Correlation-based ambienceextraction from stereo recordings", in Proc. of the AES 123rd Conv., 2007.[5] Ville Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing", in Proc. of the AES 28th Int. Conf., 2006.[6] J. Usher and J. Benesty, "Enhancement of spatial sound quality: Anew reverberation-extraction audio upmixer", IEEE Tram. on Audio, Speech. and Language Processing, vol.15, pp. 2141-2150, 2007.[7] A. Walther and C. Faller, "Direct-ambient decomposition and upmix of surround sound signals", in Proc. of IEEE WASPAA,2011.[8] C. Uhle, J. Herre, S. Geyersberger, F. Ridderbusch, A. Walter; walk. Moser, "Apparatus and method for extracting an ambient signal in an: apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program", US Patent Application 2009/0080666, 2009.[9] C. Uhle, J. Herre, A. Walther, O. Hellmuth, and C. Janssen, "Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program", US Patent Application 2010/0030563, 2010. [10] G. Soulodre, "System for extracting and changing the reverberant content of an audio input signal", US Patent 8,036,767, Date of Patent: October 11, 2011.

Claims (14)

1. Aparelho para criar um ou mais sinais do canal de saída de áudio dependendo de dois ou mais sinais do canal de entrada de áudio, em que cada um dos dois ou mais sinais do canal de entrada de áudio compreende partes de sinal direto e partes de sinal ambiente, caracterizado por o aparelho compreender:uma unidade de determinação do filtro (110) para determinar um filtro através da estimativa de uma primeira informação da densidade espectral de potência e da estimativa de uma segunda informação da densidade espectral de potência, em que o filtro depende da primeira informação de densidade espectral de potência e da segunda informação de densidade espectral de potência, eum processador de sinal (120) para criar um ou mais sinais do canal de saída de áudio aplicando o filtro nos dois ou mais sinais do canal de entrada de áudio, em que o um ou mais sinais do canal de saída de áudio dependem do filtro,em que a unidade de determinação de filtro (110) está configurada para estimar a primeira informação de densidade espectral de potência estimando, para cada sinal de canal de entrada de áudio dos dois ou mais sinais de canal de entrada de áudio, informações de densidade espectral de potência no referido sinal de canal de entrada de áudio e a unidade de determinação de filtro (110) é configurada para estimar a segunda informação de densidade espectral de potência estimando, para cada sinal de canal de entrada de áudio dos dois ou mais sinais de canal de entrada de áudio, informações de densidade espectral de potência em porções de sinal ambiente do referido sinal de canal de entrada de áudio, ouem que a unidade de determinação de filtro (110) está configurada para estimar a primeira informação de densidade espectral de potência estimando, para cada sinal de canal de entrada de áudio dos dois ou mais sinais de canal de entrada de áudio, informações de densidade espectral de potência no referido sinal de canal de entrada de áudio e o a unidade de determinação de filtro (110) é configurada para estimar a segunda informação de densidade espectral de potência estimando, para cada sinal de canal de entrada de áudio dos dois ou mais sinais de canal de entrada de áudio, informação de densidade espectral de potência nas porções de sinal direto do referido sinal de canal de entrada de áudio; ouem que a unidade de determinação de filtro (110) está configurada para estimar a primeira informação de densidade espectral de potência estimando, para cada sinal de canal de entrada de áudio dos dois ou mais sinais de canal de entrada de áudio, informações de densidade espectral de potência nas porções de sinal direto da referida entrada de áudio sinal de canal e a unidade de determinação de filtro (110) é configurada para estimar a segunda informação de densidade espectral de potência estimando, para cada sinal de canal de entrada de áudio dos dois ou mais sinais de canal de entrada de áudio, informação de densidade espectral de potência nas porções de sinal ambiente de dito sinal do canal de entrada de áudio.1. Apparatus for creating one or more audio output channel signals depending on two or more audio input channel signals, wherein each of the two or more audio input channel signals comprises direct signal parts and parts of ambient signal, characterized in that the apparatus comprises: a filter determining unit (110) for determining a filter by estimating a first power spectral density information and estimating a second power spectral density information, wherein the filter relies on the first power spectral density information and the second power spectral density information, and a signal processor (120) to create one or more audio output channel signals by applying the filter to the two or more channel signals. of audio input, wherein the one or more signals of the audio output channel depend on the filter, wherein the filter determination unit (110) is configured to estimate the first power spectral density information estimating, for each audio input channel signal of the two or more audio input channel signals, power spectral density information in said audio input channel signal and the determining unit of filter (110) is configured to estimate the second power spectral density information by estimating, for each audio input channel signal of the two or more audio input channel signals, power spectral density information in ambient signal portions of said audio input channel signal, or wherein the filter determination unit (110) is configured to estimate the first power spectral density information by estimating, for each audio input channel signal, the two or more signals. audio input channel, power spectral density information in said audio input channel signal and the filter determination unit (110) is configured to estimate the second power spectral density information by estimating, for each audio input channel signal of the two or more audio input channel signals, power spectral density information in the direct signal portions of said channel signal audio input; or wherein the filter determination unit (110) is configured to estimate the first power spectral density information by estimating, for each audio input channel signal of the two or more audio input channel signals, spectral density information of power in the direct signal portions of said audio input channel signal and the filter determination unit (110) is configured to estimate the second power spectral density information by estimating, for each audio input channel signal of the two or more audio input channel signals, power spectral density information in the ambient signal portions of said audio input channel signal. 2. Aparelho, de acordo com a reivindicação 1, caracterizado por o aparelho ainda compreender um banco de filtro de análise (605) para transformar os dois ou mais sinais do canal de entrada de áudio de um domínio do tempo em um domínio da frequência do tempo,em que a unidade de determinação do filtro (110) está configurada para determinar o filtro através da estimativa da primeira informação da densidade espectral de potência e da segunda informação da densidade espectral de potência dependendo dos sinais do canal de entrada de áudio, que são representados no domínio da frequência de tempo,em que o processador do sinal (120) está configurado para criar um ou mais sinais do canal de saída de áudio, que são representados em um domínio da frequência do tempo, aplicando o filtro em dois ou mais sinais do canal de entrada de áudio, que são representados no domínio da frequência de tempo, e em que o aparelho ainda compreende um filtro de banco de síntese (625) para transformar um ou mais sinais do canal de saída de áudio, que são representados em um domínio da frequência de tempo, do domínio da frequência de tempo no domínio do tempo.Apparatus according to claim 1, characterized in that the apparatus further comprises an analysis filterbank (605) for transforming the two or more audio input channel signals from a time domain into a frequency domain of the time, in which the filter determination unit (110) is configured to determine the filter by estimating the first power spectral density information and the second power spectral density information depending on the audio input channel signals, which are represented in the time frequency domain, where the signal processor (120) is configured to create one or more audio output channel signals, which are represented in a time frequency domain by applying the filter in two or further audio input channel signals, which are represented in the time frequency domain, and wherein the apparatus further comprises a synthesis bank filter (625) for transforming one or more signals. is of the audio output channel, which are represented in a time frequency domain, of the time frequency domain in the time domain. 3. Aparelho, de acordo com a reivindicação 1 ou 2, caracterizado por a unidade de determinação do filtro (110) estar configurada para determinar o filtro através da estimativa da primeira informação de densidade espectral de potência, através da estimativa da segunda informação da densidade espectral de potência, e através da determinação da informação de sinal de canal de entrada de áudio (βi,, βj) dependendo de pelo menos um dos dois ou mais sinais do canal de entrada de áudio.Apparatus according to claim 1 or 2, characterized in that the filter determination unit (110) is configured to determine the filter by estimating the first power spectral density information by estimating the second density information spectral power, and by determining the audio input channel signal information (βi,, βj) depending on at least one of the two or more audio input channel signals. 4. Aparelho, de acordo com a reivindicação 3, caracterizado por a unidade de determinação do filtro (110) estar configurada para determinar a informação de sinal de canal de entrada de áudio (βi,, βj) dependendo se um transiente está presente em pelo menos um dos dois ou mais sinais do canal de entrada de áudio.Apparatus according to claim 3, characterized in that the filter determination unit (110) is configured to determine the audio input channel signal information (βi,, βj) depending on whether a transient is present in at least one. minus one of the two or more signals on the audio input channel. 5. Aparelho, de acordo com a reivindicação 3 ou 4, caracterizado por a unidade de determinação do filtro (110) estar configurada para determinar a informação de sinal de canal de entrada de áudio (βi, βj) dependendo de uma presença de ruído aditivo em pelo menos um canal de sinal, através do qual é transmitido um dos dois ou mais sinais do canal de entrada de áudio.Apparatus according to claim 3 or 4, characterized in that the filter determining unit (110) is configured to determine the audio input channel signal information (βi, βj) depending on a presence of additive noise on at least one signal channel, through which one of the two or more signals of the audio input channel is transmitted. 6. Aparelho, de acordo com qualquer uma das reivindicações de 3 a 5, caracterizado por a unidade de determinação do filtro (110) estar configurada para determinar a informação da densidade espectral de potência sobre os dois ou mais sinais do canal de entrada de áudio dependendo de uma primeira matriz (Φy ), compreendendo a primeira matriz (Φy ) uma estimativa da densidade espectral de potência para cada sinal de canal dos dois ou mais sinais do canal de entrada de áudio na diagonal principal da primeira matriz ( Φy ), e estar configurada para determinar a informação da densidade espectral de potência sobre as partes do sinal ambiente dos dois ou mais sinais do canal de entrada de áudio dependendo da segunda matriz (Φa) ou dependendo de uma matriz inversa (Φ“1) da segunda matriz (Φa), compreendendo a segunda matriz (Φ ) uma estimativa da densidade espectral de potência para as partes de sinal ambiente de cada sinal de canal dos dois ou mais sinais do canal de entrada de áudio na diagonal principal da segunda matriz (Φ ), ouem que a unidade de determinação do filtro (110) está configurada para determinar a informação da densidade espectral de potência sobre os dois ou mais sinais do canal de entrada de áudio dependendo da primeira matriz ( Φy ), e estar configurada para determinar a informação da densidade espectral de potência sobre as partes do sinal direto dos dois ou mais sinais do canal de entrada de áudio dependendo de uma terceira matriz (Φ ) ou dependendo de uma matriz inversa (Φ“1 ) da terceira matriz (Φd ), compreendendo a terceira matriz (Φ ) uma estimativa da densidade espectral de potência para as partes de sinal direto de cada sinal de canal dos dois ou mais sinais do canal de entrada de áudio na diagonal principal da terceira matriz (Φ ), ouem que a unidade de determinação do filtro (110) está configurada para determinar a informação da densidade espectral de potência sobre as partes do sinal ambiente dos dois ou mais sinais do canal de entrada de áudio dependendo da segunda matriz (Φa) ou dependendo de uma matriz inversa ( Φ“1 ) da segunda matriz (Φa), e estar configurada para determinar a informação da densidade espectral de potência sobre as partes do sinal direto dos dois ou mais sinais do canal de entrada de áudio dependendo da terceira matriz (Φ ) ou dependendo de uma matriz inversa (Φ“1 ) da terceira matriz ( Φd).Apparatus according to any one of claims 3 to 5, characterized in that the filter determination unit (110) is configured to determine power spectral density information on the two or more audio input channel signals. depending on a first matrix (Φy ), the first matrix (Φy ) comprising an estimate of the power spectral density for each channel signal of the two or more audio input channel signals on the main diagonal of the first matrix (Φy ), and be configured to determine the power spectral density information about the ambient signal parts of the two or more audio input channel signals depending on the second matrix (Φa) or depending on an inverse matrix (Φ“1) of the second matrix ( Φa), the second matrix (Φ ) comprising an estimate of the power spectral density for the ambient signal parts of each channel signal of the two or more audio input channel signals in the diagon main al of the second matrix (Φ ), or wherein the filter determination unit (110) is configured to determine the power spectral density information on the two or more audio input channel signals depending on the first matrix ( Φy ) , and be configured to determine the power spectral density information about the direct signal parts of the two or more audio input channel signals depending on a third matrix (Φ ) or depending on an inverse matrix (Φ“1 ) of the third matrix (Φd ), the third matrix (Φ ) comprising an estimate of the power spectral density for the direct signal parts of each channel signal of the two or more audio input channel signals on the main diagonal of the third matrix (Φ ), or wherein the filter determination unit (110) is configured to determine the power spectral density information about the ambient signal portions of the two or more audio input channel signals. o depending on the second matrix (Φa) or depending on an inverse matrix (Φ“1 ) of the second matrix (Φa), and be configured to determine the power spectral density information on the direct signal parts of the two or more signals of the audio input channel depending on the third matrix (Φ ) or depending on an inverse matrix (Φ“1 ) of the third matrix ( Φd). 7. Aparelho, de acordo com a reivindicação 6, caracterizado por a unidade de determinação do filtro (110) estar configurada para determinar a primeira matriz (Φy ) para determinar a informação da densidade espectral de potência sobre os dois ou mais sinais do canal de entrada de áudio, e estar configurada para determinar a segunda matriz (Φa) ou uma matriz inversa ( Φ“1) da segunda matriz (Φa) para determinar a informação da densidade espectral de potência sobre as partes do sinal ambiente dos dois ou mais sinais do canal de entrada de áudio, ouem que a unidade de determinação do filtro (110) está configurada para determinar a primeira matriz (Φy ) para determinar a informação da densidade espectral de potência sobre os dois ou mais sinais do canal de entrada de áudio, e estar configurada para determinar a terceira matriz (Φ ) ou uma matriz inversa (Φ“1 ) da terceira matriz (Φd ) para determinar a informação da densidade espectral de potência sobre as partes do sinal direto dos dois ou mais sinais do canal de entrada de áudio, ouem que a unidade de determinação do filtro (110) está configurada para determinar a segunda matriz (Φa) ou uma matriz inversa (Φ“1 ) da segunda matriz (Φa) para determinar a informação da densidade espectral de potência sobre as partes do sinal ambiente dos dois ou mais sinais do canal de entrada de áudio, e estar configurada para determinar a terceira matriz (Φ ) ou uma matriz inversa (Φ“1 ) da terceira matriz (Φd ) para determinar a informação da densidade espectral de potência sobre as partes do sinal direto dos dois ou mais sinais do canal de entrada de áudio.Apparatus according to claim 6, characterized in that the filter determination unit (110) is configured to determine the first matrix (Φy ) for determining the power spectral density information on the two or more signals of the channel. audio input, and be configured to determine the second matrix (Φa) or an inverse matrix (Φ“1) of the second matrix (Φa) to determine the power spectral density information about the ambient signal parts of the two or more signals of the audio input channel, or wherein the filter determining unit (110) is configured to determine the first matrix (Φy ) for determining power spectral density information about the two or more signals of the audio input channel, and be configured to determine the third matrix (Φ ) or an inverse matrix (Φ“1 ) of the third matrix (Φd ) to determine the power spectral density information about the direct signal parts of the two or more signals from the audio input channel, or wherein the filter determination unit (110) is configured to determine the second matrix (Φa) or an inverse matrix (Φ“1) of the second matrix (Φa) to determine the information of the power spectral density over the ambient signal parts of the two or more audio input channel signals, and be configured to determine the third matrix (Φ ) or an inverse matrix (Φ“1 ) of the third matrix (Φd ) to determine the power spectral density information about the direct signal portions of the two or more audio input channel signals. 8. Aparelho, de acordo com a reivindicação 6 ou 7, caracterizado por a unidade de determinação do filtro (110) estar configurada para determinar o filtro HD (βi) dependendo da fórmula
Figure img0055
em que a unidade de determinação do filtro (110) estar configurada para determinar o filtro H (β ) dependendo da fórmula
Figure img0056
em que Φy é a primeira matriz,em que Φa é a segunda matriz,em que Φ -1 é a matriz inversa da segunda matriz,em que Φd é a terceira matriz,em que INxN é uma matriz de unidade do tamanho N x N , em que N indica o número dos sinais do canal de entrada de áudio, em que βi é a informação de sinal de canal de entrada de áudio queé um número, e
Figure img0057
em que tr é o operador de rastreio.
Apparatus according to claim 6 or 7, characterized in that the filter determination unit (110) is configured to determine the filter HD (βi) depending on the formula
Figure img0055
where the filter determination unit (110) is configured to determine the filter H (β ) depending on the formula
Figure img0056
where Φy is the first matrix,where Φa is the second matrix,where Φ -1 is the inverse matrix of the second matrix,where Φd is the third matrix,where INxN is a unit matrix of size N x N , where N indicates the number of the audio input channel signals, where βi is the audio input channel signal information which is a number, and
Figure img0057
where tr is the trace operator.
9. Aparelho, de acordo com qualquer uma das reivindicações 3 a 8, caracterizado por a unidade de determinação do filtro (110) estar configurada para determinar um parâmetro de sinal de canal de entrada (βi,, βj) para cada um dos dois ou mais sinais do canal de entrada de áudio como informação de sinal de canal de canal de entrada de áudio (βi,, βj), em que o parâmetro de sinal de canal de entrada de áudio (βi,, βj) de cada um dos sinais do canal de entrada de áudio depende desse sinal do canal de entrada de áudio.Apparatus according to any one of claims 3 to 8, characterized in that the filter determining unit (110) is configured to determine an input channel signal parameter (βi,, βj) for each of the two or plus audio input channel signals as audio input channel channel signal information (βi,, βj), where audio input channel signal parameter (βi,, βj) of each of the signals the audio input channel depends on that audio input channel signal. 10. Aparelho, de acordo com a reivindicação 8, caracterizado por a unidade de determinação do filtro (110) estar configurada para determinar um parâmetro de sinal de canal de entrada de áudio (βi,, βj) para cada um dos dois ou mais sinais do canal de entrada de áudio como informação de sinal de canal de entrada de áudio (βi,, βj), de modo a que para cada par de um primeiro sinal do canal de entrada de áudio dos sinais do canal de entrada de áudio e outro segundo sinal do canal de entrada de áudio dos sinais do canal de entrada de áudio
Figure img0058
seja verdadeiro,em que βi é o parâmetro de sinal de canal de entrada desse primeirosinal do canal de entrada de áudio,em que βi é o parâmetro de sinal de canal de entrada desse segundo sinal do canal de entrada de áudio,em que
Figure img0059
em que
Figure img0060
é a matriz de transposição de conjugado de
Figure img0061
em que ui é um vetor nulo do comprimento N com 1 na i.a posição.
Apparatus according to claim 8, characterized in that the filter determining unit (110) is configured to determine an audio input channel signal parameter (βi,, βj) for each of the two or more signals. of the audio input channel as audio input channel signal information (βi,, βj), so that for each pair of a first audio input channel signal of the audio input channel signals and another second audio input channel signal from audio input channel signals
Figure img0058
is true, where βi is the input channel signal parameter of that first audio input channel signal, where βi is the input channel signal parameter of this second audio input channel signal, where
Figure img0059
on what
Figure img0060
is the conjugate transposition matrix of
Figure img0061
where ui is a null vector of length N with 1 at the 1st position.
11. Aparelho, de acordo com a reivindicação 8 ou 10, caracterizado por a unidade de determinação do filtro (110) estar configurada para determinar a segunda matriz Φ de acordo com a fórmula
Figure img0062
em que a unidade de determinação do filtro (110) está configuradapara determinar a terceira matriz Φ de acordo com a fórmula
Figure img0063
em que ΦA é um número.
Apparatus according to claim 8 or 10, characterized in that the filter determination unit (110) is configured to determine the second matrix Φ according to the formula
Figure img0062
wherein the filter determination unit (110) is configured to determine the third matrix Φ according to the formula
Figure img0063
where ΦA is a number.
12. Aparelho, de acordo com a reivindicação 11, caracterizado por a unidade de determinação do filtro (110) estar configurada para determinar ΦA dependendo dos dois ou mais sinais do canal de entrada de áudio.Apparatus according to claim 11, characterized in that the filter determining unit (110) is configured to determine ΦA depending on the two or more signals of the audio input channel. 13. Aparelho, de acordo com qualquer uma das reivindicações 1 a 7, caracterizado por a unidade de determinação do filtro (110) estar configurada para determinar uma matriz de filtro intermédio HD através da estimativa de componentes de sinal diretos dos dois ou mais sinais de canal de entrada de áudio, através da estimativa de uma primeira informação da densidade espectral de potência e através da estimativa da segunda informação da densidade espectral de potência, eem que a unidade de determinação do filtro (110) está configurada ~para determinar o filtro HD dependendo da matriz do filtro intermédio H de acordo com a fórmulaH D = I - G + GH D ,em que I é uma matriz de unidade, eem que G é uma matriz de diagonal,em que o processador de sinal (120) está configurado para criar um ~ou mais sinais do canal de saída de áudio aplicando o filtro HD dos dois ou mais sinais do canal de entrada de áudio.Apparatus according to any one of claims 1 to 7, characterized in that the filter determination unit (110) is configured to determine an HD intermediate filter matrix by estimating direct signal components of the two or more signals. audio input channel, by estimating a first power spectral density information and by estimating the second power spectral density information, and wherein the filter determining unit (110) is configured to determine the HD filter depending on the matrix of the intermediate filter H according to the formula H D = I - G + GH D , where I is a unit matrix, and where G is a diagonal matrix, where the signal processor (120) is configured to create one ~or more audio output channel signals by applying the HD filter to the two or more audio input channel signals. 14. Método para criar um ou mais sinais do canal de saída de áudio dependendo de dois ou mais sinais do canal de entrada de áudio, em que cada um dos dois ou mais sinais do canal de entrada de áudio compreende partes de sinal direto e partes de sinal ambiente, caracterizado por o método compreender:determinar um filtro através da estimativa de uma primeira informação da densidade espectral de potência e da estimativa de uma segunda informação da densidade espectral de potência, em que o filtro depende da primeira informação de densidade espectral de potência e da segunda informação de densidade espectral de potência, ecriar um ou mais sinais do canal de saída de áudio aplicando o filtro nos dois ou mais sinais do canal de entrada de áudio, em que o um ou mais sinais do canal de saída de áudio dependem do filtro,em que a estimativa da primeira informação da densidade espectral de potência é conduzida por estimativa, para cada sinal do canal de entrada de áudio dos dois ou mais sinais do canal de entrada de áudio, as informações de densidade espectral de potência no referido sinal do canal de entrada de áudio e a estimativa da segunda informação de densidade espectral de potência são realizadas por estimativa, para cada sinal do canal de entrada de áudio dos dois ou mais sinais do canal de entrada de áudio, informações de densidade espectral de potência nas porções de sinal ambiente do referido sinal do canal de entrada de áudio ouem que a estimativa da primeira informação de densidade espectral de potência é conduzida estimando, para cada sinal do canal de entrada de áudio dos dois ou mais sinais do canal de entrada de áudio, a informação da densidade espectral de potência no referido sinal do canal de entrada de áudio e a estimativa da segunda informação de densidade espectral de potência é conduzida estimando, para cada sinal do canal de entrada de áudio dos dois ou mais sinais do canal de entrada de áudio, informações de densidade espectral de potência nas porções de sinal direto do referido sinal do canal de entrada de áudio, ouem que a estimativa da primeira informação de densidade espectral de potência é conduzida estimando, para cada sinal do canal de entrada de áudio dos dois ou mais sinais do canal de entrada de áudio, informações de densidade espectral de potência nas porções de sinal direto do referido sinal do canal de entrada de áudio e estimando a segunda potência a informação de densidade espectral é conduzida estimando, para cada sinal de canal de entrada de áudio dos dois ou mais sinais de canal de entrada de áudio, informações de densidade espectral de potência nas porções de sinal ambiente do referido sinal de canal de entrada de áudio.14. Method for creating one or more audio output channel signals depending on two or more audio input channel signals, wherein each of the two or more audio input channel signals comprises direct signal parts and parts of ambient signal, characterized in that the method comprises: determining a filter by estimating a first power spectral density information and estimating a second power spectral density information, wherein the filter depends on the first spectral density information of power and the second power spectral density information, and create one or more audio output channel signals by applying the filter to the two or more audio input channel signals, wherein the one or more audio output channel signals depend on the filter, in which the estimation of the first information of the power spectral density is conducted by estimation, for each audio input channel signal of the two or more signals of the audio input channel, the power spectral density information in said audio input channel signal and the estimation of the second power spectral density information are performed by estimation, for each audio input channel signal of the two or further audio input channel signals, power spectral density information in the ambient signal portions of said audio input channel signal or wherein the estimation of the first power spectral density information is conducted by estimating, for each channel signal of the two or more audio input channel signals, the power spectral density information in said audio input channel signal and the estimation of the second power spectral density information is conducted by estimating, for each signal. of the audio input channel of the two or more audio input channel signals, power spectral density information in the portions of direct signal of said audio input channel signal, or wherein estimation of the first power spectral density information is conducted by estimating, for each audio input channel signal of the two or more audio input channel signals, power spectral density information on the direct signal portions of said audio input channel signal and estimating the second power spectral density information is conducted by estimating, for each audio input channel signal of the two or more channel signals input audio, power spectral density information in the ambient signal portions of said audio input channel signal.
BR112015021520-3A 2013-03-05 2013-10-23 APPARATUS AND METHOD FOR CREATING ONE OR MORE AUDIO OUTPUT CHANNEL SIGNALS DEPENDING ON TWO OR MORE AUDIO INPUT CHANNEL SIGNALS BR112015021520B1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361772708P 2013-03-05 2013-03-05
US61/772,708 2013-03-05
PCT/EP2013/072170 WO2014135235A1 (en) 2013-03-05 2013-10-23 Apparatus and method for multichannel direct-ambient decomposition for audio signal processing

Publications (2)

Publication Number Publication Date
BR112015021520A2 BR112015021520A2 (en) 2017-08-22
BR112015021520B1 true BR112015021520B1 (en) 2021-07-13

Family

ID=49552336

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015021520-3A BR112015021520B1 (en) 2013-03-05 2013-10-23 APPARATUS AND METHOD FOR CREATING ONE OR MORE AUDIO OUTPUT CHANNEL SIGNALS DEPENDING ON TWO OR MORE AUDIO INPUT CHANNEL SIGNALS

Country Status (18)

Country Link
US (1) US10395660B2 (en)
EP (1) EP2965540B1 (en)
JP (2) JP6385376B2 (en)
KR (1) KR101984115B1 (en)
CN (1) CN105409247B (en)
AR (1) AR095026A1 (en)
AU (1) AU2013380608B2 (en)
BR (1) BR112015021520B1 (en)
CA (1) CA2903900C (en)
ES (1) ES2742853T3 (en)
HK (1) HK1219378A1 (en)
MX (1) MX354633B (en)
MY (1) MY179136A (en)
PL (1) PL2965540T3 (en)
RU (1) RU2650026C2 (en)
SG (1) SG11201507066PA (en)
TW (1) TWI639347B (en)
WO (1) WO2014135235A1 (en)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6385376B2 (en) * 2013-03-05 2018-09-05 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. Apparatus and method for multi-channel direct and environmental decomposition for speech signal processing
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US11146903B2 (en) 2013-05-29 2021-10-12 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
CN105992120B (en) 2015-02-09 2019-12-31 杜比实验室特许公司 Upmixing of audio signals
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
ES2717330T3 (en) 2015-03-27 2019-06-20 Fraunhofer Ges Forschung Apparatus and procedure for the processing of stereo signals for reproduction in automobiles, to achieve an individual three-dimensional sound by the front speakers
CN106297813A (en) 2015-05-28 2017-01-04 杜比实验室特许公司 The audio analysis separated and process
WO2017055485A1 (en) 2015-09-30 2017-04-06 Dolby International Ab Method and apparatus for generating 3d audio content from two-channel stereo content
US9930466B2 (en) * 2015-12-21 2018-03-27 Thomson Licensing Method and apparatus for processing audio content
TWI584274B (en) * 2016-02-02 2017-05-21 美律實業股份有限公司 Audio signal processing method for out-of-phase attenuation of shared enclosure volume loudspeaker systems and apparatus using the same
CN106412792B (en) * 2016-09-05 2018-10-30 上海艺瓣文化传播有限公司 The system and method that spatialization is handled and synthesized is re-started to former stereo file
GB201716522D0 (en) * 2017-10-09 2017-11-22 Nokia Technologies Oy Audio signal rendering
BR112020011035A2 (en) * 2017-11-17 2020-11-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. apparatus and method for encoding or decoding directional audio encoding parameters using different time-frequency resolutions
EP3518562A1 (en) 2018-01-29 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal processor, system and methods distributing an ambient signal to a plurality of ambient signal channels
EP3573058B1 (en) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Dry sound and ambient sound separation
WO2020037280A1 (en) 2018-08-17 2020-02-20 Dts, Inc. Spatial audio signal decoder
US11205435B2 (en) 2018-08-17 2021-12-21 Dts, Inc. Spatial audio signal encoder
CN109036455B (en) * 2018-09-17 2020-11-06 中科上声(苏州)电子有限公司 Direct sound and background sound extraction method, loudspeaker system and sound reproduction method thereof
EP3671739A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus and method for source separation using an estimation and control of sound quality
KR20220027938A (en) * 2019-06-06 2022-03-08 디티에스, 인코포레이티드 Hybrid spatial audio decoder
DE102020108958A1 (en) 2020-03-31 2021-09-30 Harman Becker Automotive Systems Gmbh Method for presenting a first audio signal while a second audio signal is being presented
WO2023170756A1 (en) * 2022-03-07 2023-09-14 ヤマハ株式会社 Acoustic processing method, acoustic processing system, and program

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
DE102006050068B4 (en) 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an environmental signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program
WO2008126347A1 (en) * 2007-03-16 2008-10-23 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
CN101816191B (en) 2007-09-26 2014-09-17 弗劳恩霍夫应用研究促进协会 Apparatus and method for extracting an ambient signal
DE102007048973B4 (en) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a multi-channel signal with voice signal processing
WO2011104146A1 (en) 2010-02-24 2011-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
TWI459828B (en) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp Method and system for scaling ducking of speech-relevant channels in multi-channel audio
JP6385376B2 (en) 2013-03-05 2018-09-05 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. Apparatus and method for multi-channel direct and environmental decomposition for speech signal processing

Also Published As

Publication number Publication date
KR20150132223A (en) 2015-11-25
MX2015011570A (en) 2015-12-09
SG11201507066PA (en) 2015-10-29
CA2903900A1 (en) 2014-09-12
HK1219378A1 (en) 2017-03-31
PL2965540T3 (en) 2019-11-29
AU2013380608A1 (en) 2015-10-29
MX354633B (en) 2018-03-14
JP2018036666A (en) 2018-03-08
JP6637014B2 (en) 2020-01-29
ES2742853T3 (en) 2020-02-17
US10395660B2 (en) 2019-08-27
KR101984115B1 (en) 2019-05-31
MY179136A (en) 2020-10-28
TWI639347B (en) 2018-10-21
JP2016513814A (en) 2016-05-16
CN105409247B (en) 2020-12-29
RU2015141871A (en) 2017-04-07
AR095026A1 (en) 2015-09-16
EP2965540A1 (en) 2016-01-13
EP2965540B1 (en) 2019-05-22
JP6385376B2 (en) 2018-09-05
CN105409247A (en) 2016-03-16
US20150380002A1 (en) 2015-12-31
CA2903900C (en) 2018-06-05
TW201444383A (en) 2014-11-16
RU2650026C2 (en) 2018-04-06
WO2014135235A1 (en) 2014-09-12
BR112015021520A2 (en) 2017-08-22
AU2013380608B2 (en) 2017-04-20

Similar Documents

Publication Publication Date Title
BR112015021520B1 (en) APPARATUS AND METHOD FOR CREATING ONE OR MORE AUDIO OUTPUT CHANNEL SIGNALS DEPENDING ON TWO OR MORE AUDIO INPUT CHANNEL SIGNALS
US10573328B2 (en) Determining the inter-channel time difference of a multi-channel audio signal
ES2555579T3 (en) Multichannel audio encoder and method to encode a multichannel audio signal
BR112013014173B1 (en) APPARATUS AND METHOD FOR DECOMPOSITING AN INPUT SIGNAL USING A PRE-CALCULATED REFERENCE CURVE
BRPI0816638B1 (en) DEVICE AND METHOD FOR MULTI-CHANNEL SIGNAL GENERATION INCLUDING VOICE SIGNAL PROCESSING
ES2552996T3 (en) Method and apparatus for decomposing a stereo recording using frequency domain processing using a spectral weighting generator
BR112015025919B1 (en) Apparatus and method for creating a modified audio signal and system
Negru et al. Automatic Audio Upmixing Based on Source Separation and Ambient Extraction Algorithms

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 23/10/2013, OBSERVADAS AS CONDICOES LEGAIS.