BR112015002228B1

BR112015002228B1 - Decodificador e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal

Info

Publication number: BR112015002228B1
Application number: BR112015002228-6A
Authority: BR
Inventors: Leon Terentiv; Oliver Hellmuth; Juergen Herre; Thorsten Kastner
Original assignee: Fraunhofer -Gesellschaft Zur Ferderung Der Angewandten Forschung E.V.
Priority date: 2012-08-03
Filing date: 2013-08-05
Publication date: 2021-12-14
Also published as: SG11201500783SA; CN110223701B; US20150142427A1; CA2880028A1; ZA201501383B; CN110223701A; AU2016234987A1; US10096325B2; KR101657916B1; EP2880654B1; RU2015107202A; KR20150032734A; PL2880654T3; MY176410A; WO2014020182A2; MX2015001396A; AU2013298463A1; PT2880654T; AU2016234987B2; ES2649739T3

Abstract

decodificador método para um conceito paramétrico de codificação objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal. um decodificador para gerar um sinal de saída de áudio, compreendendo um ou mais canal (is) de saída de áudio a partir de um sinal de downmix, compreendendo um ou mais canal (is) de downmix é fornecido. o sinal de downmix codifica um ou mais sinal(is) de objeto de áudio. o decodificador compreende um determinador de limite (110) para determinar um valor limite, dependendo de uma energia do sinal e/ou uma energia de ruido de, pelo menos, um de um ou mais sinal (is) de objeto de áudio e/ou dependendo de uma energia do sinal e/ou uma energia de ruído de, pelo menos, um de um ou mais canal (is) de downmix. além disso,o decodificador compreende uma unidade de processamento (120) para gerar um ou mais canal(ie) de saída de áudio a partir de um ou mais canal(is) de downmix, dependendo do valor limite. figura 1

Description

[0001] A presente invenção refere-se a um aparelho e método para um conceito paramétrico de codificação de objeto de áudio espacial generalizada para caixas de downmix/upmix multicanal.

[0002] Nos sistemas de áudio digital modernos, é uma grande tendência permitir modificações relacionadas ao objeto de áudio do conteúdo transmitido no lado receptor. Estas modificações incluem as modificações de ganho das partes selecionadas do sinal de áudio e/ou reposicionamento espacial dos objetos de áudio dedicados no caso de reprodução multicanal através dos alto-falantes distribuídos espacialmente. Isso pode ser obtido individualmente pela entrega de partes diferentes do conteúdo de áudio aos diferentes alto-falantes.

[0003] Em outras palavras, na técnica de processamento de áudio, transmissão de áudio e armazenamento de áudio, há um desejo crescente em permitir a interação do usuário na reprodução do conteúdo de áudio orientada por objeto e também uma demanda para utilizar as possibilidades estendidas de reprodução multicanal para individualmente apresentar os conteúdos de áudio ou porções destes a fim de melhorar a impressão da audição. Pelo presente, a utilização do conteúdo de áudio multicanal traz melhorias significativas para o usuário. Por exemplo, uma impressão da audiçãotridimensional pode ser obtida, o que traz uma satisfação melhorada do usuário nas aplicações de entretenimento. Entretanto, o conteúdo de áudio multicanal também é útil em ambientes profissionais, por exemplo, nas aplicações de conferência telefônica, pois a integibilidade do emissor de voz pode ser melhorada utilizando uma reprodução de áudio multicanal. Outra possivel aplicação é oferecer a um ouvinte de uma peça musical o ajuste individual do nivel de reprodução e/ou posição espacial de diferentes peças (ainda definido como "objetos de áudio") ou faixas, como uma parte vocal ou diferentes instrumentos. O usuário pode realizar este ajuste por razões de gosto pessoal, para transcrever de forma mais fácil uma ou mais partes da peça musical, finalidades educacionais, karaokê, ensaio, etc.

[0004] A transmissão discreta direta de todo o conteúdo de áudio multicanal digital ou multiobjeto, por exemplo, na forma de dados de modulação de pulso (PCM | pulse code modulation)ou ainda formatos de áudio comprimidos, exige taxas de bit muito altas* Entretanto, é ainda desejável transmitir e armazenar dados de áudio em uma forma eficiente da taxa de bit. Assim, alguém deseja aceitar uma vantagem razoável entre a qualidade do áudio e as exigências da taxa de bit a fim de evitar uma carga de recurso excessivo causada pelas aplicações multicanal/ multiobjeto.

[0005] Recentemente, no campo da codificação de áudio, as técnicas paramétricas para a transmissão/ armazenamento eficientes por taxa de bit de sinais de áudio multicanal/ multiobjeto foram introduzidas, por exemplo, pelo Grupo de Especialistas de Imagens com Movimento (MPEG | Moving Picture Experts Group) e outros. Um exemplo é MPEG Surround (MPS) como uma abordagem orientada por canal [MPS, BCC], ou Codificação do Objeto de Áudio Espacial MPEG (SAOC | Spatial Audio Object Coding)como uma abordagem orientada por objeto [JSC, SAOC, SAOC1, SAOC2]. Outra abordagem orientada por objeto é denominada "separação de fonte informada" [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Estas técnicas pretendem reconstruir uma cena de áudio de saida desejada ou um objeto de fonte de áudio desejada com base em um downmix de canais/ objetos e informações laterais adicionais que descrevem a cena de áudio transmitida/ armazenada e/ou os objetos de fonte de áudio na cena de áudio.

[0006] A estimativa e a aplicação da informação adicional relacionada ao canal/ objeto nestes sistemas é feita em uma forma seletiva de tempo/frequência. Assim, estes sistemas empregam as transformadas de tempo/frequência como a Transformada Discreta de Fourier (DFT I Discrete Fourier Transform) , a Transformada de Fourier de Curta Duração (STFT I Short Time Fourier Transform)ou bancos de filtro como bancos de Filtro Espelhado em Quadratura (QMF | Quadrature Mirror Filter) , etc. O principio básico destes sistemas é descrito na figura 2, utilizando o exemplo de MPEG SAOC.

[0007] No caso de STFT, a dimensão temporal é representada pelo número de bloco de tempo e a dimensão espectral é capturada pelo número de coeficiente espectral ("posição"). No caso de QMF, a dimensão temporal é representada pelo número da faixa de tempo e a dimensão espectral é capturada pelo número de sub-banda. Se a resolução espectral de QMF é melhorada pela aplicação subsequente de um segundo estágio de filtro, todo o banco de filtro é denominado QMF hibrido e as sub-bandas de fina resolução são denominadas sub-bandas hibridas.

[0008] Conforme já mencionado acima, em SAOC oprocessamento geral é realizado em uma forma seletiva de tempo/frequência e pode ser descrito como segue dentro de cada faixa de frequência, conforme descrito na figura 2:- sinais de objeto de áudio de entrada N Si ... sN são misturados aos canais P xi ... xP como parte do processamento do codificador utilizando uma matriz de downmix que consiste em elementos difi ... dN,P. Além disso, o codificador extrai a informação adicional que descreve as características dos objetos de áudio de entrada (módulo do estimador de informação adicional(SIE | side-information- estimator)). Para MPEG SAOC, as relações das potências do objeto entre elas são a forma mais básica desta informação adicional.- sinal (s) de downmixe informação adicional são transmitidos/armazenados. Para esta finalidade, o(s) sinal(s) de áudio de downmix podem ser comprimidos, por exemplo, utilizando os codificadores de áudio perceptuais bem conhecidos como MPEG-1/2 Camada II ou III (aka .mp3), Codificação de Áudio Avançada MPEG-2/4 (AAC | Advanced Audio Coding)etc.- na extremidade de recepção, o decodificador conceitualmente tenta recuperar os sinais do objeto originais ("separação do objeto") do(s) sinais de downmix (decodificados) utilizando a informação adicional transmitida. Estes sinais do objeto aproximado Si ... sN são então misturados em uma cena alvo representada por canais de saida de áudio M ... yM utilizando uma matriz de renderização descrita pelos coeficientes ri,i ... rNfM na Figura 2. A cena alvo desejada pode ser, no caso extremo, a renderização de apenas um sinal fonte da mistura (cenário de separação da fonte), mas ainda qualquer outra cena acústica arbitrária que consiste em objetos transmitidos. Por exemplo, a saida pode ser uma cena alvo com canal único, de 2 canais estéreos ou multicanal 5.1.

[0009] A largura de banda/armazenamento crescente disponível e as melhorias continuas no campo da codificação de áudio permitem que o usuário selecione a partir de uma escolha constantemente crescente de produções de áudio multicanal. Os formatos de áudio multicanal 5.1 já são padrão em produções de DVD e Blue-Ray. Os novos formatos de áudio como Áudio 3D MPEG-H com canais de transporte de áudio aparecem no horizonte, o que fornecerá aos usuários finais uma experiência de áudio altamente imersiva.

[0010] Os esquemas de codificação de áudio paramétrico são atualmente restritos a um máximo de dois canais de downmix. Eles podem ser aplicados apenas em alguma extensão nas misturas multicanal, por exemplo, apenas em dois de downmix selecionados. A flexibilidade que estes esquemas de codificação oferecem ao usuário para ajustar a cena de áudio nas suas próprias preferências é então severamente limitada, por exemplo, com relação à mudança do nivel de áudio do comentarista de esportes e a atmosfera na transmissão de esportes.

[0011] Além disso, os esquemas de codificação do objeto de áudio atuais oferecem apenas uma variabilidade limitada no processo de mistura no lado do codificador. O processo de mistura é limitado à mistura variante de tempo dos objetos de áudio; e a mistura variante de frequência não é possivel.

[0012] Assim, seria altamente observado se os conceitos melhorados para a codificação de objeto de áudio fossem fornecidos.

[0013] O objetivo da presente invenção é fornecer os conceitos melhorados para a codificação de objeto de áudio. O objetivo da presente invenção é solucionado por um decodificador de acordo com a reivindicação 1, por um método, de acordo com a reivindicação 14 e por um programa de computador, de acordo com a reivindicação 15.

[0014] Um decodificador para gerar um sinal de saida de áudio compreendendo um ou mais canal (is) de saida de áudio a partir de um sinal de downtníx compreendendo um ou mais canal(is) de downmix é fornecido. O sinal de downmix codifica um ou mais sinal(is) de objeto de áudio. O decodificador compreende um determinador de limite para determinar um valor limite, dependendo de uma energia do sinal e/ou uma energia de ruido de, pelo menos, um de um ou mais sinal(is) de objeto de áudio e/ou dependendo de uma energia do sinal e/ou uma energia de ruido de, pelo menos, um de um ou mais canal (is) de downmix. Além disso, o decodificador compreende uma unidade de processamento para gerar um ou mais canal(is) de saida de áudio a partir de um ou mais canal (is) de downmix dependendo do valor limite.

[0015] De acordo com uma aplicação, o sinal de downmix pode compreender dois ou mais canais de downmix, e o determinador de limite pode ser configurado para determinar o valor limite, dependendo de uma energia de ruido de cada um de dois ou mais canais de downmix.

[0016] Em uma aplicação, o determinador de limite pode ser configurado para determinar o valor limite, dependendo da soma de toda energia de ruido em dois ou mais canais de downmix.

[0017] De acordo com uma aplicação, o sinal de downmix pode codificar dois ou mais sinais de objeto de áudio, e o determinador de limite pode ser configurado para determinar o valor limite, dependendo de uma energia do sinal do sinal do objeto de áudio de dois ou mais sinais de objeto de áudio que tem a maior energia do sinal de dois ou mais sinais de objeto de áudio.

[0018] Em uma aplicação, o sinal de downmix pode compreender dois ou mais canais de downmix, e o determinador de limite pode ser configurado para determinar o valor limite, dependendo da soma de toda energia de ruido em dois ou mais canais de downmix.

[0019] De acordo com uma aplicação, o sinal de downmix pode codificar um ou mais sinal (is) de objeto de áudio para cada porção de tempo/frequência de uma pluralidade de porções de tempo/frequência. 0 determinador de limite pode ser configurado para determinar um valor limite para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência dependendo da energia do sinal ou da energia de ruido de, pelo menos, um de um ou mais sinal(is) de objeto de áudio ou dependendo da energia do sinal ou da energia de ruido de, pelo menos, um de um ou mais canal (is) de downmix, caracterizado por um primeiro valor limite de uma primeira porção de tempo/frequência da pluralidade de porções de tempo/frequência poder diferir de uma segunda porção de tempo/frequência da pluralidade de porções detempo/frequência. A unidade de processamento pode ser configurada para gerar para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência um valor do canal de cada um ou mais canal(is) de saida de áudio a partir de um ou mais canal (is) de downmix dependendo do valor limite da referida porção de tempo/frequência.

[0020] Em uma aplicação, o decodif icador pode serconfigurado para determinar o valor limite T em decibel de acordo com a fórmula

[0021]

[0022] ou de acordo com a fórmula

(0023]

[0024] caracterizado por T[t/B] indicar o valorlimite em decibel, em que EMofrt[t/B] indica a soma de toda energia de ruido em dois ou mais canais de downmix em decibel, em que Ere/[dB]indica a energia do sinal de um dos sinais de objeto de áudio em decibel, e em que Z indica um parâmetro adicional sendo um número. Em uma aplicação alternativa, Eno/ie[í/B] indica a soma de toda energia de ruidoem dois ou mais canais de downmix em decibelnúmero de canais de downmix.

[0025] De acordo com uma aplicação, o decodificador pode ser configurado para determinar o valor limite T de acordo com a formula

[0026]

[0027] ou de acordo com a fórmula

[0028]

[0029]caracterizado por T indicar o valor limite, em que Enoise indica a soma de toda energia de ruído em dois ou mais canais de downmix, em que Eref indica a energia do sinal de um dos sinais de objeto de áudio, e em que Z indica um parâmetro adicional sendo um número. Em uma aplicação al terna tiva, Enoise[dB] indica a soma de toda energia de ruído em dois ou mais canais de downmix dividido pelo número de canais de downmix.

[0030] De acordo com uma aplicação, a unidade de processamento pode ser conf igurada para gerar um ou mais canal(is) de saída de áudio à partir de um ou mais canal(is) de downmix dependendo de uma matriz de covariância do objeto (E) de um ou mais sinal(is) de objeto de áudio, dependendo de uma matriz de downmix (D) para reduzir dois ou mais sinais de objeto de áudio para obter dois ou mais canais de downmix, e dependendo do valor limite,

[0031] Em uma aplicação~ a unidade de processamenté configurada para gerar um ou mais canal(is) de saida de áudio a partir de um ou mais canal (is) de downmix através da aplicação do valor limite em uma função para inverter uma matriz de correção cruzada do canal de downmixQ, caracterizado por Q ser definido como Q = DED*, em que D é a matriz de downmix para reduzir dois ou mais sinais de objeto de áudio para obter os dois ou mais canais de downmix, e em que E é a matriz de covariância do objeto de um ou mais sinal(is) de objeto de áudio.

[0032] Por exemplo, a unidade de processamento pode ser configurada para gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal (is) de downmix através do cálculo dos valores próprios da matriz de correção cruzada do canal de downmixQ ou através do cálculo dos valores singulares da matriz de correção cruzada do canal de downmix Q.

[0033] Por exemplo, a unidade de processamento pode ser configurada para gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal (is) de downmix através da multiplicação do maior valor próprio dos valores próprios da matriz de correção cruzada do canal de downmixQ com o valor limite para obter um limite relativo.

[0034] Por exemplo, a unidade de processamento pode ser configurada para gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal (is) de downmix pela geração de uma matriz modificada. A unidade de processamento pode ser configurada para gerar a matriz modificada dependendo apenas destes vetores próprios da matriz de correção cruzada do canal de downmixQ, que tem um valor próprio dos valores próprios da matriz de correção cruzada do canal de downmixQ, que é maior ou igual ao limite modificado. Além disso, a unidade de processamento pode ser configurada para conduzir uma inversão da matriz da matriz modificada para obter uma matriz invertida. Além disso, a unidade de processamento pode ser configurada para aplicar a matriz invertida em um ou mais dos canais de downmix para gerar um ou mais canal(is) de saida de áudio.

[0035] Além disso, um método para gerar um sinal de saida de áudio compreendendo um ou mais canal(is) de saida de áudio a partir de um sinal de downmix compreendendo um ou mais canal (is) de downmix é fornecido. O sinal de downmix codifica um ou mais sinal (is) de objeto de áudio. 0 decodificador compreende:- determinar um valor limite, dependendo de uma energia do sinal ou uma energia de ruido de, pelo menos, um de um ou mais sinal (is) de objeto de áudio ou dependendo de uma energia do sinal ou uma energia de ruido de, pelo menos, um de um ou mais canal(is) de downmix. E:- gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal(is) de downmix dependendo do valor limite.

[0036] Além disso, um programa de computador para implementar o método descrito acima ao ser executado em um computador ou processador de sinal é fornecido.

[0037] A seguir, as aplicações da presente invenção são descritas em mais detalhes com referência às figuras, nas quais:

[0038] A figura 1 ilustra um decodificador paragerar um sinal de saida de áudio compreendendo um ou mais canal(is) de saida de áudio de acordo com uma aplicação,

[0039] A figura 2 é uma visão geral do sistema SAOCque descreve o principio destes sistemas utilizando o exemplo de MPEG SAOC,

[0040] A figura 3 ilustra uma visão geral doconceito de upmix paramétrico G-SAOC, e

[0041] A figura 4 ilustra um conceito geral dedownmix/ upmix.

[0042] Antes de descrever as aplicações da presenteinvenção, mais histórico dos sistemas de SAOC do estado da técnica é fornecido.

[0043] A figura 2 mostra uma disposição geral de umcodificador SAOC 10 e um decodificador SAOC 12. O codificador SAOC 10 recebe, como uma entrada, objetos N, ou seja, sinais de áudio Sj a sN. Em particular, o codificador 10 compreende um downmixer16 que recebe os sinais de áudio s2 a sN e reduz o mesmo a um sinal de downmix 18. De modo alternativo, o downmix pode ser fornecido externamente {"downmix artistico") e o sistema estima a informação adicional para fazer o downmix fornecido corresponder com o downmix calculado. Na figura 2, o sinal de downmix é mostrado para ser um sinal do canal P. Assim, qualquer configuração do sinal de downmix mono (P=l), estéreo (P=2) ou multicanal (P>2) é concebivel.

[0044] No caso de um downmix estéreo, os canais dosinal de downmix 18 são denotados L0 e R0, no caso de um downmix mono o mesmo é simplesmente denotado L0. A fim de permitir que o decodificador SAOC 12 recupere os objetos individuais Si a sN,o estimador de informação adicional 17 fornece o decodificador SAOC 12 com informação adicional incluindo parâmetros de SAOC* Por exemplo, no caso de um downmix estéreo, os parâmetros de SAOC compreendem as diferenças do nivel do objeto (OLD | object level differences') , correlações entre objeto (IOC | inter-object correlations)(parâmetros de correlação cruzada entre objetos), valores de ganho de downmix (DMG | downmix gain values)e diferenças do nivel do canal de downmix (DCLD | downmix channel level differences) . Ainformação adicional 20, incluindo os parâmetros de SAOC, com o sinal de downmix 18, forma o fluxo de dados de saida de SAOC recebido pelo decodificador SAOC 12.

[0045] O decodificador SAOC 12 compreende um up-mixer que recebe o sinal de downmix 18 bem como a informação adicional 20 a fim de recuperar e apresentar os sinais de áudio §i e sN em qualquer conjunto selecionado pelo usuário de canais yi a yM, com a renderização sendo prescrita pela informação de renderização 26 inserida no decodificador SAOC 12.

[0046] Os sinais de áudio Si a sN podem serinseridos no codificador 10 em qualquer dominio de codificação, como, no dominio de tempo ou espectral. No caso em que os sinais de áudio Si a sN são inseridos no codificador 10 no dominio de tempo, como PCM codificado, o codificador 10 pode utilizar um banco de filtro, como um banco de QMF hibrido, a fim de transferir os sinais em um domínio espectral, no qual os sinais de áudio são representados em várias sub-bandas associadas com as diferentes partes espectrais, em uma resolução de banco de filtro específica. Se os sinais de áudio Si a sN já estão na representação esperada pelo codificador 10, o mesmo não tem que realizar a decomposição espectral.

[0047] Mais flexibilidade no processo de misturapermite uma ótima exploração das características do objeto do sinal. Um downmix pode ser produzido sendo otimizado para a separação paramétrica no lado do decodificador referente à qualidade percebida.

[0048] A aplicação estende a parte paramétrica doesquema SAOC a um número arbitrário de canais de downmix/upmix. A figura seguinte fornece a visão geral do conceito de upmix paramétrico da Codificação de Objeto de Áudio Espacial Generalizada (G-SAOC I Generalized Spatial Audio Object Coding):

[0049] A figura 3 ilustra uma visão geral doconceito de upmix paramétrico G-SAOC A com pós-mistura completamente flexível (renderização) dos objetos de áudio parametricamente reconstruídos pode ser realizada.

[0050] Inter alia, a figura 3 ilustra umdecodificador de áudio 310, um separador de objeto 320 e um renderizador 330.

[0051] Vamos considerar a seguinte anotação comum:

[0052] x - sinal do objeto de áudio de entrada (comtamanho NobJ)

[0053] y - sinal de áudio de downmix (com tamanho

[0054] z - sinal da cena de saida renderizado (comtamanho Nupmü)

[0055] D - matriz de downmix (com tamanho N^xN^)

[0056] R - matriz de renderização (com tamanho2V.X N„nm,r)obj upmix '

[0057] G- matriz paramétrica de upmix (com tamanhoN, xN )

[0058] E- matriz de covariância do objeto (comtamanho A^xjV^)

[0059] Todas as matrizes introduzidas são (no geral)variantes no tempo e na frequência.

[0060] A seguir, a relação constitutiva para oupmixingparamétrico é fornecida.

[0061] Primeiramente, os conceitos gerais dedownmix/ upmix são fornecidos com referência à figura 4. Em particular, a figura 4 ilustra um conceito geral de downmix/ upmix, em que a figura 4 ilustra os sistemas modelados (esquerda) e de upmixparamétrico (direita).

[0062] Mais particularmente, a figura 4 ilustra umaunidade de renderização 410, uma unidade de downmix 421 e uma unidade de upmixparamétrico 422.

[0063] O sinal da cena de saida renderizado ideal(modelado)z é definido como, veja a figura (esquerda):

[0064] Rx = z (1)

[0065] O sinal de áudio de downmix y é determinado como, veja na figura 4 (direita) t

[0066] DX y. (2)

[0067] A relação constitutiva (aplicada no sinal deáudio de downmix) para a reconstrução do sinal da cena de saida paramétrica pode ser representada como, veja a figura 4 (direita):

[0068] Gy = Z (3)

[0069] A matriz de upmix paramétrico pode serdefinida de (1) e (2) como a seguinte função das matrizes de downmix e renderização G=G(D,R)'

[0070]

[0071] A seguir, a melhoria da estabilidade daestimativa da fonte paramétrica de acordo com a aplicação é considerada.

[0072] O esquema de separação paramétrica dentro deMPEG SAOC se baseia em uma estimativa da minima média quadrática (LMS | Least Mean Square) das fontes na mistura. A estimativa LMS envolve a inversão da matriz de covariância do canal de downmix descrito de forma paramétrica Q=DED’. Os algoritmos para a inversão da matriz são, no geral, sensiveis às matrizes condicionadas. A inversão desta matriz pode causar sons não naturais, chamados perturbações, na cena de saida renderizada. Um limite fixo determinado de forma de forma heuristica T em MPEG SAOC evita isso atualmente. Embora as perturbações sejam evitadas por este método, um possivel desempenho suficiente de separação no lado do decodificador pode assim não ser obtido.

[0073] A figura 1 ilustra um decodificador para gerar um sinal de saida de áudio compreendendo um ou mais canal(is) de saida de áudio a partir de um sinal de downmix compreendendo um ou mais canal(is) de downmix de acordo com uma aplicação. O sinal de downmixcodifica um ou mais sinal(is) de objeto de áudio*

[0074] 0 decodificador compreende um determinador de limite 110 para determinar um valor limite, dependendo de uma energia do sinal e/ou uma energia de ruido de, pelo menos, um de um ou mais sinal (is) de objeto de áudio e/ou dependendo de uma energia do sinal e/ou uma energia de ruido de, pelo menos, um de um ou mais canal(is) de downmix.

[0075] Além disso, o decodificador compreende uma unidade de processamento 120 para gerar um ou mais canal(is) de saida de áudio a partir de um ou mais canal(is) de downmix dependendo do valor limite*

[0076] Ao contrário do estado da técnica, o valor limite determinado pelo determinador de limite 110 depende de uma energia do sinal ou uma energia de ruido de um ou mais canal (is) de downmix ou de um ou mais sinal (is) de objeto de áudio codificados. Nas aplicações, como as energias do sinal e de ruido de um ou mais canal (is) de downmix e/ou de um ou mais valores do sinal do objeto de áudio variam, então o valor limite varia, por exemplo, periodicamente, ou da porção de tempo/frequência em porção de tempo/frequência.

[0077] As aplicações fornecem um método de limite adaptativo para inversão da matriz atingir uma separação paramétrica melhorada dos objetos de áudio no lado do decodificador. O desempenho da separação está na melhor média, mas nunca menos do que o esquema de limite fixo atualmente utilizado em MPEG SAOC no algoritmo para inverter a matriz Q .

[0078] O limite T é dinamicamente adaptado à precisão dos dados para cada porção de tempo/frequência processado. O desempenho da separação é então melhorado e as perturbações na cena de saida renderizada causadas pela inversão das matrizes condicionadas são evitadas.

[0079] De acordo com uma aplicação, o sinal de downmix pode compreender dois ou mais canais de downmix, e o determinador de limite 110 pode ser configurado para determinar o valor limite, dependendo de uma energia de ruido de cada um de dois ou mais canais de downmix.

[0080] Em uma aplicação, o determinador de limite 110 pode ser configurado para determinar o valor limite, dependendo da soma de toda energia de ruido em dois ou mais canais de downmix.

[0081] De acordo com uma aplicação, o sinal de downmix pode codificar dois ou mais sinais de objeto de áudio, e o determinador de limite 110 pode ser configurado para determinar o valor limite, dependendo de uma energia do sinal do sinal do objeto de áudio dos dois ou mais sinais de objeto de áudio que tem a maior energia do sinal de dois ou mais sinais de objeto de áudio.

[0082] Em uma aplicação, o sinal de downmix pode compreender dois ou mais canais de downmix, e odeterminador de limite 110 pode ser configurado para determinar o valor limite, dependendo da soma de toda energia de ruido em dois ou mais canais de downmix.

[0083] De acordo com uma aplicação, o sinal de downmix pode codificar um ou mais sinal(is) de objeto de áudio para cada porção de tempo/frequência de uma pluralidade de porções de tempo/frequência* O determinador de limite 110 pode ser configurado para determinar um valor limite para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência dependendo da energia do sinal ou da energia de ruido de, pelo menos, um de um ou mais sinal (is) de objeto de áudio ou dependendo da energia do sinal ou da energia de ruido de, pelo menos, um de um ou mais canal (is) de downmix, em que um primeiro valor limite de uma primeira porção de tempo/frequência da pluralidade de porções de tempo/frequência pode diferir de uma segunda porção de tempo/frequência da pluralidade de porções de tempo/frequência. A unidade de processamento 120 pode ser configurada para gerar para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência um valor do canal de cada um de um ou mais canal (is) de saida de áudio a partir de um ou mais canal(is) de downmix dependendo do valor limite da referida porção de tempo/frequência.

[0084] De acordo com uma aplicação, o decodificadorpode ser configurado para determinar o valor limite T deacordo com a fórmula E

[0085]

- ou de acordo com a fórmula

[0086]

f

[0087] em que T indica o valor limite, em que Enoiseindica a soma de toda energia de ruido em dois ou mais canais de downmix, em que Erefindica a energia do sinal de um dos sinais de objeto de áudio, e em que Z indica um parâmetro adicional sendo um número. Em uma aplicação alternativa, Enoxse indica a soma de toda energia de ruido em dois ou mais canais de downmix dividido pelo número de canais de downmix.

[0088] Em uma aplicação, o decodif icador pode serconfigurado para determinar o valor limite T em decibel de acordo com a fórmula

[0089] T[JB] = Eno/Je[dB]- Ew/[dB] - Z

[0090] ou de acordo com a fórmula

[0091] T[dB] = E„,.[^]-E*[dB]j

[0092] em que T[í/5] indica o valor limite em decibel, em que Enota,[í/B] indica a soma de toda energia de ruido em dois ou mais canais de downmix em decibel, em que indica a energia do sinal de um dos sinais de objeto de áudio em decibel, e em que Z indica um parâmetro adicional sendo um número. Em uma aplicação alternativa, Eno/ie[í75] indica a soma de toda energia de ruido em dois ou mais canais de downmix em decibel dividido pelo número de canais de downmix.

[0093] Em particular, uma estimativa bruta do limitepode ser dada para cada porção de tempo/frequência por:

(0094)

[0095] Eno/jepode indicar o nivel base do ruido, porexemplo, a soma de toda energia de ruido nos canais de downmix. A base de ruido pode ser definida pela resolução dos dados de áudio, por exemplo, uma base de ruido causada pela codificação por PCM dos canais. Outra possibilidade é considerar o ruido da codificação se o downmix for comprimido. Para este caso, a base de ruido causada pelo algoritmo de codificação pode ser adicionada. Em uma aplicação alternativa, Eno/je[í/5] indica a soma de toda energia de ruido em dois ou mais canais de downmix em decibel dividido pelo número dos canais de downmix.

[0096] Ere/pode indicar uma energia do sinal de referência. Na forma mais simples, essa pode ser a energia do objeto de áudio mais forteí

[0097] Ere/-max(E). (6)

[0098] Z pode indicar um fator de penalidade para causar parâmetros adicionais que afetam a resolução de separação, por exemplo, a diferença do número de canais de downmix e número de objetos fonte. O desempenho da separação reduz com o número crescente de objetos de áudio. Além disso, os efeitos da quantização da informação do lado paramétrico sobre a separação podem também ser incluidos.

[0099] Em uma aplicação, a unidade de processamento 120 é configurada para gerar am ou mais canal(is) de saida de áudio a partir de um ou mais canal(is) de downmix dependendo da matriz de covariância do objeto E de um ou mais sinal (is) de objeto de áudio, dependendo da matriz de downmixD para reduzir os dois ou mais sinais de objeto de áudio para obter dois ou mais canais de downmix, e dependendo do valor limite.

[0100] De acordo com uma aplicação, para gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal(is) de downmix dependendo do valor limite, a unidade de processamento 120 pode ser configurada para proceder como segue:

[0101] O limite (que pode ser referido como "limitede resolução por separação") é aplicado no lado do decodificador na função para inverter a matriz de correção cruzada parametricamente estimada do canal de downmix Q.

[0102] Os valores singulares de Q ou os valorespróprios de Q são calculados.

[0103] O maior valor próprio é considerado emultiplicado com o limite T .

[0104] Todos, exceto o maior valor próprio, sãocomparados com este limite relativo e omitidos se são menores.

[0105] A inversão da matriz é então realizada em umamatriz modificada, em que a matriz modificada pode, por exemplo, ser a matriz definida pelo conjunto reduzido de vetores. Deveria ser observado que, para o caso que todos exceto o valor próprio mais alto são omitidos, o valor próprio mais alto deveria ser definido no nivel base do ruido se o valor próprio estiver abaixo.

[0106] Por exemplo, a unidade de processamento 120pode ser configurada para gerar um ou mais canal (is) de saida de áudio a partir de um ou mais canal (is) de downmix pela geração da matriz modificada. A matriz modificada pode ser gerada dependendo apenas destes vetores próprios da matriz de correção cruzada do canal de downmixQ, que têm um valor próprio dos valores próprios da matriz de correção cruzada do canal de downmixQ, que é maior ou igual ao limite modificado. A unidade de processamento 120 pode ser configurada para conduzir uma inversão da matriz da matriz modificada para obter uma matriz invertida. Então, a unidade de processamento 120 pode ser configurada para aplicar a matriz invertida em um ou mais dos canais de downmix para gerar um ou mais canal (is) de saida de áudio. Por exemplo, a matriz invertida pode ser aplicada em um ou mais dos canais de downmix em uma das formas como a matriz invertida do produto da matriz DED é aplicado nos canais de downmix (veja, por exemplo [SAOC], veja, em particular, por exemplo: ISO/IEC, "tecnologias de áudio MPEG - Parte 2: Codificação de objeto de áudio espacial (SAOC),"ISO/IEC JTC1/SC29/WG11 (MPEG) Padrão Internacional 23003-2:2010, em particular, veja, capitulo "Processamento SAOC", mais particularmente, veja subcapitulo "Códigos de transcodificação" e subcapitulo "Modos de decodificação").

[0107] Os parâmetros que podem ser empregados para estimar o limite Tpodem ser tanto determinados no codificador quanto incorporados na informação adicional paramétrica ou estimados diretamente no lado do decodificador.

[0108] Uma versão simplificada do estimador de limite pode ser utilizada no lado do codificador para indicar instabilidades potenciais na estimativa fonte no lado do decodificador. Na sua forma mais simples, negligenciando todos os termos de ruido, a norma da matriz de downmix pode ser computada indicando que o potencial total dos canais de downmix disponíveis para estimar parametricamente os sinais fontes no lado do decodificador não pode ser explorado. Este indicador pode ser utilizado durante o processo de mistura para evitar misturar as matrizes que são criticas para estimar os sinais fonte.

[0109] Com referência à parametrização da matriz de covariância do objeto, um pode ver que o método de upmix paramétrico descrito com base na relação constitutiva (4) é invariante ao sinal das entidades fora da diagonal da matriz de covariância do objeto E . Isso resulta na possibilidade da parametrização mais eficiente (em comparação com SAOC) (quantização e codificação) dos valores que representam as correlações entre o objeto.

[0110] Referente ao transporte de informações que representam a matriz de downmix, de forma geral, a entrada de áudio e sinais de downmix x, y juntos com a matriz de covariância E são determinados no lado do codificador. A representação codificada do sinal de áudio de downmix y e informações que descrevem a matriz de covariância E são transmitidas ao lado do decodificador (através da carga útil do fluxo de bits continuo). A matriz de renderização R é definida e disponível no lado do decodificador.

[0111] As informações que representam a matriz de downmixD (aplicadas no codificador e utilizadas como o decodificador) podem ser determinadas (no codificador) e obtidas (no decodificador) utilizando os seguintes métodos do principio.

[0112] A matriz de downmixD pode ser:definida e aplicada (no codificador) e sua representação codificada e quantificada explicitamente transmitida (ao decodificador) através da carga útil do fluxo de bits continuo.atribuida e aplicada (no codificador) e recuperada (no decodificador) utilizando as tabelas de visualização armazenadas (ou seja, definida das matrizes de downmix predeterminadas).atribuida e aplicada (no codificador) e recuperada (no decodificador) de acordo com o algoritmo especifico ou método (por exemplo, colocação especialmente ponderada e equidistante ordenada dos objetos de áudio aos canais de downmix disponíveis).estimada e aplicada (no codificador) e recuperada (no decodificador) utilizando os critérios de otimização particulares permitindo a "mistura flexivel" de objetos de áudio de entrada (ou seja, geração da matriz de downmix que é otimizada para a estimativa paramétrica dos objetos de áudio no lado do decodificador). Por exemplo, o codificador gera a matriz de downmix em uma forma para tornar o upmixparamétrico mais eficiente, em termos de reconstrução de propriedade do sinal especial, como covariância, correlação entre sinais ou melhorar/ garantir a estabilidade numérica do algoritmo de upmixparamétrico.

[0113] As aplicações fornecidas podem ser aplicadas em um número arbitrário de canais de downmix/ upmix e podem ser combinadas com qualquer corrente e outros formatos de áudio futuros.

[0114] A flexibilidade do método inventivo permite que o desvio dos canais inalterados reduza a complexidade computacional, reduzindo a carga útil do fluxo de bits continuo/quantidade de dados reduzida.

[0115] Um codificador de áudio, método ou programa de computador para codificação é fornecido. Além disso, um decodificador de áudio, método ou programa de computador para decodificação é fornecido. Além disso, um sinal codificado é fornecido.

[0116] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou uma característica de uma etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou característica de um aparelho correspondente.

[0117] O sinal decomposto inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido em um meio de transmissão, como um meio de transmissão sem fio ou um meio de transmissão com fio, como a Internet.

[0118] Dependendo de certas exigências de implementação, as aplicações da invenção podem ser implementadas em hardware OU em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma memóriaROM, uma PROM, uma EPROM, uma EEPROM ou uma memória FLASH tendo sinais de controle eletronicamente legiveis armazenados nele (ou são capazes de cooperar) com um sistema de computador programável de modo que o respectivo método seja realização.

[0119] Algumas aplicações, de acordo com a invenção, compreendem um transportador de dados não transitórios tendo sinais de controle eletronicamente legiveis que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos neste documento seja realizado.

[0120] De forma geral, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código do programa, o código do programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado em um computador. O código do programa pode, por exemplo, ser armazenado em um transportador legivel por máquina.

[0121] Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos neste documento, armazenados em um transportador legivel por máquina.

[0122] Em outras palavras, uma aplicação do método inventivo é, assim, um programa de computador tendo um código do programa para realizar um dos métodos descritos neste documento, quando o programa de computador é executado em um computador.

[0123] Outra aplicação dos métodos inventivos é, assim, um transportador de dados (ou um meio de armazenamento digital, ou um meio legivel por computador) compreendendo gravado nele, o programa de computador para realizar um dos métodos descritos neste documento.

[0124] Outra aplicação do método inventivo é, assim, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos neste documento. 0 fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.

[0125] Outra aplicação compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado para ou adaptado para realizar um dos métodos descritos neste documento.

[0126] Outra aplicação compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos descritos neste documento.

[0127] Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arranjo de portas de campo programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos neste documento. Em algumas aplicações, um arranjo de portas de campo programáveis pode cooperar com um microprocessador, a fim de realizar um dos métodos descritos neste documento. De forma geral, os métodos são preferivelmente realizados por qualquer aparelho de hardware.

[0128] As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção.Entende-se que as modificações e variações das disposições e os detalhes descritos no presente documento serão evidentes a outros especialistas na técnica. É intenção, portanto, ser limitada apenas pelo escopo das reivindicações da patente anexas e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações no presente documento.

REFERÊNCIAS*

[0129] [MPS] ISO/IEC 23003-1:2007, MPEG-D (MPEG audio technologies), Part lí MPEG Surround, 2007.

[0130] [BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications,"IEEE Trans, on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003

[0131] [JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006

[0132] [SAOC1] J. Herre, S. Disch, J. Hilpert, 0. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007

[0133] [SAOC2] J. Engdegârd, B. Resch, C. Falch, 0. Hellmuth, J. Hilpert, A. Hõlzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008

[0134] [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

[0135] [ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010

[0136] [ISS2] M. Parvaix, L. Girin, J.-M. Brossier:"A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010

[0137] [ISS3] A. Liutkus and J. Pinel and R. Badeauand L. Girin and G. Richards "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011

[0138] [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G.Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011

[0139] [ISS5] Shuhua Zhang and Laurent Girin: "AnInformed Source Separation System for Speech Signals", INTERSPEECH, 2011

[0140] [ISS6]L. Girin and J. Pinel: "Informed AudioSource Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.

Claims

1. Um decodificador para gerar um sinal de saída de áudio, compreendendo um ou mais canal (is) de saída de áudio a partir de um sinal de DOWNMIX, compreendendo dois ou mais canais de DOWNMIX, caracterizado pelo sinal de DOWNMIX codificar dois ou mais sinais de objeto de áudio, em que o decodificador compreende: um determinador de limite (110) para determinar um valor limite, dependendo de uma energia do sinal ou uma energia de ruído de, pelo menos, um de um ou mais sinal(is) de objeto de áudio ou dependendo de uma energia do sinal ou uma energia de ruído de, pelo menos, um de um ou mais canal(is) de DOWNMIX, e uma unidade de processamento (120) para gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX, dependendo do valor limite; em que a unidade de processamento (120) é configurada para gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX, aplicando o valor limite em uma função para inverter uma matriz de correção cruzada do canal de DOWNMIX Q , em que Q é definido como Q=DED*, em que D é a matriz de DOWNMIX para reduzir dois ou mais sinais de objeto de áudio para obter os dois ou mais canais de DOWNMIX; em que E é a matriz de covariância do objeto de um ou mais sinal(is) de objeto de áudio; e em que a unidade de processamento (120) é configurada para gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIXatravés do cálculo de valores próprios da matriz de correção cruzada do canal de DOWNMIX Q ou através do cálculo dos valores singulares da matriz de correção cruzada do canal de DOWNMIX Q.

2. Um decodificador de acordo com a reivindicação 1, caracterizado pelo determinador de limite (110) ser configurado para determinar o valor limite, dependendo de uma energia de ruído de cada um de dois ou mais canais de DOWNMIX.

3. Um decodificador de acordo com a reivindicação 2, caracterizado pelo determinador de limite (110) ser configurado para determinar o valor limite, dependendo da soma de toda a energia de ruído em dois ou mais canais de DOWNMIX.

4. Um decodificador de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo determinador de limite (110) ser configurado para determinar o valor limite, dependendo de uma energia do sinal do sinal do objeto de áudio de dois ou mais sinais de objeto de áudio que tem a maior energia do sinal de dois ou mais sinais de objeto de áudio.

5. Um decodificador de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo sinal de DOWNMIX codificar um ou mais sinal(is) do objeto de áudio para cada porção de tempo/frequência de uma pluralidade de porções de tempo/frequência, em que o determinador de limite (110) é configurado para determinar um valor limite para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência, dependendo da energia do sinal ou da energia de ruído de, pelo menos, um de um ou mais sinal(is) de objeto de áudio ou dependendo da energia do sinal ou da energia de ruído de, pelo menos, um de um ou mais canal(is) de DOWNMIX, em que um primeiro valor limite de uma primeira porção de tempo/frequência da pluralidade de porções de tempo/frequência difere de uma segunda porção de tempo/frequência da pluralidade de porções de tempo/frequência, e em que a unidade de processamento (120) é configurada para gerar para cada porção de tempo/frequência da pluralidade de porções de tempo/frequência um valor do canal de cada um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX, dependendo do valor limite da referida porção de tempo/frequência.

6. Um decodificador de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo decodificador ser configurado para determinar o valor limite T em decibel de acordo com a fórmula T[DB] = ENOISE[DB] - EREF[DB] - Z ou de acordo com a fórmula T[DB] = ENOISE[DB]- EREF[DB] , em que T[DB] indica o valor limite em decibel, em que ENOISE [DB] indica a soma de toda energia de ruído em dois ou mais canais de DOWNMIX em decibel, ou ENOISE[DB] indica a soma de toda energia de ruído em dois ou mais canais de DOWNMIX em decibel dividido pelo número de dois ou mais canais de DOWNMIX, em que E REF [ DB ] indica a energia do sinal de um REF dos sinais de objeto de áudio em decibel, e em que Z indica um parâmetro adicional sendo um número.

7. Um decodificador de acordo com uma das reivindicações de 1 a 5, caracterizado pelo decodificador ser configurado para determinar o valor limite T de acordo com a fórmula

ou de acordo com formula

em que T indica o valor limite, em que ENOISE indica a soma de toda energia de ruído em dois ou mais canais de DOWNMIX, ou ENOISE[DB] indica a soma de toda energia de ruído em dois ou mais canais de DOWNMIX em decibel dividido pelo número de dois ou mais canais de DOWNMIX, em que EREF indica a energia do sinal de um dos sinais de objeto de áudio, e em que Z indica um parâmetro adicional sendo um número.

8. Um decodificador, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela unidade de processamento (120) ser configurada para gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX,através da multiplicação do maior valor próprio dos valores próprios da matriz de correção cruzada do canal de DOWNMIX Q com o valor limite para obter um limite relativo.

9. Um decodificador, de acordo com a reivindicação 8, caracterizado pela unidade de processamento (120) ser configurada para gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX gerando uma matriz modificada, em que a unidade de processamento (120) é configurada para gerar a matriz modificada, dependendo apenas dos vetores próprios da matriz de correção cruzada do canal de DOWNMIX Q, que têm um valor próprio dos valores próprios da matriz de correção cruzada do canal de DOWNMIX Q, que é maior ou igual ao limite modificado, em que a unidade de processamento (120) é configurada para conduzir uma inversão da matriz da matriz modificada para obter uma matriz invertida, e em que a unidade de processamento (120) é configurada para aplicar a matriz invertida em um ou mais dos canais de DOWNMIX para gerar um ou mais canal(is) de saída de áudio.

10. Um método para gerar um sinal de saída de áudio, compreendendo um ou mais canal(is) de saída de áudio a partir de um sinal de DOWNMIX, compreendendo dois ou mais canais de DOWNMIX, caracterizado pelo sinal de DOWNMIX codificar dois ou mais sinais de objeto de áudio, em que o decodificador compreende: determinar um valor limite, dependendo de uma energia do sinal ou uma energia de ruído de, pelo menos, um de um ou mais sinal(is) de objeto de áudio ou dependendo de uma energia do sinal ou uma energia de ruído de, pelo menos, um de um ou mais canal(is) de DOWNMIX, e gerar um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX, dependendo do valor limite, em que a geração de um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX depende de uma matriz de covariância do objeto (E) de um ou mais sinal(is) de objeto de áudio, é conduzido dependendo de uma matriz de DOWNMIX (D) para reduzir dois ou mais sinais de objeto de áudio para obter dois ou mais canais de DOWNMIX, e dependendo do valor limite; em que a geração de um ou mais canal(is) de saída de áudio a partir de um ou mais canal(is) de DOWNMIX, aplicando o valor limite em uma função para inverter uma matriz de correção cruzada do canal de DOWNMIX Q , em que Q ser definido como Q = DED*, em que D é a matriz de DOWNMIX para reduzir dois ou mais sinais de objeto de áudio para obter os dois ou mais canais de DOWNMIX, e em que E é a matriz de covariância do objeto de um ou mais sinal(is) de objeto de áudio.