BR112015007649B1

BR112015007649B1 - Codificador, decodificador e métodos para adaptação dinâmica compatível regressiva de resolução de tempo/frequência na codificação do objeto de áudio espacial

Info

Publication number: BR112015007649B1
Application number: BR112015007649-1A
Authority: BR
Inventors: Sascha Disch; Jouni PAULUS; Bernd Edler; Oliver Hellmuth; Jurgen Herre; Thorsten Kastner
Original assignee: Fraunhofer - Gesellschaft Zur Foerderung Der Angewandten Forschung E.V
Priority date: 2012-10-05
Filing date: 2013-10-02
Publication date: 2023-04-25
Also published as: CA2887028C; US20150279377A1; AR092929A1; EP2904611A1; RU2625939C2; JP2015535960A; BR112015007650B1; US9734833B2; MX350691B; BR112015007649A2; MY178697A; WO2014053547A1; AR092928A1; EP2904610B1; RU2015116287A; RU2639658C2; ES2873977T3; CA2886999C; JP2015535959A; TW201419266A

Abstract

CODIFICADOR, DECODIFICADOR E MÉTODOS PARA ADAPTAÇÃO DINÂMICA COMPATÍVEL REGRESSIVA DE RESOLUÇÃO DE TEMPO/FREQUÊNCIA NA CODIFICAÇÃO DO OBJETO DE ÁUDIO ESPACIAL. Um decodificador para gerar um sinal de saída de áudio, compreendendo um ou mais canal(is) de saída de áudio a partir de um sinal de downmix, compreendendo uma pluralidade de amostras de downmix de domínio de tempo é fornecido. O sinal de downmix codifica dois ou mais sinais do objeto de áudio. O decodificador compreende um gerador de sequência de janela (134) para determinar uma pluralidade de janelas de análise, caracterizado por cada uma das janelas de análise compreender uma pluralidade de amostras de downmix de domínio de tempo do sinal de downmix. Cada janela de análise da pluralidade de janelas de análise tem um comprimento da janela indicando o número de amostras de downmix de domínio de tempo da referida janela de análise.

Description

DESCRIÇÃO

[0001] A presente invenção refere-se à codificação do sinal de áudio, decodificação do sinal de áudio e processamento do sinal de áudio e, em particular, a um codificador, um decodificador e métodos para adaptação dinâmica compatível regressiva de resolução de tempo/frequência na codificação do objeto de áudio espacial (SAOC I spatial-audio-object-coding) .

[0002] Nos sistemas de áudio digital modernos, é uma tendência principal permitir modificações relacionadas ao objeto de áudio do conteúdo transmitido no lado do receptor. Estas modificações incluem modificações de ganho das partes selecionadas do sinal de áudio e/ou reposicionamento espacial de objetos de áudio dedicados no caso de reprodução multicanal através de alto-falantes espacialmente distribuídos. Isso pode ser individualmente obtido, entregando as diferentes partes do conteúdo de áudio em diferentes alto-falantes.

[0003] Em outras palavras, na técnica de processamento de áudio, transmissão de áudio e armazenamento de áudio há um desejo crescente em permitir a interação do usuário na reprodução do conteúdo de áudio orientado pelo objeto e, também, uma demanda para utilizar as possibilidades estendidas de reprodução multicanal para distribuir individualmente os conteúdos de áudio ou partes respectivas, afim de melhorar a impressão de audição. Por este motivo, o uso do conteúdo de áudio multicanal proporciona melhorias significativas para o usuário. Por exemplo, uma impressão de audição tridimensional pode ser obtida, proporcionando uma satisfação melhorada do usuário em aplicações de entretenimento. Entretanto, o conteúdo de áudio multicanal é útil também em ambientes profissionais, por exemplo, nas aplicações de conferência telefônica, pois a inteligibilidade do transmissor pode ser melhorada ao utilizar uma reprodução de áudio multicanal. Outra possivel aplicação é oferecer a um ouvinte de uma peça musical ajustar individualmente o nivel de reprodução e/ou posição espacial de diferentes partes (também denominada como "objetos de áudio") ou faixas, tais como uma parte vocal ou instrumentos diferentes. 0 usuário pode realizar tal ajuste por razões de gosto pessoal, para transcrever mais facilmente uma ou mais parte (s) da peça musical, finalidades educacionais, karaokê, ensaio, etc.

[0004] A transmissão discreta direta de todo o conteúdo digital de áudio multicanal ou multiobjeto, por exemplo, na forma de dados de modulação por código de pulso (PCM I pulse code modulation} ou, ainda, formatos de áudio comprimidos, demanda taxa de bits muito altas. Entretanto, é ainda desejável transmitir e armazenar dados de áudio em uma forma eficiente de taxa de bit. Dessa forma, deseja-se aceitar uma compensação razoável entre a qualidade de áudio e as exigências da taxa de bit, a fim de evitar uma carga de recurso excessiva causada pelas aplicações multicanal/muitiobj etos.

[0005] Recentemente, no campo da codificação de áudio, técnicas paramétricas para a transmissão/armazenamento eficiente de taxa de bit de sinais de áudio multicanal/multiobjeto foram introduzidas, por exemplo, pelo Grupo de Especialistas em Imagens com Movimento (MPEG 1 Moving Picture Experts Group) e outros. Um exemplo é MPEG Surround (MPS | MPEG Surround) como uma abordagem orientada pelo canal [MPS, BCC] ou Codificação do Objeto de Áudio Espacial MPEG (SAOC) como uma abordagem orientada pelo objeto [JSC, SAOC, SAOC1, SAOC2]. Outra abordagem orientada pelo objeto é denominada como "separação de fonte informada" [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Estas técnicas têm o objetivo de reconstruir uma cena de áudio de saida desejada ou um objeto da fonte de áudio desejado com base em um downmix de canais/objetos e informação adicional que descreve a cena de áudio transmitida/armazenada e/ou os objetos da fonte de áudio na cena de áudio.

[0006] A estimativa e a aplicação da informação adicional relacionada ao canal/objeto nestes sistemas é feita em uma forma seletiva de tempo-frequência. Assim, estes sistemas empregam transformações de tempo-frequência, como a Transformada Discreta de Fourier (DFT |Discrete Fourier Tran form) , a Transformada de Fourier de Curta Duração (STFT | Short Time Fourier Tran form) ou banco de filtros, como bancos de Filtro em Espelho de Quadratura (QMF Quadrature Mirror Filter), etc. O principio básico destes sistemas é descrito na figura 3, utilizando o exemplo de MPEG SAOC.

[0007] No caso da STFT, a dimensão temporal é representada pelo número de bloco por tempo e a dimensão espectral é capturada pelo número ("posição") do coeficiente espectral. No caso do QMF, a dimensão temporal é representada pelo número do periodo de tempo e a dimensão espectral é capturada pelo número de sub-banda. Se a resolução espectral de QMF for empregada pela aplicação subsequente de um segundo estágio de filtro, todo o banco de filtro é denominado QMF hibrido e as sub-bandas de resolução precisa são denominadas sub-bandas híbridas.

[0008] Conforme já mencionado acima, na SAOC o processamento geral é realizado em uma forma seletiva de tempo-frequência e pode ser descrito conforme segue, dentro de cada faixa de frequência, conforme descrito na figura 3: - Sinais N do objeto de áudio de entrada sj ... sN são misturados em canais P Xi ... xP como parte do processamento do codificador utilizando uma matriz de downmix, consistindo nos elementos ... dw,p. Além disso, o codificador extrai a informação adicional que descreve as características dos objetos de áudio de entrada (módulo do estimador de informação adicional (SIE I side-in formationestimator) ) . Para MPEG SAOC, as relações das potências do objeto entre si é a forma mais básica desta informação adicional. - Sinal(is) de downmix e informação adicional são transmitidos/armazenados. Para esta finalidade, o(s) sinal(s) de áudio de downmix pode(m) ser comprimido(s), por exemplo, utilizando codificadores de áudio perceptuais bem conhecidos como MPEG-1/2 Camada II ou III (também conhecido como .mp3), MPEG-2/4, Codificação de Áudio Avançada (AAC I Advanced Audio Coding) etc. - Na extremidade da recepção, o decodificador conceitualmente tenta recuperar os sinais do objeto original ("separação do objeto") a partir dos sinais de downmix (decodificados), utilizando a informação adicional transmitida. Estes sinais de objeto aproximados Sj ... sN são, então, misturados em uma cena alvo representada pelos canais de saida de áudio M yi ... yM utilizando uma matriz de apresentação descrita pelos coeficientes ... rNfM na figura 3. A cena alvo desejada pode ser, no caso extremo, a representação de apenas um sinal de origem fora da mistura (cenário de separação de origem), mas também qualquer outra cena acústica arbitrária que consista nos objetos transmitidos. Por exemplo, a saída pode ser uma cena alvo de canal acústico, estéreo de 2 canais ou multicanal 5.1.

[0009] Os sistemas com base em tempo-frequência podem utilizar uma transformação de tempo-frequência (t/f) com resolução temporal e de frequência estática. Escolher uma determinada grade de resolução t/f fixa tipicamente envolve um compromisso entre a resolução de frequência e o tempo.

[0010] O efeito de uma resolução t/f fixa pode ser demonstrado no exemplo dos típicos sinais de objeto em uma mistura do sinal de áudio. Por exemplo, os espectros dos sons tonais exibem uma estrutura harmonicamente relacionada com uma frequência fundamental e vários sobre tons. A energia destes sinais é concentrada em determinadas regiões de frequência da representação de t/f utilizada é útil para separar as regiões espectrais tonais de banda estreita a partir de uma mistura de sinal. Ao contrário, sinais transientes, como sons de bateria, geralmente têm uma estrutura temporal distinta: a energia substancial está apenas presente para curtos periodos de tempo e é dispersada sobre uma ampla faixa de frequências. Para estes sinais, uma alta resolução temporal da representação de t/f utilizada é vantajosa para separar a parte do sinal transiente a partir da mistura de sinal.

[0011] Os esquemas de codificação de objeto de áudio atuais oferecem apenas uma variabilidade limitada na seletividade de tempo-frequência do processamento de SAOC. Por exemplo, o MPEG SAOC [SAOC] [SAOC1] [SAOC2] é limitado à resolução de tempo-frequência que pode ser obtida pelo uso do chamado Banco de Filtro em Espelho de Quadratura Hibrido (Hybrid-QMF | Hybrid. Quadrature Mirror Filter Bank) e seu agrupamento subsequente em bandas paramétricas. Assim, a recuperação do objeto na SAOC padrão (MPEG SAOC, conforme padronizado em [SAOC]) geralmente apresenta a resolução de frequência bruta de Hybrid-QMF levando à diafonia modulada Sonora de outros objetos de áudio (por exemplo, perturbações de fala dupla no discurso ou perturbações de rugosidade auditiva na música).

[0012] Esquemas de codificação de objeto de áudio, como a Codificação de Sinal Binaural [BCC I Binaural Cue Coding] e Codificação Conjunta Paramétrica de Fontes de Áudio [JSC I Parametric Joint-Coding of Audio Sources], são também limitadas ao uso de um banco de filtro de resolução fixa. A escolha atual de um banco de filtro de resolução fixa ou transformação sempre envolve um compromisso predefinido em termos de otimização entre as propriedades temporais e espectrais do esquema de codificação.

[0013] No campo da separação de fonte informada (ISS I Informed source separation}, foi sugerido adaptar dinamicamente o comprimento de transformação de frequência de tempo às propriedades do sinal [ISS7] bem como conhecido dos esquemas de codificação de áudio perceptual, por exemplo, Codificação de Áudio Avançada (AAC) [AAC].

[0014] O objeto da presente invenção é fornecer conceitos melhorados para a codificação de objeto de áudio. O objeto da presente invenção é solucionado por um decodificador, de acordo com a reivindicação 1, por um decodificador, de acordo com a reivindicação 5, por um codificador, de acordo com a reivindicação 6, por um codificador, de acordo com a reivindicação 12, por um método para decodificação, de acordo com a reivindicação 13, por um método para codificação, de acordo com a reivindicação 14, por um método para decodificação, de acordo com a reivindicação 15, por um método para codificação, de acordo com a reivindicação 16 e por um programa de computador, de acordo com a reivindicação 17.

[0015] Em contraste à SAOC da tecnologia em ponta, as aplicações são fornecidas para adaptar dinamicamente a resolução de tempo-frequência ao sinal em uma forma compatível regressiva, de modo que - fluxos contínuos de bits do parâmetro da SAOC originados de um codificador da SAOC padrão (MPEG SAOC, conforme padronizado em [SAOC]) podem, ainda, serem decodificados por um decodificador melhorado com uma qualidade perceptual comparável a uma obtida com um decodificador padrão, - fluxos contínuos de bits do parâmetro da SAOC melhorados podem ser decodificados com uma qualidade ideal com o decodificador melhorado, e - fluxos contínuos de bits do parâmetro da SAOC melhorados podem ser misturados, por exemplo, em um cenário de unidade de controle multipontos (MCU | multi-point control unit), em um fluxo contínuo de bit comum que pode ser decodificado com um decodificador melhorado ou padrão.

[0016] Para as propriedades mencionadas acima, é útil fornecer uma representação de transformada/banco de filtro comum que pode ser dinamicamente adaptada na resolução de tempo-frequência, tanto para suportar a decodificação dos novos dados da SAOC melhorados quando, ao mesmo tempo, para o mapeamento compatível regressivo doa dados da SAOC padrão tradicionais. A fusão dos dados da SAOC melhorada e dos dados da SAOC padrão é possível dada uma representação comum.

[0017] Uma qualidade perceptual da SAOC melhorada pode ser obtida dinamicamente adaptando a resolução de tempo- frequência do banco de filtro ou transformação que é empregada para estimar ou utilizada para sintetizar os sinais do objeto de áudio nas propriedades específicas do objeto de áudio de entrada. Por exemplo, se o objeto de áudio é quase estacionário durante um determinado período de tempo, a estimativa de parâmetro e a síntese é favoravelmente realizada em uma resolução de tempo bruta e uma resolução de tempo precisa. Se o objeto de áudio contém transientes ou não estacionários durante um determinado período de tempo, a estimativa de parâmetro e a síntese são vantajosamente realizadas utilizando uma resolução precisa de tempo e uma resolução de frequência bruta. Assim, a adaptação dinâmica do banco de filtro ou transformação permite - uma seletividade de alta frequência na separação espectral de sinais quase estacionários para evitar a diafonia entre objetos, e - alta precisão temporal para inícios do objeto ou eventos transientes a fim de reduzir pré- e pós- ecos .

[0018] Ao mesmo tempo, a qualidade da SAOC tradicional pode ser obtida pelo mapeamento dos dados da SAOC padrão na grade de tempo-frequência fornecida pela transformação adaptativa do sinal compatível regressivo inventivo que depende da informação adicional que descreve as características do sinal do objeto.

[0019] Poder decodificar tanto os dados da SAOC melhorados quanto padrão utilizando uma transformação comum permite a compatibilidade regressiva direta para as aplicações que abrangem a mistura dos dados da nova SAOC melhorados e padrão.

[0020] Um decodificador para gerar um sinal de saída de áudio, compreendendo um ou mais cana(is) de saída de áudio de um sinal a partir de downmix, compreendendo uma pluralidade de amostras de downmix de domínio de tempo, é fornecido. O sinal de downmix codifica dois ou mais sinais do objeto de áudio.

[0021] 0 decodificador compreende um gerador de sequência de janela ou determinação de uma pluralidade de janelas de análise, caracterizado por cada uma das janelas de análise compreender uma pluralidade de amostras de downmix de domínio de tempo do sinal de downmix. Cada janela de análise da pluralidade de janelas de análise tem um comprimento da janela indicando o número de amostras de downmix de domínio de tempo da referida janela de análise. O gerador de sequência de janela é configurado para determinar a pluralidade de janelas de análise, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio.

[0022] Além disso, o decodificador compreende um módulo de análise t/f para transformar a pluralidade de amostras de downmix de domínio de tempo de cada janela de análise da pluralidade de janelas de análise a partir de um domínio de tempo em um domínio de tempo-frequência, dependendo do comprimento da janela da referida janela de análise, para obter um downmix transformado.

[0023] Além disso, o decodificador compreende uma unidade não misturada para não misturar o downmix transformado com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saída de áudio.

[0024] De acordo com uma aplicação, o gerador de sequência de janela pode ser configurado para determinar a pluralidade de janelas de análise, de modo que um transiente indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio sendo codificado pelo sinal de downmix, seja compreendido por uma janela de análise primária da pluralidade de janelas de análise e por uma janela de análise secundária da pluralidade de janelas de análise, caracterizado por um centro ck da janela de análise primária ser definida por uma localização t do transiente de acordo com Ck = t - lb, e um centro ck+i da janela de análise primária ser definido pela localização t do transiente de acordo com ck+i = t + la, em que la e lb são números.

[0025] Em uma aplicação, o gerador de sequência de janela pode ser configurado para determinar a pluralidade de janelas de análise, de modo que um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio sendo codificados pelo sinal de downmix, seja compreendido por uma janela de análise primária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização t do transiente, de acordo com ck - t, em que um centro Cjt-i de uma janela de análise secundária da pluralidade de janelas de análise é definido por uma localização t do transiente de acordo com ck-i - t - lb, e em que um centro c^+i de uma janela de análise terciária da pluralidade de janelas de análise é definido por uma localizaçao t do transiente, de acordo com Ck+i = t + la, em que la e lb são números.

[0026] De acordo com uma aplicação, o gerador de sequência de janela pode ser configurado para determinar a pluralidade de janelas de análise, de modo que cada uma dentre a pluralidade de janelas de análise compreenda tanto um número primário de amostras de sinal do dominio de tempo ou um número secundário de amostras de sinal do dominio de tempo, em que o número secundário de amostras de sinal do dominio de tempo é maior do que o número primário de amostras de sinal do dominio de tempo, e em que cada uma das janelas de análise da pluralidade de janelas de análise compreende o número primário de amostras de sinal do dominio de tempo, quando a referida janela de análise compreende um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio sendo codificados pelo sinal de downmix.

[0027] Em uma aplicação, o módulo de análise t/f pode ser configurado para transformar as amostras de downmix de dominio de tempo de cada uma das janelas de análise a partir de um dominio de tempo até um dominio de tempo- frequência, empregando um banco de filtro de QMF e um banco de filtro de Nyquist, em que a unidade de análise de t/f (135) é configurada para transformar a pluralidade de amostras de sinal do dominio de tempo de cada uma das janelas de análise, dependendo do comprimento de janela da referida janela de análise.

[0028] Além disso, um codificador para codificar fornecido. Cada um dos dois ou mais sinais do objeto de áudio de entrada compreende uma pluralidade de amostras de sinal do domínio de tempo. 0 codificador compreende uma unidade da sequência de janela para determinar uma pluralidade de janelas de análise. Cada uma das janelas de análise compreende uma pluralidade de amostras de sinal do domínio de tempo de um dos sinais do objeto de áudio de entrada, em que cada uma das janelas de análise tem um comprimento de janela indicando o número de amostras de sinal do domínio de tempo da referida janela de análise. A unidade da sequência de janela é configurada para determinar a pluralidade de janelas de análise, de modo que o comprimento de janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada.

[0029] Além disso, o codificador compreende uma unidade de análise de t/f para transformar as amostras de sinal do domínio de tempo de cada uma das janelas de análise a partir de um domínio de tempo até um domínio de tempo- frequência para obter as amostras do sinal transformado. A unidade de análise de t/f pode ser configurada para transformar a pluralidade de amostras de sinal do domínio de tempo de cada uma das janelas de análise, dependendo do comprimento de janela da referida janela de análise.

[0030] Além disso, o codificador compreende a unidade de estimativa por PSI para determinar a informação adicional paramétrica, dependendo das amostras do sinal transformado.

[0031] Em uma aplicação, o codificador pode, ainda, compreender uma unidade de detecção transiente sendo configurada para determinar uma pluralidade de diferenças de nivel do objeto de dois ou mais sinais do objeto de áudio de entrada, e sendo configurado para determinar se uma diferença entre a primeira dentre as diferenças de nivel do objeto e a segunda dentre as diferenças de nivel do objeto é maior do que um valor limite, para determinar para cada uma das janelas de análise se a referida janela de análise compreende um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada.

[0032] De acordo com uma aplicação, a unidade de detecção transiente pode ser configurada para empregar uma função de detecção d(n), para determinar se a diferença entre a primeira dentre as diferenças de nivel do objeto e a segunda dentre as diferenças de nivel do objeto é maior do que o valor limite, em que a função de detecção d(n) é definida como:

[0033] em que n indica um indice, em que i indica um primeiro objeto, em que j indica um segundo objeto, em que b indica uma banda paramétrica. OLD pode, por exemplo, indicar uma diferença do nivel do objeto.

[0034] Em uma aplicação, a unidade da sequência de janela pode ser configurada para determinar a pluralidade de janelas de análise, de modo que um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada, seja compreendido por uma janela de análise primária da pluralidade de janelas de análise e por uma janela de análise secundária da pluralidade de janelas de análise, em que um centro Ck da janela de análise primária é definido por uma localização t do transiente, de acordo com c* = t - lbr e um centro ck+i da janela de análise primária é definido pela localização t do transiente de acordo com c*+i = t + lar em que la e lb são números.

[0035] De acordo com uma aplicação, a unidade da sequência de janela pode ser configurada para determinar a pluralidade de janelas de análise, de modo que um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada seja compreendido por uma janela de análise primária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização t do transiente, de acordo com Ck = t, em que um centro c*-i de uma janela de análise secundária da pluralidade de janelas de análise é definido por uma localização t do transiente de acordo com ck-i - t - lb, e em que um centro ck+i de uma janela de análise terciária da pluralidade de janelas de análise é definido por uma localização t do transiente de acordo com cç+1 = t + la, em que la e lb são números.

[0036] Em uma aplicação, a unidade da sequência de janela pode ser configurada para determinar a pluralidade de janelas de análise, de modo que cada uma dentre a pluralidade de janelas de análise compreenda tanto um número primário de amostras de sinal do dominio de tempo quanto um número secundário de amostras de sinal do domínio de tempo, em que o número secundário de amostras de sinal do domínio de tempo é maior do que o número primário de amostras de sinal do domínio de tempo, e em que cada uma das janelas de análise da pluralidade de janelas de análise compreende o número primário de amostras de sinal do domínio de tempo, quando a referida janela de análise compreende um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada.

[0037] De acordo com uma aplicação, a unidade de análise de t/f pode ser configurada para transformar as amostras de sinal do domínio de tempo de cada uma das janelas de análise a partir de um domínio de tempo até um domínio de tempo-frequência empregando um banco de filtro de QMF e um banco de filtro de Nyquist, em que a unidade de análise de t/f pode ser configurada para transformar a pluralidade de amostras de sinal do domínio de tempo de cada uma das janelas de análise, dependendo do comprimento de janela da referida janela de análise.

[0038] Além disso, um decodificador para gerar um sinal de saída de áudio, compreendendo um ou mais canal(is) de saída de áudio de um sinal de downmix compreendendo uma pluralidade de amostras de downmix de domínio de tempo, é fornecido. O sinal de downmix codifica dois ou mais sinais do objeto de áudio. O decodificador compreende um submódulo de análise primária para transformar a pluralidade de amostras de downmix de domínio de tempo para obter uma pluralidade de sub-bandas compreendendo uma pluralidade de amostras de sub- banda. Além disso, o decodificador compreende um gerador de sequência de janela para determinar uma pluralidade de janelas de análise, em que cada uma das janelas de análise compreende uma pluralidade de amostras de sub-banda de uma da pluralidade de sub-bandas, em que cada janela de análise da pluralidade de janelas de análise tem um comprimento de janela indicando o número de amostras de sub-banda da referida janela de análise, em que o gerador de sequência de janela é configurado para determinar a pluralidade de janelas de análise, de modo que o comprimento de janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio. Além disso, o decodificador compreende um módulo secundário de análise para transformar a pluralidade de amostras de subbanda de cada janela de análise da pluralidade de janelas de análise, dependendo do comprimento de janela da referida janela de análise para obter um downmix transformado. Além disso, o decodificador compreende uma unidade não misturada para não misturar o downmix transformado, com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saida de áudio.

[0039] Além disso, um codificador para codificar dois ou mais sinais do objeto de áudio de entrada é fornecido. Cada um de dois ou mais sinais do objeto de áudio de entrada compreende uma pluralidade de amostras de sinal do dominio de tempo. O codificador compreende um submódulo de análise primária para transformar a pluralidade de amostras de sinal do domínio de tempo para obter uma pluralidade de sub-bandas compreendendo uma pluralidade de amostras de subbanda. Além disso, o codificador compreende uma unidade da sequência de janela para determinar uma pluralidade de janelas de análise, em que cada uma das janelas de análise compreende uma pluralidade de amostras de sub-banda de uma da pluralidade de sub-bandas, em que cada uma das janelas de análise tem um comprimento de janela indicando o número de amostras de sub-banda da referida janela de análise, em que a unidade da sequência de janela é configurada para determinar a pluralidade de janelas de análise, de modo que o comprimento de janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada. Além disso, o codificador compreende um módulo de análise secundário para transformar a pluralidade de amostras de subbanda de cada janela de análise da pluralidade de janelas de análise, dependendo do comprimento de janela da referida janela de análise, para obter amostras do sinal transformado. Além disso, o codificador compreende uma unidade de estimativa por PSI para determinar a informação adicional paramétrica, dependendo das amostras do sinal transformado.

[0040] Além disso, um decodificador para gerar um sinal de saida de áudio, compreendendo um ou mais canal (is) de saida de áudio de um sinal de downmix é fornecido. O sinal de downmix codifica um ou mais sinal (is) do objeto de áudio. 0 decodificador compreende uma unidade de controle para definir uma indicação de ativação em um estado de ativação, dependendo de uma propriedade do sinal de, pelo menos, um de um ou mais sinal (is) do objeto de áudio. Além disso, o decodificador compreende um módulo de análise primário para transformar o sinal de downmix para obter um primeiro downmix transformado, compreendendo uma pluralidade de canais de subbanda primários. Além disso, o decodificador compreende um módulo de análise secundário para gerar, quando a indicação de ativação é definida no estado de ativação, um downmix secundário transformado pela transformação de, pelo menos, um dos canais de sub-banda primários para obter uma pluralidade de canais de sub-banda secundários, em que o segundo downmix transformado compreende os canais de sub-banda primários que não foram transformados pelo módulo de análise secundário e os canais de sub-banda secundários. Além disso, o decodificador compreende uma unidade não misturada, em que a unidade não misturada é configurada para não misturar o segundo downmix transformado, quando a indicação de ativação é definida no estado de ativação, com base na informação adicional paramétrica sobre um ou mais sinal(is) do objeto de áudio para obter o sinal de saida de áudio, e para não misturar o primeiro downmix transformado, quando a indicação de ativação não é definida no estado de ativação, com base na informação adicional paramétrica sobre um ou mais sinal(is) do objeto de áudio para obter o sinal de saida de áudio.

[0041] Além disso, um codificador para codificar um objeto de áudio de entrada sinal é fornecido. O codificador compreende uma unidade de controle para definir uma indicação de ativação em um estado de ativação, dependendo de uma propriedade do sinal do sinal do objeto de áudio de entrada. Além disso, o codificador compreende um módulo de análise primário para transformar o sinal de objeto de áudio de entrada para obter um primeiro sinal do objeto de áudio transformado, em que o primeiro sinal do objeto de áudio transformado compreende uma pluralidade de canais de sub-banda primários. Além disso, o codificador compreende um módulo de análise secundário para gerar, quando a indicação de ativação é definida no estado de ativação, um segundo sinal do objeto de áudio transformado pela transformação de, pelo menos, um da pluralidade de canais de sub-banda primários para obter uma pluralidade de canais de sub-banda secundários, em que o segundo sinal do objeto de áudio transformado compreende os canais de sub-banda primários que não foram transformados pelo módulo de análise secundário e pelos canais de sub-banda secundários. Além disso, o codificador compreende uma unidade de estimativa por PSI, em que a unidade de estimativa por PSI é configurada para determinar a informação adicional paramétrica, com base no segundo sinal do objeto de áudio transformado, quando a indicação de ativação é definida no estado de ativação, e para determinar a informação adicional paramétrica com base no primeiro sinal do objeto de áudio transformado, quando a indicação de ativação não é definida no estado de ativação.

[0042] Além disso, um método de decodificação para gerar um sinal de saida de áudio, compreendendo um ou mais canal(is) de saída de áudio a partir de um sinal de downmix, compreendendo uma pluralidade de amostras de downmix de domínio de tempo, é fornecido. O sinal de downmix codifica dois ou mais sinais do objeto de áudio. 0 método compreende: - determinar uma pluralidade de janelas de análise, caracterizado por cada uma das janelas de análise compreender uma pluralidade de amostras de downmix de dominio de tempo do sinal de downmix, em que cada janela de análise da pluralidade de janelas de análise tem um comprimento de janela indicando o número de amostras de downmix de dominio de tempo da referida janela de análise, e em que a determinação da pluralidade de janelas de análise é conduzida, de modo que o comprimento de janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio. - transformar a pluralidade de amostras de downmix de dominio de tempo de cada janela de análise da pluralidade de janelas de análise a partir de um dominio de tempo em um dominio de frequência de tempo, dependendo do comprimento de janela da referida janela de análise, para obter um downmix transformado, e - não misturar o downmix transformado com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saída de áudio.

[0043] Além disso, um método para codificar dois ou mais sinais do objeto de áudio de entrada é fornecido. Cada um de dois ou mais sinais do objeto de áudio de entrada compreende uma pluralidade de amostras de sinal do dominio de tempo. O método compreende: análise, caracterizado por cada uma das janelas de análise compreender uma pluralidade de amostras de sinal do domínio de tempo de um dos sinais do objeto de áudio de entrada, em que cada uma das janelas de análise tem um comprimento de janela indicando o número de amostras de sinal do domínio de tempo da referida janela de análise, em que a determinação da pluralidade de janelas de análise é conduzida, de modo que o comprimento de janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada. - transformar as amostras de sinal do domínio de tempo de cada uma das janelas de análise a partir de um domínio de tempo em um domínio de tempo-frequência para obter amostras do sinal transformado, em que a transformação da pluralidade de amostras de sinal do domínio de tempo de cada uma das janelas de análise depende do comprimento de janela da referida janela de análise. E: - determinar a informação adicional paramétrica dependendo das amostras do sinal transformado.

[0044] Além disso, um método de decodificação gerando um sinal de saída de áudio, compreendendo um ou mais canal (is) de saída de áudio a partir de um sinal de downmix, compreendendo uma pluralidade de amostras de downmix de domínio de tempo, em que o sinal de downmix codifica dois ou mais sinais do objeto de áudio, é fornecido. O método compreende: - transformar a pluralidade de amostras de downmix de domínio de tempo para obter uma pluralidade de sub-bandas, compreendendo uma pluralidade de amostras de sub- banda. - determinar uma pluralidade de janelas de análise, caracterizado por cada uma das janelas de análise compreender uma pluralidade de amostras de sub-banda de uma da pluralidade de sub-bandas, em que cada janela de análise da pluralidade de janelas de análise tem um comprimento de janela indicando o número de amostras de sub-banda da referida janela de análise, em que a determinação da pluralidade de janelas de análise é conduzida, de modo que o comprimento de janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio. - transformar a pluralidade de amostras de sub-banda de cada janela de análise da pluralidade de janelas de análise, dependendo do comprimento de janela da referida janela de análise para obter um downmix transformado. E: - não misturar o downmix transformado com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saída de áudio.

[0045] Além disso, um método para codificar dois ou mais sinais do objeto de áudio de entrada, em que cada de dois ou mais sinais do objeto de áudio de entrada compreende uma pluralidade de amostras de sinal do domínio de tempo, é fornecido. O método compreende: - transformar a pluralidade de amostras de sinal do domínio de tempo para obter uma pluralidade de sub- bandas, compreendendo uma pluralidade de amostras de sub- banda. - determinar uma pluralidade de janelas de análise, caracterizado por cada uma das janelas de análise compreender uma pluralidade de amostras de sub-banda de uma da pluralidade de sub-bandas, em que cada uma das janelas de análise tem um comprimento de janela indicando o número de amostras de sub-banda da referida janela de análise, em que a determinação da pluralidade de janelas de análise é conduzida, de modo que o comprimento de janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada. - transformar a pluralidade de amostras de sub-banda de cada janela de análise da pluralidade de janelas de análise, dependendo do comprimento de janela da referida janela de análise para obter amostras do sinal transformado. E - determinar a informação adicional paramétrica dependendo das amostras do sinal transformado.

[0046] Além disso, um método de decodificação gerando um sinal de saida de áudio, compreendendo um ou mais canal(is) de saida de áudio a partir de um sinal de downmix, em que o sinal de downmix codifica dois ou mais sinais do objeto de áudio, é fornecido. O método compreende: - definir uma indicação de ativação em um estado de ativação, dependendo de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio. - transformar o sinal de downmix para obter um primeiro donwmix transformado, compreendendo uma pluralidade de canais de sub-banda primários. - gerar, quando a indicação de ativação é definida no estado de ativação, um segundo downmix transformado transformando em, pelo menos, um dos canais de sub-banda primários para obter uma pluralidade de canais de sub-banda secundários, em que o segundo downmix transformado compreende os canais de sub-banda primários que não foram transformados pelo segundo módulo de análise e os canais de sub-banda secundários. E: - não misturar o segundo downmix transformado, quando a indicação de ativação é definida no estado de ativação, com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saida de áudio, e não misturar o primeiro donwmix transformado, quando a indicação de ativação não é definida no estado de ativação, com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saida de áudio.

[0047] Além disso, um método para codificar dois ou mais sinais do objeto de áudio de entrada é fornecido. O método compreende: - definir uma indicação de ativação em um estado de ativação, dependendo de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada. - transformar cada um dos sinais do objeto de áudio de entrada para obter um primeiro sinal do objeto de áudio transformado do referido sinal do objeto de áudio de entrada, em que o referido primeiro sinal do objeto de áudio transformado compreende uma pluralidade de canais de subbanda primários. - gerar para cada um dos sinais do objeto de áudio de entrada, quando a indicação de ativação é definida no estado de ativação, um segundo sinal do objeto de áudio transformado pela transformação de, pelo menos, um dos canais de sub-banda primários do primeiro sinal do objeto de áudio transformado do referido sinal do objeto de áudio de entrada para obter uma pluralidade de canais de sub-banda secundários, em que o referido segundo downmix transformado compreende os referidos canais de sub-banda primários que não foram transformados pelo segundo módulo de análise e os referidos canais de sub-banda secundários. E: - determinar a informação adicional paramétrica com base no segundo sinal do objeto de áudio transformado de cada um dos sinais do objeto de áudio de entrada, quando a indicação de ativação é definida no estado de ativação, e a determinação da informação adicional paramétrica com base no primeiro sinal do objeto de áudio transformado de cada um dos sinais do objeto de áudio de entrada, quando a indicação de ativação não é definida no estado de ativação.

[0048] Além disso, um programa de computador para implementar um dos métodos descritos acima, quando executado em um computador ou processador de sinal, é fornecido.

[0049] As aplicações preferidas serão fornecidas nas reivindicações dependentes.

[0050] A seguir, as aplicações da presente invenção são descritas em mais detalhes com referência às figuras, nas quais:

[0051] A figura la ilustra um decodificador de acordo com uma aplicação,

[0052] A figura lb ilustra um decodificador de acordo com outra aplicação,

[0053] A figura lc ilustra um decodificador de acordo com outra aplicação,

[0054] A figura 2a ilustra um codificador para codificar sinais do objeto de áudio de entrada de acordo com uma aplicação,

[0055] A figura 2b ilustra um codificador para codificar os sinais do objeto de áudio de entrada de acordo com outra aplicação,

[0056] A figura 2c ilustra um codificador para codificar os sinais do objeto de áudio de entrada de acordo com outra aplicação,

[0057] A figura 3 mostra um diagrama em blocos esquemático de uma visão geral conceituai de um sistema de SAOC,

[0058] A figura 4 mostra um diagrama esquemático e ilustrativo de uma representação espectral temporal de um sinal de áudio de canal único,

[0059] A figura 5 mostra um diagrama em blocos esquemático de um cálculo computacional seletivo de tempo- frequência da informação adicional dentro de um codificador de SAOC,

[0060] A figura 6 descreve um diagrama em blocos de um decodificador de SAOC melhorado, de acordo com uma aplicação, ilustrando o fluxo contínuo de bits SAOC padrão de decodificação,

[0061] A figura 7 descreve um diagrama em blocos de um decodificador de acordo com uma aplicação,

[0062] A figura 8 ilustra um diagrama em blocos de um codificador de acordo com uma aplicação particular que implementa uma passagem paramétrica de um codificador,

[0063] A figura 9 ilustra a adaptação da sequência de janelamento normal para acomodar um ponto de cruzamento da janela no transiente,

[0064] A figura 10 ilustra um esquema de comutação do bloco de isolamento transiente de acordo com uma aplicação,

[0065] A figura 11 ilustra um sinal com um transiente e a sequência de janelamento do tipo AAC resultante, de acordo com uma aplicação,

[0066] A figura 12 ilustra a filtragem híbrida de QMF estendida,

[0067] A figura 13 ilustra um exemplo onde as janelas curtas são utilizadas para a transformação,

[0068] A figura 14 ilustra um exemplo onde janelas mais longas são utilizadas para a transformação do que no exemplo da figura 13.

[0069] A figura 15 ilustra um exemplo, onde uma resolução de alta frequência e uma baixa resolução de tempo é realizada,

[0070] A figura 16 ilustra um exemplo, onde uma alta resolução de tempo e uma baixa resolução de frequência é realizada,

[0071] A figura 17 ilustra um primeiro exemplo, onde uma resolução de tempo imediata e uma resolução de frequência imediata é realizada, e

[0072] A figura 18 ilustra um primeiro exemplo, onde uma resolução de tempo imediata e uma resolução de frequência imediata é realizada.

[0073] Antes de descrever as aplicações da presente invenção, mais históricos sobre os sistemas de SAOC da tecnologia de ponta são fornecidos.

[0074] A figura 3 mostra uma disposição geral de um codificador de SAOC 10 e um decodif icador de SAOC 12. O codificador de SAOC 10 recebe como uma entrada objetos N, ou seja, sinais de áudio Sj a sw. Em particular, o codificador 10 compreende um downmixer 16 que recebe os sinais de áudio Si a SN e reduz o mesmo a um sinal de downmix 18. De modo alternativo, o downmix pode ser fornecido externamente ("downmix artístico") e o sistema estima a informação adicional para fazer o downmix fornecido corresponder o downmix calculado. Na figura 3, o sinal de downmix é mostrado para ser um sinal do P-canal. Assim, qualquer configuração do sinal de downmix mono (P=l), estéreo (P=2) ou multicanal (P>2) é concebível.

[0075] No caso de um downmix estéreo, os canais do sinal de downmix 18 são denotados LO e RO, no caso de um mesmo downmix mono ser simplesmente denotado LO. A fim de permitir que o decodificador de SAOC 12 recupere os objetos individuais s2 a sN, o estimador de informação adicional 17 fornece o decodificador de SAOC 12 com a informação adicional incluindo parâmetros de SAOC. Por exemplo, no caso de um downmix estéreo, os parâmetros de SAOC compreendem diferenças de nivel do objeto (OLD I object level differences), correlações entre objetos (IOC | inter-object correlations) (parâmetros de correlação cruzada entre objetos), valores de ganho de downmix (DMG | downmix gain values) e diferenças do nível do canal de downmix (DCLD I downmix channel level differences). A informação adicional 20, incluindo os parâmetros de SAOC, com o sinal de downmix 18, forma o fluxo de dados de saída de SAOC recebido pelo decodificador de SAOC 12 .

[0076] O decodificador de SAOC 12 compreende um upmixer que recebe o sinal de downmix 18, bem como a informação adicional 20, a fim de recuperar e apresentar os sinais de áudio e sN em qualquer conjunto de canais selecionado pelo usuário yi a yM, com a representação sendo prescrita pela apresentação de informação 26, inserida no decodificador de SAOC 12.

[0077] Os sinais de áudio Sj a sN podem ser inseridos no codificador 10 em qualquer domínio de codificação, tal como no domínio espectral ou de tempo. No caso de os sinais de áudio si a serem inseridos no codificador 10 no domínio de tempo, como codificado por PCM, o codificador 10 pode utilizar um banco de filtro, como um banco QMF híbrido, a fim de transferir os sinais em um domínio espectral, no qual os sinais de áudio são representados em várias sub-bandas associadas com diferentes partes espectrais, em uma resolução específica do banco de filtro. Se os sinais de áudio sj a sN já estiverem na representação esperada pelo codificador 10, alguns não terão que realizar a decomposição espectral.

[0078] A Figura 4 mostra um sinal de áudio no domínio espectral já mencionado. Como pode ser visto, o sinal de áudio é representado como uma pluralidade de sinais de sub-banda. Cada sinal de sub-banda, 30i a 30K, consiste em uma sequência temporal de valores de sub-banda indicados pelas pequenas caixas 32. Como pode ser visto, os valores de sub-banda 32 dos sinais de sub-banda 30; a 30K são sincronizados entre si no tempo, de modo que, para cada um dos períodos de tempo do banco de filtro consecutivo 34, cada sub-banda, 30i a 30K, compreende um valor exato de sub-banda 32. Conforme ilustrado pelo eixo de frequência 36, os sinais de sub-banda 30i a 30K são associados com diferentes regiões de frequência, e, conforme ilustrado pelo eixo de tempo 38, os períodos de tempo do banco de filtro 34 são consecutivamente dispostos no tempo.

[0079] Conforme descrito acima, o extrator da informação adicional 17 da Figura 3 computa os parâmetros de SAOC dos sinais de áudio de entrada Sj a s«. De acordo com o padrão SAOC atualmente implementado, o codificador 10 realiza esse cálculo computacional em uma resolução de resolução de tempo/frequência original, conforme determinado pelos periodos de tempo do banco de filtro 34 e pela decomposição de sub-banda, por uma certa quantidade, com esta certa quantidade sendo sinalizada ao lado do decodificador dentro da informação adicional 20. Grupos de periodos de tempo do banco de filtro consecutivo 34 podem formar uma estrutura de SAOC 41. Ainda, o número de bandas do parâmetro dentro da estrutura de SAOC 41 é conduzido dentro da informação adicional 20. Assim, o domínio de tempo/frequência é dividido em porções de tempo/frequência exemplificadas na Figura 4 pelas linhas tracejadas 42. Na Figura 4, as bandas do parâmetro são distribuídas da mesma forma nas várias estruturas de SAOC 41 descritas, de modo que uma disposição regular de porções de tempo/frequência seja obtida. No geral, entretanto, as bandas do parâmetro podem variar de uma estrutura de SAOC 41 à subsequente, dependendo das diferentes necessidades para resolução espectral nas respectivas estruturas de SAOC 41. Além disso, o comprimento das estruturas de SAOC 41 também podem variar. Como consequência, a disposição de porções de tempo/frequência pode ser irregular. Independentemente, as porções de tempo/frequência dentro de uma particular estrutura de SAOC 41 tipicamente têm a mesma duração e são alinhadas na direção do tempo, ou seja, todas as porções t/f na referida estrutura de SAOC 41 começam no início de dada estrutura de SAOC 41 e terminam no final da referida estrutura de SAOC 41.

[0080] O extrator da informação adicional 17, descrito na Figura 3, calcula os parâmetros de SAOC, de acordo com as seguintes fórmulas. Em particular, o extrator da informação adicional 17 computa as diferenças de nivel do objeto para cada objeto i, como

[0081] em que as somas e os indices ne k, respectivamente, passarem por todos os indices temporais 34 e todos os indices espectrais 30, que pertencem a uma determinada porção do tempo/frequência 42, referenciada pelos indices 1 para a estrutura de SAOC (ou periodo de tempo de processamento) e m para a banda do parâmetro. Assim, as energias de todos os valores de sub-banda x± de um sinal de áudio ou objeto i são somadas e normalizadas no valor de energia mais alto desta porção entre todos os objetos ou sinais de áudio, x”'*’ denota o conjugado complexo de x"'k .

[0082] Ainda, o extrator da informação adicional de SAOC 17 pode computar uma medição de similaridade das porções de tempo/frequência correspondentes dos pares de diferentes objetos de entrada Si a sw. Embora o extrator da informação adicional de SAOC 17 possa computar a medição de similaridade entre as partes de objetos de entrada s2 a sN, o extrator da informação adicional 17 pode, também, suprimir a sinalização da medição de similaridades ou restringir o cálculo computacional da medição de similaridades aos objetos de áudio Si a sN que formam os canais esquerdo e direito de um canal estéreo comum. De qualquer forma, a medição de similaridades é chamada de "parâmetro de correlação cruzada entre objetos

0 cálculo computacional é como segue

[0083] com índices de ganho n e k passando por todos os valores de sub-banda pertencentes a uma determinada porção do tempo/frequência 42, i e j denotando um determinado par de objetos de áudio, Si a sN, e Ref { } denotando a operação de descarte da parte imaginária do argumento complexo.

[0084] O downmixer 16 da Figura 3 reduz os objetos si a sN pelo uso de fatores de ganho aplicados em cada objeto Si a sN. Isto é, um fator de ganho di é aplicado ao objeto i e, então, todos os objetos ponderados Sj a sN são somados para obter um sinal mono de downmix, que é exemplificado na Figura 3, se P=1. Em outro exemplo de um sinal de downmix de dois canais, descrito na Figura 3, se P=2, um fator de ganho dífi é aplicado ao objeto i e, então, esses objetos amplificados por ganho são somados para obter o canal de downmix esquerdo LO, e fatores de ganho d2fí são aplicados ao objeto i e, então, os objetos amplificados por ganho são somados para obter o canal de downmix direito RO. Um processamento análogo ao acima deve ser aplicado no caso de um downmix multicanal (P>2).

[0085] Esta prescrição de downmix é sinalizada ao lado do decodificador por meios de ganhos de downmix DMGÍ e, no caso de um sinal de downmix estéreo, diferenças do nível do canal de downmix DCLDi.

[0086] Os ganhos de downmix são calculados, de acordo com:

[0087]

(downmix mono),

[0088]

(downmix estéreo),

[0089] em que ε é um pequeno número como 10 9.

[0090] Para DCLDs, a seguinte fórmula é aplicada:

[0091] No modo normal, o downmíxer 16 gera o sinal de downrnix, de acordo com:

[0092] Para i im downmix mono, ou

[0093]

[0094] Para um downmix estéreo, respectivamente. Assim, nas fórmulas mencionadas acima, os parâmetros OLD e IOC são uma função dos sinais de áudio e os parâmetros DMG e DCLD são uma função de d. Assim, é observado que d pode variar no tempo e na frequência.

[0095] Assim, todos os objetos si no modo normal, o downmixer 16 mistura a sN sem preferências, ou seja, com manuseio de todos os objetos sj a sN igualmente.

[0096] No lado do decodificador, o upmixer realiza a intervenção do procedimento de downmix e a implementação da "informação de apresentação" 26 representada por uma matriz R (na literatura, às vezes, também chamada A) em uma etapa do cálculo computacional, a saber, no caso de um downmix de dois canais

[0097] em que a matriz E é uma função dos parâmetros OLD e I0C e a matriz D contém os coeficientes de downmix como

[0098] A matriz E é uma matriz de covariância estimada dos objetos de áudio Si a sw. Nas implementações atuais de SAOC, o cálculo computacional da matriz de covariância estimada E é tipicamente realizado na resolução espectral/temporal dos parâmetros de SAOC, ou seja, para cada de modo que a matriz de covariância estimada possa ser escrita como E2,í". A matriz de covariância estimada EJ,ra tem o tamanho N x N, com seus coeficientes sendo definidos como

Assim, a matriz E2,m com

[0099] tem, ao longo de sua diagonal, as diferenças de nível do objeto, ou seja,

para i=j, visto que

para i=j. Fora da sua diagonal, a matriz de covariância estimada E tem coeficientes da matriz que representam a média geométrica das diferenças de nivel do objeto dos objetos i e j, respectivamente, ponderada com a medição da correlação cruzada entre objetos

[0100] A Figura 5 exibe um possivel principio de implementação no exemplo do Estimador de Informação Adicional [Side-Information Estimator (SIE)] como parte de um codificador de SAOC 10. O codificador de SAOC 10 compreende o mixer 16 e o estimador de informação adicional (SIE) 17. O SIE conceitualmente consiste em dois módulos: um módulo 45 para computar uma representação de t/f de curta duração (por exemplo, STFT ou QMF) de cada sinal. A representação de t/f de curta duração computada é inserida no segundo módulo 46, o módulo de estimativa de informação adicional seletiva de t/f (t/f-SIE). O módulo de t/f-SIE 46 computa a informação adicional para cada porção t/f. Nas implementações atuais de SAOC, a transformação de tempo/frequência é fixada e idêntica para todos os objetos de áudio Sj a sN. Além disso, os parâmetros de SAOC são determinados sobre as estruturas de SAOC, que são as mesmas para todos os objetos de áudio, e têm a mesma resolução de tempo/frequência para todos os objetos de áudio a sw, desconsiderando, assim, as necessidades especificas do objeto para a resolução precisa temporal em alguns casos, ou a resolução precisa espectral em outros.

[0101] A seguir, as aplicações da presente invenção são descritas.

[0102] A Figura la ilustra um decodificador para gerar um sinal de saida de áudio, compreendendo um ou mais canal(is) de saida de áudio de um sinal de downmix, compreendendo uma pluralidade de amostras de downmix de domínio de tempo, de acordo com uma aplicação. 0 sinal de downmix codifica dois ou mais sinais do objeto de áudio.

[0103] 0 decodificador compreende um gerador de sequência de janela 134 para determinar uma pluralidade de janelas de análise (por exemplo, com base na informação adicional paramétrica, nas diferenças de nível do objeto), em que cada uma das janelas de análise compreende uma pluralidade de amostras de downmix de domínio de tempo do sinal de downmix. Cada janela de análise da pluralidade de janelas de análise tem um comprimento da janela indicando o número de amostras de downmix de domínio de tempo da referida janela de análise. O gerador de sequência de janela 134 é configurado para determinar a pluralidade de janelas de análise, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio. Por exemplo, o comprimento da janela pode depender de a referida janela de análise compreender um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio sendo codificado pelo sinal de downmix.

[0104] Para determinar a pluralidade de janelas de análise, o gerador de sequência de janela 134 pode, por exemplo, analisar a informação adicional paramétrica, por exemplo, as diferenças transmitidas do nível do objeto com relação a dois ou mais sinais do objeto de áudio, para determinar o comprimento da janela das janelas de análise, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio. Ou, por exemplo, para determinar a pluralidade de janelas de análise, o gerador de sequência por janela 134 pode analisar as formas da janela ou as próprias janelas de análise, em que as formas da janela ou as janelas de análise possam, por exemplo, ser transmitidas no fluxo continuo de bits do codificador ao decodificador, e em que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio.

[0105] Além disso, o decodificador compreende um módulo de análise t/f 135 para transformar a pluralidade de amostras de downmix de dominio de tempo de cada janela de análise da pluralidade de janelas de análise de um dominio de tempo em um dominio de frequência de tempo, dependendo do comprimento de janela da referida janela de análise, para obter um downmix transformado.

[0106] Além disso, o decodificador compreende uma unidade não misturada 136 para não misturar o downmix transformado, com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saida de áudio.

[0107] As seguintes aplicações utilizara um mecanismo de construção da sequência da janela especial. Uma função da janela do protótipo f (n, N,,) é definida para o índice 0 < n < N,, -- 1, para um comprimento da janela N. Ao desenhar uma única janela w k(n), três pontos de controle são necessários, a saber, os centros das janelas prévia, atual e próxima, ck _ l , ck , e ck+1 .

[0108] Utilizando-os, a função de janelamento é definida como

[0109] A localização real da janela é, então,

com

denota a operação de arredondamento do argumento para o próximo número inteiro acima, e

denota, de forma correspondente, a operação de arredondamento do argumento para o próximo número inteiro abaixo). A função da janela do protótipo utilizada nas ilustrações é a janela sinusoidal, definida como

[0110] no entanto, outras formas também podem ser utilizadas. A localização transiente t define os centros para três janelas c4._1=í-//), ck=t , e ck+]=‘t + la, em Çue os números lb e la definem o intervalo desejado da janela antes e após o transiente.

[0111] Conforme explicado posteriormente, com relação à Figura 9, o gerador de sequência de janela 134 pode, por exemplo, ser configurado para determinar a pluralidade de janelas de análise, de modo que um transiente seja compreendido por uma janela de análise primária da pluralidade de janelas de análise e por uma janela de análise secundária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização t do transiente, de acordo com = t - lb, e um centro ck+1 da janela de análise primária é definido pela localização t do transiente, de acordo com c^+i = t + lar em que la e lb são números.

[0112] Conforme explicado posteriormente, com relação à Figura 10, o gerador de sequência de janela 134 pode, por exemplo, ser configurado para determinar a pluralidade de janelas de análise, de modo que um transiente seja compreendido por uma janela de análise primária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização t do transiente, de acordo com c-K = t, em que um centro c^-i de uma janela de análise secundária da pluralidade de janelas de análise é definido por uma localização t do transiente, de acordo com c^-i = t - lb, e em que um centro Cjt+i de uma terceira janela de análise da pluralidade de janelas de análise é definido por uma localização t do transiente, de acordo com c*+i = t + lar em que la e lb são números.

[0113] Conforme explicado posteriormente, com relação à Figura 11, o gerador de sequência de janela 134 pode, por exemplo, ser configurado para determinar a pluralidade de janelas de análise, de modo que cada uma dentre a pluralidade de janelas de análise compreenda tanto um número de amostras primário de sinal do dominio de tempo quanto um número de amostras secundário de sinal do dominio de tempo, em que o número de amostras secundário de sinal do dominio de tempo é maior do que o número de amostras primário de sinal do domínio de tempo, e em que cada uma das janelas de análise da pluralidade de janelas de análise compreende o primeiro número de amostras de sinal do domínio de tempo quando referida janela de análise compreende um transiente.

[0114] Em uma aplicação, o módulo de análise t/f 135 é configurado para transformar as amostras de downmix de dominio de tempo de cada uma das janelas de análise de um dominio de tempo em um dominio de tempo-frequência empregando um banco de filtro de QMF e um banco de filtro de Nyquist, em que a unidade de análise de t/f (135) é configurada para transformar a pluralidade de amostras de sinal do dominio de tempo de cada uma das janelas de análise, dependendo do comprimento de janela da referida janela de análise.

[0115] A Figura 2a ilustra um codificador para codificar dois ou mais sinais do objeto de áudio de entrada. Cada um dos dois ou mais sinais do objeto de áudio de entrada compreende uma pluralidade de amostras de sinal do dominio de tempo.

[0116] O codificador compreende uma unidade de sequência de janela 102 para determinar uma pluralidade de janelas de análise. Cada uma das janelas de análise compreende uma pluralidade de amostras de sinal do dominio de tempo de um dos sinais do objeto de áudio de entrada, em que cada uma das janelas de análise tem um comprimento da janela indicando o número de amostras de sinal do dominio de tempo da referida janela de análise. A unidade de sequência de janela 102 é configurada para determinar a pluralidade de janelas de análise, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada. Por exemplo, o comprimento da janela pode depender de a referida janela de análise compreender um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada.

[0117] Além disso, o codificador compreende uma unidade de análise de t/f 103 para transformar as amostras de sinal do domínio de tempo de cada uma das janelas de análise de um domínio de tempo em um dominio de tempo-frequência para obter amostras do sinal transformado. A unidade de análise de t/f 103 pode ser configurada para transformar a pluralidade de amostras de sinal do domínio de tempo de cada uma das janelas de análise, dependendo do comprimento de janela da referida janela de análise.

[0118] Além disso, o codificador compreende a unidade de estimativa por PSI 104 para determinar a informação adicional paramétrica, dependendo das amostras do sinal transformado.

[0119] Em uma aplicação, o codificador pode, por exemplo, compreender, ainda, uma unidade de detecção transiente 101 sendo configurada para determinar uma pluralidade de diferenças de nível do objeto de dois ou mais sinais do objeto de áudio de entrada e sendo configurada para determinar se uma diferença entre uma primeira dentre as diferenças de nível do objeto e uma segunda dentre as diferenças de nível do objeto é maior do que um valor limite, para determinar para cada uma das janelas de análise, se a referida janela de análise compreende um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada.

[0120] De acordo com uma aplicação, a unidade de detecção transiente 101 é configurada para empregar uma função de detecção d(n) para determinar se a diferença entre uma primeira dentre as diferenças de nível do objeto e a segunda dentre as diferenças de nível do objeto é maior do que o valor limite, em que a função de detecção d(n) é definida como:

[0121] em que n indica um índice temporal, em que i indica um primeiro objeto, em que j indica um segundo objeto, em que b indica uma banda paramétrica. OLD pode, por exemplo, indicar uma diferença do nível do objeto.

[0122] Conforme explicado posteriormente, com relação à Figura 9, a unidade de sequência de janela 102 pode, por exemplo, ser configurada para determinar a pluralidade de janelas de análise, de modo que um transiente indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada seja compreendido por uma janela de análise primária da pluralidade de janelas de análise e por uma janela de análise secundária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização t do transiente, de acordo com Ck = t - 1b, e um centro 0k+1 da janela de análise primária é definido pela localização t do transiente, de acordo com Ck+1 = t + l a, em que 1a e 1b são números.

[0123] Conforme explicado posteriormente, com relação à Figura 10, a unidade de sequência de janela 102 pode, por exemplo, ser configurada para determinar a pluralidade de janelas de análise, de modo que um transiente indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada seja compreendido por uma janela de análise primária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização L do transiente, de acordo com ck = t, em que um centro 0k_1 de uma janela de análise secundária da pluralidade de janelas de análise é definido por uma localização t do transiente, de acordo com ck _1 = t - Ib, e em que um centro ck+1 de uma janela de análise terciária da pluralidade de janelas de análise é definido por uma localização t do transiente, de acordo com ck+1 = t + 1, em que 1a e 1b são números .

[0124] Conforme explicado posteriormente, com relação à Figura 11, a unidade de sequência de janela 102 pode, por exemplo, ser configurada para determinar a pluralidade de janelas de análise, de modo que cada uma dentre a pluralidade de janelas de análise compreenda tanto um número de amostras primário de sinal do dominio de tempo quanto um número de amostras secundário de sinal do dominio de tempo, em que o número de amostras secundário de sinal do domínio de tempo é maior do que o número de amostras primário de sinal do domínio de tempo, e em que cada uma das janelas de análise da pluralidade de janelas de análise compreende o número de amostras primário de sinal do domínio de tempo, quando referida janela de análise compreende um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada.

[0125] De acordo com uma aplicação, a unidade de análise de t/f 103 é configurada para transformar as amostras de sinal do dominio de tempo de cada uma das janelas de análise a partir de um dominio de tempo até um dominio de tempo-frequência, empregando um banco de filtro de QMF e um banco de filtro de Nyquist, em que a unidade de análise de t/f 103 é configurada para transformar a pluralidade de amostras de sinal do dominio de tempo de cada uma das janelas de análise, dependendo do comprimento de janela da referida janela de análise.

[0126] A seguir, uma SAOC melhorada utilizando bancos de filtro adaptativos compatíveis regressiva, de acordo com as aplicações, é descrita.

[0127] Primeiramente, a decodificação do fluxo contínuo de bits da SAOC padrão por um decodificador de SAOC melhorado é explicada.

[0128] O decodificador de SAOC melhorado é desenhado de modo que possa decodificar o fluxo contínuo de bits dos codificadores SAOC padrão com uma boa qualidade. A decodificação é limitada à reconstrução paramétrica apenas, e possíveis fluxos residuais são ignorados.

[0129] A Figura 6 descreve um diagrama em blocos de um decodificador de SAOC melhorado, de acordo com uma aplicação, ilustrando a fluxo contínuo de bits de SAOC padrão de decodificação. Os blocos funcionais pretos em negrito (132, 133, 134, 135) indicam o processamento inventivo. A informação adicional paramétrica (PSI) consiste em conjuntos de diferenças de nivel do objeto (OLD), correlações entre objetos (IOC) e uma matriz de downmix D, utilizada para criar o sinal de downmix (áudio DMX) dos objetos individuais no decodificador. Cada parâmetro definido está associado com um limite do parâmetro que define a região temporal na qual os parâmetros estão associados. Na SAOC padrão, as posições de frequência da representação de tempo/frequência subjacente são agrupadas em bandas paramétricas. 0 espaçamento das bandas lembra as bandas criticas no sistema auditivo humano. Além disso, várias estruturas de representação de t/f podem ser agrupadas em uma estrutura do parâmetro. Ambas as operações fornecem uma redução na quantidade da informação adicional necessária com o custo de imprecisões de modelagem.

[0130] Conforme descrito no padrão da SAOC, as OLDs e as lOCs são utilizadas para calcular a matriz não misturada G = ED7 J , em que os elementos de E são

aproxima a matriz de correlação cruzada do objeto, i e j são indices do objeto,

e D é a transposição de D. Uma calculadora da matriz não misturada 131 pode ser configurada para calcular a matriz não misturada corretamente.

[0131] A matriz não misturada é, então, linearmente interpolada por um interpolador temporal 132 da matriz não misturada da estrutura anterior sobre a estrutura do parâmetro até o limite do parâmetro, no qual os valores estimados são atingidos, de acordo com a SAOC padrão. Isso resulta nas matrizes não misturadas para cada janela de análise do tempo/frequência e banda paramétrica.

[0132] A resolução de frequência da banda paramétrica das matrizes não misturadas é expandida à resolução da representação de tempo/frequência nesta janela de análise por uma unidade de adaptação de resolução de frequência da janela 133. Quando a matriz não misturada interpolada para a banda paramétrica b em uma estrutura de tempo é definida como G(ò) , os mesmos coeficientes sem mistura são utilizados para todas as posições de frequência dentro desta banda paramétrica.

[0133] Um gerador de sequência por janela 134 é configurado para utilizar a informação do intervalo definido do parâmetro da PSI para determinar uma sequência de janelamento apropriada para analisar o sinal de áudio downmix de entrada. A principal exigência é que, quando há um limite definido do parâmetro na PSI, o ponto cruzado entre as janelas de análise consecutivas devem corresponder a ele. 0 janelamento também determina a resolução de frequência dos dados dentro de cada janela (utilizados na expansão de dados sem mistura, conforme previamente descrito).

[0134] Os dados em janela são, então, transformados pelo módulo de análise t/f 135 em uma representação de dominio de frequência, utilizando uma transformação de tempo- frequência apropriada, por exemplo, Transformada Discreta de Fourier (DFT), Transformada de Cosseno Discreta Modificada Complexa (CMDCT | Complex Modified Discrete Cosine Transform) ou Transformada Discreta de Fourier com empilhamento (ODFT I Oddly stacked Discrete Fourier Transform).

[0135] Finalmente, uma unidade não misturada 136 aplica as matrizes não misturadas de posição por frequência e por estrutura na representação espectral do sinal de downmix X para obter as reconstruções paramétricas Y . 0 canal de saida j é uma combinação linear dos canais de downmix

[0136] A qualidade que pode ser obtida com este processo é para a maioria das finalidades perceptualmente indistinguível do resultado obtido com um decodificador SAOC padrão.

[0137] Deve ser observado que o texto acima descreve a reconstrução de objetos individuais, mas no SAOC padrão a apresentação é incluída na matriz não misturada, ou seja, é incluída na interpolação paramétrica. Como uma operação linear, a ordem das operações tem importância, mas a diferença é digna de nota.

[0138] A seguir, a decodificação do fluxo contínuo de bits de SAOC melhorada por um decodif icador de SAOC melhorado é descrita.

[0139] A funcionalidade principal do decodificador de SAOC melhorado já foi descrita previamente na decodificação do fluxo contínuo de bits da SAOC padrão. Esta seção detalhará como as melhorias da SAOC melhorada introduzida na PSI podem ser utilizadas para obter uma melhor qualidade perceptual.

[0140] A Figura 7 descreve os blocos funcionais principais do decodificador, de acordo com uma aplicação ilustrando a decodificação das melhorias da resolução de frequência. Os blocos funcionais pretos em negrito (132, 133, 134, 135) indicam o processamento inventivo.

[0141] Primeiramente, uma unidade de expansão de valor sobre a banda 141 adapta os valores de OLD e IOC para cada banda paramétrica na resolução de frequência utilizada nas melhorias, por exemplo, em 1024 posições. Isso é feito replicando o valor sobre as posições de frequência que correspondem à banda paramétrica. Isso resulta em novas OLDs

é uma matriz de núcleo que define a atribuição das posições de frequência f em bandas paramétricas b por

[0142] Paralelo a isso, a unidade de recuperação de função delta 142 inverte a parametrização do fator de correção para obter a função delta

do mesmo tamanho que a IOC e a OLD expandida.

[0143] Então, a unidade de aplicação delta 143 aplica o delta nos valores expandidos de OLD, e os valores de OLD de resolução precisa obtida são obtidos por

[0144] Em uma aplicação particular, o cálculo das matrizes não misturadas pode, por exemplo, ser feito pela calculadora da matriz não misturada 131, como com fluxo continuo de bit da SAOC padrão de decodificação:

com

e

Se desejado, a matriz de apresentação pode ser multiplicada na matriz não misturada G(/). A interpolação temporal pelo interpolador temporal 132 segue, de acordo com a SAOC padrão.

[0145] Como a resolução de frequência em cada janela pode ser diferente (geralmente inferior) da resolução nominal de alta frequência, a unidade de adaptação de resolução de frequência da janela 133 precisa adaptar as matrizes não misturadas para corresponder à resolução dos dados espectrais de áudio para permitir aplicá-la. Isso pode ser feito, por exemplo, pela reamostragem dos coeficientes sobre o eixo de frequência para a resolução correta. Ou, se as resoluções são múltiplos inteiros, deve-se simplesmente calcular a média dos dados de alta resolução dos indices que correspondem a uma posição de frequência na resolução inferior

[0146] A informação de sequência de janelamento do fluxo continuo de bit pode ser utilizada para obter uma análise de tempo-frequência completamente complementar à utilizada no codificador, ou a sequência de janelamento pode ser construida com base nos limites do parâmetro, como é feito na decodif icação do fluxo de bit continuo de SAOC padrão. Para isso, um gerador de sequência de janela 134 pode ser empregado.

[0147] A análise de tempo-frequência do áudio de downmix é, então, conduzida por um módulo de análise t/f 135, utilizando as dadas janelas.

[0148] Finalmente, as matrizes não misturadas temporalmente interpoladas e espectralmente (possivelmente) adaptadas são aplicadas por uma unidade não misturada 136 na representação de tempo/frequência do áudio de entrada, e o canal de saída j pode ser obtido como uma combinação linear dos canais de entrada

[0149] A seguir, a codificação SAOC melhorada compatível regressiva é descrita.

[0150] Agora, um codificador de SAOC melhorada que produz um fluxo contínuo de bit contendo uma parte da informação adicional compatível regressiva e melhorias adicionais é descrito. Os decodificadores de SAOC padrão existentes podem decodificar a parte compatível regressiva de PSI e produzir reconstruções dos objetos. A informação adicionada utilizada pelo decodificador de SAOC melhorado aprimora a qualidade perceptual das reconstruções na maioria dos casos. Adicionalmente, se o decodificador de SAOC melhorado está operando nos recursos limitados, as melhorias podem ser ignoradas e uma reconstrução de qualidade básica é, ainda, obtida. Deve ser observado que as reconstruções de SAOC padrão e os decodificadores de SAOC melhorados utilizando apenas a PSI compatível da SAOC padrão diferem, mas são julgados para serem perceptualmente muito semelhantes (a diferença é de natureza semelhante como no fluxo contínuo de bits de SAOC padrão de decodificação com um decodificador de SAOC melhorado).

[0151] A Figura 8 ilustra um diagrama em blocos de um codificador, de acordo com uma aplicação particular que implementa a passagem paramétrica do codificador descrito acima. Os blocos funcionais pretos em negrito (102, 103) indicam o processamento inventivo. Em particular, a Figura 8 ilustra um diagrama em blocos da codificação de dois estágios produzindo o fluxo continuo de bit compatível regressivo com melhorias para decodificadores mais capazes.

[0152] Primeiro, o sinal é subdividido em estruturas de análise, que são, então, transformadas em dominio de frequência. Várias estruturas de análise são agrupadas em uma estrutura do parâmetro de comprimento fixo, utilizando, por exemplo, comprimentos de MPEG SAOC de 16 e 32, e estruturas de análise são comuns. Presume-se que as propriedades do sinal permanecem quase estacionárias durante a estrutura do parâmetro e podem, então, ser caracterizadas com apenas um conjunto de parâmetros. Se as características do sinal mudam dentro da estrutura do parâmetro, o erro de modelagem é apresentado, e seria útil subdividir a estrutura mais longa do parâmetro em partes nas quais a suposição de quase estacionário é novamente realizada. Para esta finalidade, a detecção transiente é necessária.

[0153] Os transientes podem ser detectados pela unidade de detecção transiente 101 de todos os objetos de entrada separadamente, e quando houver um evento transiente em apenas um dos objetos em que a localização é declarada como uma localização transiente global. A informação das localizações transientes é utilizada para construir uma sequência de janelamento apropriada. A estrutura pode se basear, por exemplo, na seguinte lógica: - Definir um comprimento da janela padrão, ou seja, o comprimento de um bloco de trans formaçao do sinal padrão, por exemplo, 2048 amostras. - Definir o comprimento da estrutura do parâmetro, por exemplo, 4096 amostras, correspondentes a 4 janelas padrão com 50% de sobreposição. As estruturas do parâmetro agrupam várias janelas juntas e um único conjunto de descritores do sinal é utilizado para todo o bloco, ao invés de ter os descritores para cada janela separadamente. Isso permite reduzir a quantidade de PSI. - Se nenhum transiente foi detectado, utilize as janelas padrão e o comprimento total da estrutura do parâmetro. - Se um transiente for detectado, adapte o janelamento para fornecer uma melhor resolução temporal na localização do transiente.

[0154] Enquanto constrói a sequência de janelamento, a unidade de sequência de janela 102 responsável por ela também cria subestruturas do parâmetro de uma ou mais janelas de análise. Cada subconjunto é analisado como uma entidade e apenas um conjunto de parâmetros de PSI é transmitido para cada sub-bloco. Para fornecer uma PSI compatível da SAOC padrão, o comprimento do bloco do parâmetro definido é utilizado como o comprimento do bloco do parâmetro principal, e os possíveis transientes localizados dentro desse bloco definem os subconjuntos do parâmetro.

[0155] A sequência da janela construída é emitida para a análise de tempo-frequência dos sinais de áudio de entrada conduzidos pela unidade de análise de t/f 103, e transmitidos na parte de melhoria da SAOC melhorada da PSI.

[0156] Os dados espectrais de cada janela de análise são utilizados pela unidade de estimativa por PSI 104 para estimar a PSI para a parte de SAOC compatível regressiva (por exemplo, MPEG). Isso é feito agrupando as posições espectrais nas bandas paramétricas de MPEG SAOC e estimando as IOCs, as OLDs e as energias (NRG) de objetos absolutos nas bandas. Seguindo vagamente a notação de MPEG SAOC, o produto normalizado de dois espectros do objeto

em uma porção de parametrização é definido como

[0157] em que a matriz

define o mapeamento das posições de representação de t/f Fn na estrutura n (das estruturas N nesta estrutura do parâmetro) em bandas paramétricas B por

e

[0158] S* é o conjugado complexo de S. A resolução espectral pode variar entre as estruturas dentro de um único bloco paramétrico; assim, a matriz de mapeamento converte os dados em uma base de resolução comum. A energia do objeto máximo nesta porção de parametrização é definida como a energia do objeto máximo NRGÇb') = max(nrgj, (ò)) . Com esse valor, as OLDs são, então, definidas como as energias do objeto normalizadas

[0159] E, finalmente, a IOC pode ser obtida das

[0160] Isso conclui a estimativa das partes compatíveis da SAOC padrão do fluxo contínuo de bit.

[0161] Uma unidade de reconstrução de espectro de potência bruta 105 é configurada para utilizar as OLDs e as NRGs para reconstrução de uma estimativa bruta do envelope espectral no bloco de análise do parâmetro. O envelope é construído na resolução de frequência mais alta utilizada neste bloco.

[0162] O espectro original de cada janela de análise é utilizado por uma unidade de estimativa do espectro de potência 106 para calcular o espectro de potência nesta j anela.

[0163] Os espectros de potência obtidos são transformados em uma representação da resolução comum de alta frequência por uma unidade de adaptação de resolução de frequência 107. Isso pode ser feito, por exemplo, pela interpolação dos valores espectrais de potência. Então, o perfil espectral de potência média é calculado pela média dos espectros dentro do bloco do parâmetro. Isso corresponde aproximadamente à estimativa de OLD que omite a agregação da banda paramétrica. O perfil espectral obtido é considerado como a OLD de resolução precisa.

[0164] A unidade de estimativa de delta 108 é configurada para estimar um fator de correção, "delta", por exemplo, dividindo a OLD de resolução precisa pela reconstrução do espectro de potência bruta. Como resultado, isso fornece para cada posição de frequência um fator de correção (multiplicativo) que pode ser utilizado para aproximar a OLD de resolução precisa, dados os espectros brutos.

[0165] Finalmente, uma unidade de modelagem de delta 109 é configurada para modelar o fator de correção estimado em uma forma eficiente para transmissão.

[0166] Efetivamente, as modificações de SAOC melhorada no fluxo continuo de bit consistem na informação de sequência de janelamento e nos parâmetros para transmitir o "delta".

[0167] A seguir, a detecção transiente é descrita.

[0168] Quando as características do sinal permanecem quase estacionárias, o ganho de codificação (com relação à quantidade de informação adicional) pode ser obtido combinando várias estruturas temporais nos blocos do parâmetro. Por exemplo, na SAOC padrão, os valores geralmente utilizados são 16 e 32 estruturas de QMF por um bloco do parâmetro. Esses correspondem a 1024 e 2048 amostras, respectivamente. O comprimento do bloco do parâmetro pode ser definido antecipadamente em um valor fixo. Um efeito direto que ele tem é o atraso do codec (o codificador deve ter uma estrutura completa para poder codificá-la). Ao utilizar blocos paramétricos longos, seria útil detectar mudanças significativas nas características do sinal, essencialmente quando a suposição quase estacionária é violada. Após encontrar uma localização de uma mudança significativa, o sinal do dominio de tempo pode ser dividido e as partes podem novamente realizar a suposição quase estacionária de melhor forma.

[0169] Aqui, um novo método de detecção transiente é descrito para ser utilizado em conjunto com a SAOC. Visto de forma meticulosa, o método não tem o objetivo de detectar os transientes, mas ao invés disso, detectar as mudanças nas parametrizações do sinal que podem ser acionadas também, por exemplo, por uma compensação de som.

[0170] O sinal de entrada é dividido em estruturas de curta sobreposição, e as estruturas são transformadas no dominio de frequência, por exemplo, com a Transformada Discreta de Fourier (DFT). 0 espectro complexo é transformado no espectro de potência multiplicando os valores com seus conjugados complexos (ou seja, colocando em quadratura seus valores absolutos). Então, um agrupamento da banda paramétrica, semelhante a um utilizado na SAOC padrão, é utilizado, e a energia de cada banda paramétrica em cada período de tempo em cada objeto é calculado. As operações são curtas

[0171] caracterizado por

ser o espectro complexo do objeto i na estrutura de tempo n. A soma passa por cima das posições de frequência f na banda b . Para remover algum efeito de ruído dos dados, os valores são filtrados por passa-baixa com um filtro IIR de primeira ordem:

[0172] em que 0<au, < 1 é o coeficiente de retorno do filtro, por exemplo, «^,=0.9.

[0173] A principal parametrização na SAOC são as diferenças de nivel do objeto (OLDs). O método de detecção proposto tenta detectar quando as OLDs mudariam. Assim, todos os pares do objeto são inspecionados com

As mudanças em todos os pares de objeto único são somadas em uma função de detecção por

[0174] Os valores obtidos são comparados com um limite T para filtrar pequenos desvios de nivel do filtro, e uma distância minima L entre as detecções consecutivas é imposta. Assim a função de detecção é

[0175] A seguir, a resolução de frequência da SAOC melhorada é descrita.

[0176] A resolução de frequência obtida da análise da SAOC padrão é limitada ao número de bandas paramétricas, tendo o valor máximo de 28 na SAOC padrão. Elas são obtidas de um banco de filtro híbrido consistindo em una análise de QMF de 64 bandas seguida por um estágio de filtragem híbrida nas bandas mais baixas ainda dividindo-as em 4 sub-bandas complexas. As faixas de frequência obtidas são agrupadas em bandas paramétricas imitando a resolução da banda crítica do sistema auditivo humano. O agrupamento permite reduzir a taxa de bit da informação adicional necessária.

[0177] O sistema existente produz uma qualidade de separação plausível, dada a taxa de bit razoavelmente baixa. O principal problema é a resolução de frequência insuficiente para uma separação limpa de sons tonais. Isso é exibido como um "halo" de outros objetos ao redor dos componentes tonais de um objeto. Perceptualmente, isso é observado como aspereza ou perturbação similar ao vocoder. O efeito prejudicial deste halo pode ser reduzido pelo aumento da resolução de frequência paramétrica. Foi observado que uma resolução igual ou mais alta do que 512 bandas (na taxa de amostragem 44.1 kHz) produz a separação perceptualmente boa nos sinais do teste. Essa resolução poderia ser obtida estendendo-se o estágio de filtragem híbrida do sistema existente, mas os filtros híbridos precisam ser de uma ordem alta para uma separação suficiente, levando a um custo alto de cálculo computacional.

[0178] Uma forma simples de obter a resolução de frequência necessária é utilizar uma transformação de tempo- frequência com base em DFT. Estes podem ser implementados eficientemente por meio de um algoritmo da Transformada Rápida de Fourier (FFT I Fast Fourier Transform) . Ao invés de um DFT normal, CMDCT ou ODFT são consideradas como alternativas. A diferença é que as duas últimas são ímpares e o espectro obtido contém frequências puras positivas e negativas. Comparadas a uma DFT, as posições de frequência são alternadas por uma largura de 0,5 posições. Na DFT uma das posições é centralizada em 0 Hz e outro na frequência de Nyquist. A diferença entre ODFT e CMDCT é que CMDCT contém uma operação de pós modulação adicional que afeta o espectro da fase. 0 beneficio disso é que o espectro complexo resultante consiste na Transformada de Cosseno Discreta Modificada (MDCT) e na Transformada de Seno Discreta Modificada (MDST I Modified Discrete Sine Transform) .

[0179] Uma transformada com base na DFT de comprimento N produz um espectro complexo com valores N . Quando a sequência transformada é em valor real, apenas N/2 destes valores são necessários para uma reconstrução perfeita; os outros valores N/2 podem ser obtidos a partir dos dados com simples manipulações. A análise normalmente opera submetendo uma estrutura de amostras de dominio de tempo N do sinal, aplicando uma função de janelamento sobre os valores e, então, calculando a transformação real nos dados em janela. Os blocos consecutivos sobrepõem temporalmente 50% e as funções de janelamento são desenhadas, de modo que os quadrados das janelas consecutivas serão somados em uma unidade. Isso garante que quando a função de janelamento é aplicada duas vezes nos dados (uma vez analisando o sinal do dominio de tempo, e uma segunda vez após a transformação da sintese antes da adição por sobreposição), a cadeia de análise-mais-sintese sem modificações do sinal é sem perdas.

[0180] Dados os 50% de sobreposição entre as estruturas consecutivas e um comprimento da estrutura de 2048 amostras, a resolução temporal efetiva é 1024 amostras (correspondente a 23,2 ms na taxa de amostragem de 44,1 kHz). Isso não é pequeno o suficiente por duas razões: primeiro, seria desejável poder codificar o fluxo continuo de bits produzido por um codificador de SAOC padrão, e segundo, os analisar sinais em um codificador de SAOC melhorada com uma resolução temporal mais fina, se necessário.

[0181] Na SAOC, é possível agrupar vários blocos nas estruturas dos parâmetros. Presume-se que as propriedades do sinal permanecem semelhantes o suficiente sobre a estrutura do parâmetro para serem caracterizadas com um único parâmetro definido. O comprimento da estrutura dos parâmetros normalmente encontrados na SAOC padrão são 16 ou 32 estruturas de QMF (comprimentos até 72 são permitidos pelo padrão). O agrupamento semelhante pode ser realizado ao utilizar um banco de filtro com uma resolução de alta frequência. Quando as propriedades do sinal não mudam durante uma estrutura do parâmetro, o agrupamento fornece a eficiência da codificação sem degradações de qualidade. Entretanto, quando as propriedades do sinal mudam dentro da estrutura do parâmetro, o agrupamento induz erros. SAOC padrão permite definir um comprimento de agrupamento padrão, que é utilizado com sinais quase estacionários, mas também definir os sub-blocos do parâmetro. Os sub-blocos definem os agrupamentos mais curtos do que o comprimento padrão, e a parametrização é feita em cada sub-bloco separadamente. Por causa da resolução temporal do banco QMF subjacente, a resolução temporal resultante são 64 amostras de domínio de tempo, que é muito mais fina do que a resolução obtida utilizando um banco de filtro fixo com alta resolução de frequência. Essa exigência afeta o decodificador de SAOC melhorado.

[0182] Utilizar um banco de filtro com um grande comprimento de transformada fornece uma boa resolução de frequência, mas a resolução temporal é degradada, ao mesmo tempo (o chamado principio de incerteza). Se as propriedades do sinal mudam dentro de uma única estrutura de análise, a baixa resolução temporal pode causar desfocagem na saida da síntese. Assim, seria útil obter uma resolução temporal da subestrutura nas localizações de mudanças de sinal consideráveis. A resolução temporal da subestrutura leva naturalmente a uma resolução de frequência inferior, mas presume-se que durante uma mudança de sinal a resolução temporal seja o aspecto mais importante a ser capturado precisamente. Essa exigência da resolução temporal da subestrutura afeta principalmente o codificador de SAOC melhorada (e consequentemente também o decodificador).

[0183] O mesmo princípio da solução pode ser utilizado em ambos os casos: utilizar longas estruturas de análise quando o sinal é quase estacionário (nenhum transiente detectado) e quando não há limites do parâmetro. Quando qualquer uma das duas condições falhar, empregar o esquema de comutação do comprimento do bloco. Uma exceção a essa condição pode ser feita nos limites do parâmetro que residem entre os grupos de estrutura não divididos e coincidem com o ponto cruzado entre duas janelas longas (enquanto decodifica um fluxo contínuo de bit da SAOC padrão). Presume-se que, nesse caso, as propriedades do sinal permanecem estacionárias suficientemente para o banco de filtro de alta resolução. Quando um limite do parâmetro é sinalizado (do fluxo continuo de bit ou detector de transiente), a estrutura é ajustada para utilizar um comprimento de estrutura menor, melhorando, assim, a resolução temporal localmente.

[0184] As primeiras duas aplicações utilizam o mesmo mecanismo de construção de sequência da janela subjacente. Uma função da janela do protótipo f(n,N) é definida para o índice 0<?7<JV-1 para um comprimento da janela N . Desenhando uma única janela wA(/l) , três pontos de controle são necessários, a saber, os centros das janelas anterior, atual e da próxima janela, ck_{l ck , e ct+1.

[0185] Utilizando-as, a função de janelamento é definida como

[0186] A localização real da janela é, então,

A função da janela do protótipo utilizada nas ilustrações é a janela sinusoidal definida como

[0187] mas, também, outras formas podem ser utilizadas.

[0188] A seguir, o cruzamento em um transiente, de acordo com uma aplicação, é descrito.

[0189] A Figura 9 é uma ilustração do princípio do esquema de comutação do bloco de "cruzamento no transiente". Em particular, a Figura 9 ilustra a adaptação da sequência de janelamento normal para acomodar um ponto de cruzamento da janela no transiente. A linha 111 representa as amostras de sinal do dominio de tempo, a linha vertical 112 mostra a localização t do transiente detectado (ou um limite do parâmetro do fluxo contínuo de bit), e a linha 113 ilustra as funções do janelamento e seus intervalos temporais. Esse esquema requer decidir a quantidade da sobreposição entre as duas janelas wk e wt+1 ao redor do transiente, definindo a inclinação da janela. Quando o comprimento da sobreposição é definido em um pequeno valor, as janelas têm seus pontos máximos próximos ao transiente e às seções que cruzam a rápida deterioração do transiente. Os comprimentos de sobreposição podem, também, ser diferentes antes e após o transiente. Nesta abordagem, as duas janelas ou estruturas ao redor do transiente serão ajustadas no comprimento. A localização do transiente define os centros das janelas circundantes como ck-t-lb e cM=t + lat nos quais lb e la são o comprimento de sobreposição antes e após o transiente, respectivamente. Com estes definidos, a equação acima pode ser utilizada.

[0190] A seguir, o isolamento do transiente, de acordo com uma aplicação, é descrito.

[0191] A Figura 10 ilustra o princípio do esquema de comutação do bloco de isolamento transiente, de acordo com uma aplicação. Uma janela curta wk é centralizada no transiente, e as duas janelas vizinhas,

são ajustadas para complementar a janela curta. Efetivamente as janelas vizinhas são limitadas à localização transiente; assim, a janela anterior contém apenas o sinal antes do transiente, e a janela seguinte contém apenas o sinal após o transiente. Nesta abordagem, o transiente define os centros para três janelas,

caracterizado por lh e la definirem o intervalo desejado da janela antes e após o transiente. Com estes definidos, a equação acima pode ser utilizada.

[0192] A seguir, estrutura semelhante a AAC, de acordo com uma aplicação, é descrita.

[0193] Os graus de liberdade de dois esquemas de janelamento anteriores podem não ser sempre necessários. O processamento do transiente de diferenciação é também empregado no campo da codificação de áudio perceptual. O objetivo é reduzir a dispersão temporal do transiente que causaria os chamados pré-ecos. No MPEG-2/4 AAC [AAC], dois comprimentos básicos da janela são utilizados: LONGO (com comprimento de 2048-amostras) e CURTO (com o comprimento de 256 amostras). Além desses dois, duas janelas de transição também são definidas para permitir a transição de LONGA para CURTA e vice-versa. De acordo com uma restrição adicional, as janelas CURTAS são necessárias para ocorrer em grupos de 8 janelas. Dessa forma, a distância entre as janelas e os grupos de janela permanece em um valor constante de 1024 amostras.

[0194] Se o sistema SAOC emprega um codec com base em AAC para os sinais de objeto, o downmix, ou os objetos residuais, seria útil ter um esquema de estrutura que pode ser facilmente sincronizado com o codec. Por essa razão, um esquema de comutação do bloco com base nas janelas AAC é descrito.

[0195] A Figura 11 descreve um exemplo de comutação do bloco semelhante a AAC. Em particular, a Figura 11 ilustra o mesmo sinal com um transiente e a sequência de janelamento semelhante a AAC resultante. Pode ser observado que a localização do transiente temporal é coberta por 8 janelas CURTAS, que são envoltas pelas janelas de transição de e para as janelas LONGAS. Pode ser observado, a partir da ilustração, que o próprio transiente não é centralizado em uma única janela nem no ponto cruzado entre duas janelas. Isso ocorre, porque as localizações da janela são fixadas em uma grade, mas a grade garante a distância constante ao mesmo tempo. Presume-se que o erro arredondado temporal resultante seja pequeno o suficiente para ser perceptualmente irrelevante comparado aos erros causados pelas janelas LONGAS

[0196] As janelas são definidas como:

- A janela de transição de CURTA para LONGA

[0197] A seguir, as variantes da implementação, de acordo com as aplicações, são descritas.

[0198] Independentemente do esquema de comutação do bloco, outra escolha de desenho é o comprimento da transformada de t/f real. Se o alvo principal é manter as seguintes operações de dominio de frequência simples pelas estruturas de análise, um comprimento de transformação constante pode ser utilizado. O comprimento é definido em um grande valor apropriado, por exemplo, correspondente ao comprimento da estrutura permitida mais longa. Se a estrutura do dominio de tempo é mais curta do que esse valor, então é preenchido com zeros no comprimento total. Deve ser observado que, embora após o preenchimento com zero, o espectro tem um número maior de posições, a quantidade de informação real não é elevada em comparação a uma transformação mais curta. Nesse caso, as matrizes de núcleo K(è,/,rc) têm as mesmas dimensões para todos os valores de n.

[0199] Outra alternativa é transformar a estrutura em janelas sem preenchimento de zeros. Isso tem uma complexidade do cálculo computacional menor do que com um comprimento de transformação constante. Entretanto, a resolução diferenciada de frequências entre as estruturas consecutivas precisa ser considerada com as matrizes núcleo

[0200] A seguir, a filtragem híbrida estendida, de acordo com uma aplicação, é descrita.

[0201] Outra possibilidade para obter uma resolução de frequência mais alta seria modificar o banco de filtro híbrido utilizado na SAOC padrão para uma resolução mais fina. Na SAOC padrão, apenas as três mais básicas das 64 bandas de QMF são passadas pelo banco de filtro Nyquist, que subdivide, ainda, os conteúdos da banda.

[0202] A Figura 12 ilustra a filtragem híbrida de QMF estendida. Os filtros de Nyquist são repetidos para cada banda de QMF separadamente, e as saídas são combinadas por um único espectro de alta resolução. Em particular, a Figura 12 ilustra como obter uma resolução de frequência comparável à abordagem com base em DFT exigiria a subdivisão de cada banda de QMF em, por exemplo, 16 sub-bandas (exigindo filtragem complexa em 32 sub-bandas). A desvantagem desta abordagem é que os protótipos do filtro necessários são longos devido à estreiteza das bandas. Isso causa certo atraso no processamento e aumenta a complexidade do cálculo computacional.

[0203] Uma forma alternativa é implementar a filtragem híbrida estendida substituindo os conjuntos de filtros Nyquist pelos bancos de filtro/transformações eficientes (por exemplo, "zoom" DFT, Transformada de Cosseno Discreta etc.). Além disso, a distorção contida nos coeficientes espectrais de alta resolução resultantes, que é causada pelos efeitos de vazamento do primeiro estágio de filtro (aqui: QMF), pode ser substancialmente reduzida por um pós-processamento de cancelamento de distorção dos coeficientes espectrais de alta resolução semelhantes ao banco de filtro hibrido MPEG-1/2 de Camada 3 bem conhecido [FB] [MPEG-1].

[0204] A Figura lb ilustra um decodificador para gerar um sinal de saida de áudio, compreendendo um ou mais canal(is) de saida de áudio de um sinal de downmix, compreendendo uma pluralidade de amostras de downmix de dominio de tempo, de acordo com uma aplicação correspondente. 0 sinal de downmix codifica dois ou mais sinais do objeto de áudio.

[0205] O decodificador compreende um primeiro submódulo de análise 161 para transformar a pluralidade de amostras de downmix de dominio de tempo para obter uma pluralidade de sub-bandas compreendendo uma pluralidade de amostras de sub-banda.

[0206] Além disso, o decodificador compreende um gerador de sequência de janela 162 para determinar uma pluralidade de janelas de análise, caracterizado por cada uma das janelas de análise compreender uma pluralidade de amostras de sub-banda de uma da pluralidade de sub-bandas, em que cada janela de análise da pluralidade de janelas de análise tem um comprimento da janela indicando o número de amostras de sub-banda da referida janela de análise. O gerador de sequência de janela 162 é configurado para determinar a pluralidade de janelas de análise, por exemplo, com base na informação adicional paramétrica, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio.

[0207] Além disso, o decodificador compreende um módulo de análise secundário 163 para transformar a pluralidade de amostras de sub-banda de cada janela de análise da pluralidade de janelas de análise, dependendo do comprimento de janela da referida janela de análise, para obter um downmix transformado.

[0208] Além disso, o decodificador compreende uma unidade não misturada 164 para não misturar o downmix transformado com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saida de áudio.

[0209] Em outras palavras: a transformação é conduzida em duas fases. Em uma primeira fase de transformação, uma pluralidade de sub-bandas, cada uma compreendendo uma pluralidade de amostras de sub-banda, é criada. Então, em uma segunda fase, outra transformação é conduzida. Inter alia, as janelas de análise utilizadas para a segunda fase determinam a resolução de tempo e a resolução de frequência do downmix transformado resultante.

[0210] A Figura 13 ilustra um exemplo no qual as janelas curtas são utilizadas para a transformação. Utilizar as janelas curtas leva a uma baixa resolução de frequência, mas uma alta resolução de tempo. Empregar as janelas curtas pode, por exemplo, ser apropriado, quando um transiente está presente nos sinais do objeto de áudio codificado (0 ÜÍ,J indica amostras de sub-banda, e o vs,r indica amostras do downmix transformado em um dominio de tempo-frequência).

[0211] A Figura 14 ilustra um exemplo no qual, para a transformação, são utilizadas as janelas mais longas do que no exemplo da Figura 13. Utilizar as janelas longas leva a uma resolução de alta frequência, mas uma baixa resolução de tempo. Empregar janelas longas pode, por exemplo, ser apropriado, quando um transiente não está presente nos sinais do objeto de áudio codificados. (Novamente, o uirj indica as amostras de sub-banda, e o vS/I indica as amostras do downmix transformado no domínio de frequência de tempo).

[0212] A Figura 2b ilustra um codificador correspondente para codificar dois ou mais sinais do objeto de áudio de entrada, de acordo com uma aplicação. Cada um de dois ou mais sinais do objeto de áudio de entrada compreende uma pluralidade de amostras de sinal do domínio de tempo.

[0213] O codificador compreende um primeiro submódulo de análise 171 para transformar a pluralidade de amostras de sinal do dominio de tempo para obter uma pluralidade de sub-bandas compreendendo uma pluralidade de amostras de sub-banda.

[0214] Além disso, o codificador compreende uma unidade de sequência de janela 172 para determinar uma pluralidade de janelas de análise, caracterizado por cada uma das janelas de análise compreender uma pluralidade de amostras de sub-banda de uma da pluralidade de sub-bandas, em que cada uma das janelas de análise tem um comprimento da janela indicando o número de amostras de sub-banda da referida janela de análise, em que a unidade de sequência por janela 172 é configurada para determinar a pluralidade de janelas de análise, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada. Por exemplo, uma unidade de detecção transiente (opcional) 175 pode fornecer a informação se um transiente está presente em um dos sinais do objeto de áudio de entrada à unidade de sequência de janela 172.

[0215] Além disso, o codificador compreende um módulo de análise secundário 173 para transformar a pluralidade de amostras de sub-banda de cada janela de análise da pluralidade de janelas de análise, dependendo do comprimento de janela da referida janela de análise, para obter amostras do sinal transformado.

[0216] Além disso, o codificador compreende uma unidade de estimativa de PSI 174 para determinar a informação adicional paramétrica, dependendo das amostras do sinal transformado.

[0217] De acordo com outras aplicações, dois módulos de análises para conduzir a análise em duas fases podem estar presentes, mas o segundo módulo pode ser ligado e desligado dependendo de uma propriedade do sinal.

[0218] Por exemplo, se uma resolução de alta frequência é necessária e uma baixa resolução de tempo é aceitável, então, o módulo de análise secundário é ligado.

[0219] Em contraste, se uma alta resolução de tempo é necessária e uma baixa resolução de frequência é aceitável, então o módulo de análise secundário é desligado.

[0220] A Figura 1c ilustra um decodificador para gerar um sinal de saída de áudio compreendendo um ou mais canal(is) de saída de áudio de um sinal de downmix, de acordo com tal aplicação. O sinal de downmix codifica um ou mais sinal(is) do objeto de áudio.

[0221] O decodificador compreende uma unidade de controle 181 para definir uma indicação de ativação em um estado de ativação, dependendo de uma propriedade do sinal de, pelo menos, um de um ou mais sinal (is) do objeto de áudio.

[0222] Além disso, o decodificador compreende um módulo de análise primário 182 para transformar o sinal de downmix para obter um downmix primário transformado, compreendendo uma pluralidade de canais de sub-banda primários.

[0223] Além disso, o decodificador compreende um módulo de análise secundário 183 para gerar, quando a indicação de ativação é definida no estado de ativação, um downmix secundário transformado pela transformação de, pelo menos, um dos canais de sub-banda primários para obter uma pluralidade de canais de sub-banda secundários, em que o downmix secundário transformado compreende os canais de subbanda primários que não foram transformados pelo módulo de análise secundário e os canais de sub-banda secundários.

[0224] Além disso, o decodificador compreende uma unidade não misturada 184, em que a unidade não misturada 184 é configurada para não misturar o downmix secundário transformado, quando a indicação de ativação é definida no estado de ativação, com base na informação adicional paramétrica sobre um ou mais sinal(is) do objeto de áudio para obter o sinal de saída de áudio, e para não misturar o downmix primário transformado, quando a indicação de ativação não é definida no estado de ativação, com base na informação adicional paramétrica sobre um ou mais sinal(is) do objeto de áudio para obter o sinal de saída de audio.

[0225] A Figura 15 ilustra um exemplo, no qual uma resolução de alta frequência é necessária e uma baixa resolução de tempo é aceitável. Consequentemente, a unidade de controle 181 liga o módulo de análise secundário definindo a indicação de ativação ao estado de ativação (por exemplo, definindo uma variável booleana "activation_indication" em "activation^indícation = true"). O sinal de downmix é transformado pelo módulo de análise primário 182 (não mostrado na Figura 15) para obter um downmix primário transformado. No exemplo da Figura 15, o downmix transformado tem três sub-bandas. Nos cenários da aplicação mais realista, o downmix transformado pode ter, por exemplo, 32 ou 64 subbandas. Então, o downmix primário transformado é transformado pelo módulo de análise secundário 183 (não mostrado na Figura 15) para obter um downmix secundário transformado. No exemplo da Figura 15, o downmix transformado tem nove sub-bandas. Nos cenários da aplicação mais realista, o downmix transformado pode ter, por exemplo, 512, 1024 ou 2048 sub-bandas. A unidade não misturada 184, então, não misturará o downmix secundário transformado para obter o sinal de saida de áudio.

[0226] Por exemplo, a unidade não misturada 184 pode receber a indicação de ativação da unidade de controle 181. Ou, por exemplo, sempre que a unidade não misturada 184 receber um downmix secundário transformado do módulo de análise secundário 183, a unidade não misturada 184 conclui que o downmix secundário transformado não deve ser misturado; sempre que a unidade não misturada 184 não recebe um downmix secundário transformado do módulo de análise secundário 183, a unidade não misturada 184 conclui que o downmix primário transformado não deve ser misturado.

[0227] A Figura 16 ilustra um exemplo, no qual uma alta resolução de tempo é necessária e uma baixa resolução de frequência é aceitável. Consequentemente, a unidade de controle 181 desliga o módulo de análise secundário definindo a indicação de ativação em um estado diferente do estado de ativação (por exemplo, definindo a variável booleana "activation indication" em "activation indication = false"). 0 sinal de downmix é Lransformado pelo módulo de análise primário 182 (não mostrado na Figura 16) para obter um downmix primário transformado. Então, em contraste à Figura 15, o downmix primário transformado não é mais uma vez transformado pelo módulo de análise secundário 183. Ao invés disso, a unidade não misturada 184 não misturará primeiro o downmix secundário transformado para obter o sinal de saída dc áudio.

[0228] De acordo com uma aplicação, a unidade de controle 181 é configurada para definir a indicação de ativação ao estado de ativação, dependendo de pelo menos um de um ou mais sinal(is) do objeto de áudio compreender um transiente indicando uma mudança de sinal de, pelo menos, um de um ou mais sinal(is) do objeto de áudio.

[0229] Em outra aplicação, uma indicação de transformação de sub-banda é atribuída a cada um dos canais de sub-banda primários. A unidade de controle 181 é configurada para definir a indicação de transformação de subbanda de cada um dos canais de sub-banda primários em um estado de transformação de sub-banda dependendo da propriedade do sinal de, pelo menos, um de um ou mais sinal(is) do objeto de áudio. Além disso, o módulo de análise secundário 183 é configurado para transformar cada um dos canais de sub-banda primários, a indicação de transformação de sub-banda que é definida no estado de transformação de sub-banda, para obter a pluralidade de canais de sub-banda secundários, e para não transformar cada um dos canais de sub-banda secundários, a indicação de transformação de sub-banda que não é definida no estado de transformação de sub-banda .

[0230] A Figura 17 ilustra um exemplo, no qual a unidade de controle 181 (não mostrada na Figura 17) definiu a indicação de transformação de sub-banda da segunda sub-banda no estado de transformação de sub-banda (por exemplo, definindo uma variável booleana "subband_transform_indication_2" em "subband transform_indication_2 = true"). Assim, o módulo de análise secundário 183 (não mostrado na Figura 17) transforma a segunda sub-banda para obter três novas sub-bandas de "resolução precisa". No exemplo da Figura 17, a unidade de controle 181 não definiu a indicação de transformação de subbanda da primeira e terceira sub-banda no estado de transformação de sub-banda (por exemplo, isso pode ser indicado pela unidade de controle 181 definindo as variáveis booleanas "subband_transform__in.dicatiori_l" e "subband^transformindicatior.3" em "subband transform_indication_l = false" e "subband transform_indication_3 = false"). Assim, o módulo de análise secundário 183 não transforma a primeira e a terceira subbandas. Ao invés disso, a primeira e a terceira sub-bandas são utilizadas como sub-bandas do downmix secundário transformado.

[0231] A Figura 18 ilustra um exemplo, no qual a unidade de controle 181 (não mostrada na Figura 18) definiu a indicação de transformação de sub-banda da primeira e da segunda sub-bandas no estado de transformação de sub-banda (por exemplo, definindo a variável booleana "subband_transform_indication_l" em "subband transform_indication_l = true" e, por exemplo, definindo a variável Booleana "subband_transform_indication_2" em "subband transform_indication_2 = true"). Assim, o módulo de análise secundário 183 (não mostrado na Figura 18) transforma a primeira e a segunda sub-bandas para obter seis novas subbandas de "resolução precisa". No exemplo da Figura 18, a unidade de controle 181 não definiu a indicação de transformação da sub-banda da terceira sub-banda no estado de transformação de sub-banda (por exemplo, isso pode ser indicado pela unidade de controle 181 definindo a variável booleana "subband_transform_indication_3" em "subband transform_indication_3 = false"). Assim, o módulo de análise secundário 183 não transforma a terceira sub-banda. Ao invés disso, a própria terceira sub-banda é utilizada como uma subbanda do downmix secundário transformado.

[0232] De acordo com uma aplicação, o módulo de análise primário 182 é configurado para transformar o sinal de downmix para obter o downmix primário transformado compreendendo a pluralidade de canais de sub-banda primários empregando um Filtro em Espelho de Quadratura (QMF).

[0233] Em uma aplicação, o módulo de análise primário 182 é configurado para transformar o sinal de downmix dependendo de um comprimento da janela de análise primário, em que o comprimento da janela de análise primário depende da referida propriedade do sinal, e/ou o módulo de análise secundário 183 é configurado para gerar, quando a indicação de ativação é definida no estado de ativação, o downmix secundário transformado pela transformação de, pelo menos, um dos canais de sub-banda primários dependendo de um comprimento da janela de análise secundário, em que o comprimento da janela de análise secundário depende da referida propriedade do sinal. Tal aplicação liga e desliga o módulo de análise secundário 183, e define o comprimento de uma janela de análise.

[0234] Em uma aplicação, o decodificador é configurado para gerar o sinal de saída de áudio compreendendo um ou mais canal(is) de saída de áudio do sinal de downmix, em que o sinal de downmix codifica dois ou mais sinais do objeto de áudio. A unidade de controle 181 é configurada para definir a indicação de ativação ao estado de ativação, dependendo da propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio. Além disso, a unidade não misturada 154 é configurada para não misturar o downmíx secundário transformado, quando a indicação de ativação é definida no estado de ativação, com base na informação adicional paramétrica sobre um ou mais sinal(isy do objeto de áudio para obter o sinal de saída de áudio, e para não misturar o downmix primário transformado, quando a indicação de ativação não é definida no estado de ativação, com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saída de áudio.

[0235] A Figura 2c ilustra um codificador para codificar um sinal do objeto de áudio de entrada, de acordo com uma aplicação.

[0236] O codificador compreende uma unidade de controle 191 para definir uma indicação de ativação em um estado de ativação, dependendo de uma propriedade do sinal do sinal do objeto de áudio de entrada.

[0237] Além disso, o codificador compreende um módulo de análise primário 192 para transformar o sinal do objeto de áudio de entrada para obter um primeiro sinal do objeto de áudio transformado, em que o primeiro sinal do objeto de áudio transformado compreende uma pluralidade de canais de sub-banda primários.

[0238] Além disso, o codificador compreende um módulo de análise secundário 193 para gerar, quando a indicação de ativação é definida no estado de ativação, um segundo sinal do objeto de áudio transformado pela transformação de, pelo menos, um da pluralidade de canais de sub-banda primários para obter uma pluralidade de canais de sub-banda secundários, em que o segundo sinal do objeto de áudio transformado compreende o canais de sub-banda primários que não foram transformados pelo módulo de análise secundário e o canais de sub-banda secundários.

[0239] Além disso, o codificador compreende a unidade de estimativa de PSI 194, em que a unidade de estimativa de PSI 194 é configurada para determinar a informação adicional paramétrica com base no segundo sinal do objeto de áudio transformado, quando a indicação de ativação é definida no estado de ativação, e para determinar a informação adicional paramétrica com base no primeiro sinal do objeto de áudio transformado, quando a indicação de ativação não é definida no estado de ativação.

[0240] De acordo com uma aplicação, a unidade de controle 191 é configurada para definir a indicação de ativação ao estado de ativação, dependendo de o sinal do objeto de áudio de entrada compreender um transiente indicando uma mudança de sinal do sinal do objeto de áudio de entrada.

[0241] Em outra aplicação, uma indicação de transformação de sub-banda é atribuída a cada um dos canais de sub-banda primários. A unidade de controle 191 é configurada para definir a indicação de transformação de subbanda de cada um dos canais de sub-banda primários em um estado de transformação de sub-banda dependendo da propriedade do sinal do sinal do objeto de áudio de entrada. 0 módulo de análise secundário 193 é configurado para transformar cada um dos canais de sub-banda primários, a indicação de transformação de sub-banda que é definida no estado de transformação de sub-banda, para obter a pluralidade de canais de sub-banda secundários, e para não transformar cada um dos canais de sub-banda secundários, a indicação de transformação de sub-banda que não é definida no estado de transformação de sub-banda.

[0242] De acordo com uma aplicação, o módulo de análise primário 192 é configurado para transformar cada um dos sinais do objeto de áudio de entrada empregando um filtro em espelho de quadratura.

[0243] Em outra aplicação, o módulo de análise primário 192 é configurado para transformar o sinal do objeto de áudio de entrada dependendo de um comprimento da janela de análise primário, em que o comprimento da janela de análise primário depende da referida propriedade do sinal, e/ou o módulo de análise secundário 193 é configurado para gerar, quando a indicação de ativação é definida no estado de ativação, o segundo sinal do objeto de áudio transformado pela transformação de, pelo menos, um da pluralidade de canais de sub-banda primários dependendo de uma comprimento da janela de análise secundário, em que o comprimento da janela de análise secundário depende da referida propriedade do sinal.

[0244] De acordo com outra aplicação, o codificador é configurado para codificar o sinal do objeto de áudio de entrada e pelo menos outro sinal do objeto de áudio de entrada. A unidade de controle 191 é configurada para definir a indicação de ativação ao estado de ativação, dependendo da propriedade de sinal do sinal do objeto de áudio de entrada e dependendo de uma propriedade do sinal de, pelo menos, outro sinal do objeto de áudio de entrada. O módulo de análise primário 192 é configurado para transformar, pelo menos, outro sinal do objeto de áudio de entrada para obter, pelo menos, outro primeiro sinal do objeto de áudio transformado, em que cada um de, pelo menos, um primeiro sinal do objeto de áudio transformado adicional compreende uma pluralidade de canais de sub-banda primários. 0 módulo de análise secundário 193 é configurado para transformar, quando a indicação de ativação é definida no estado de ativação, pelo menos um da pluralidade de canais de sub-banda primários de, pelo menos, um de, pelo menos, primeiros sinais do objeto de áudio transformados adicionais para obter uma pluralidade de canais de sub-banda secundários adicionais. Além disso, a unidade de estimativa de PSI 194 é configurada para determinar a informação adicional paramétrica com base na pluralidade de canais de sub-banda secundários adicionais, quando a indicação de ativação é definida no estado de ativação.

[0245] O aparelho e o método inventivo aliviam as desvantagens previamente mencionadas do processamento de SAOC do estado da técnica utilizando um banco de filtro fixo ou transformação de tempo-frequência. Uma melhor qualidade de áudio subjetiva pode ser obtida adaptando dinamicamente a resolução de tempo/frequência das transformações ou bancos de filtro empregados para analisar e sintetizar os objetos de áudio dentro de SAOC. Ao mesmo tempo, as perturbações como pré- e pós-ecos causadas pela falta de precisão temporal e perturbações como aspereza auditiva e dupla fala causada pela precisão espectral insuficiente podem ser reduzidas dentro do mesmo sistema SAOC. De forma mais importante, o sistema SAOC melhorado equipado com a transformação adaptativa mantém a compatibilidade regressiva com a SAOC padrão ainda fornecendo uma boa qualidade perceptual comparável à SAOC padrão.

[0246] As aplicações fornecem um codificador de áudio ou método para codificar o áudio ou programa de computador relacionado, conforme descrito acima. Além disso, as aplicações fornecem um codificador de áudio ou método de decodificação de áudio ou programa de computador relacionado, conforme descrito acima. Além disso, as aplicações fornecem um sinal de áudio codificado ou meio de armazenamento tendo armazenado o sinal de áudio codificado, conforme descrito acima.

[0247] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que esses aspectos também representam uma descrição do método correspondente, no qual um bloco ou dispositivo corresponde a uma etapa do método ou uma característica de uma etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou um item ou uma característica de um aparelho correspondente.

[0248] O sinal inventivo decomposto pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido por um meio de transmissão, tal como um meio de transmissão sem fio ou um meio de transmissão cabeado, tal como a Internet.

[0249] Dependendo de certas exigências de implementação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um CD, uma memória ROM, uma FROM, uma EPROM, uma EEPROM ou uma memória FLASH, tendo sinais de controle eletronicamente legíveis armazenados nele (ou são capazes de cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado.

[0250] Algumas aplicações, de acordo com a invenção, compreendem um transportador de dados não transitório tendo sinais de controle eletronicamente legíveis, que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos neste documento seja realizado.

[0251] De forma geral, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código do programa, o código do programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado em um computador. 0 código do programa pode, por exemplo, ser armazenado em um transportador legível por máquina.

[0252] Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos neste documento, armazenados em um transportador legível por máquina.

[0253] Em outras palavras, uma aplicação do método inventivo é, assim, um programa de computador tendo um código do programa para realizar um dos métodos descritos neste documento, quando o programa de computador é executado em um computador.

[0254] Outra aplicação dos métodos inventivos é, portanto, um transportador de dados (ou um meio de armazenamento digital, ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos neste documento.

[0255] Outra aplicação do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dos métodos descritos neste documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurada para ser transferida por meio de uma conexão de comunicação de dados, por exemplo, pela Internet.

[0256] Outra aplicação compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado ou adaptado para realizar um dos métodos descritos neste documento.

[0257] Outra aplicação compreende um computador, em que o programa de computador para realizar um dos métodos descritos neste documento está instalado nele.

[0258] Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arranjo de portas de campo programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos neste documento. Em algumas aplicações, um arranjo de portas de campo programáveis pode cooperar com um microprocessador, a fim de realizar um dos métodos descritos neste documento. De forma geral, os métodos são preferivelmente realizados por qualquer aparelho de hardware.

[0259] As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que as modificações e as variações das disposições, e os detalhes descritos no presente documento, serão evidentes a outros especialistas na técnica. É intenção da invenção, portanto, ser limitada apenas pelo escopo das reivindicações da patente anexas e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações no presente documento.

REFERÊNCIAS

[0260] [BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans, on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

[0261] [JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006.

[0262] SAOC1] J. Herre, S. Disch, J. Hilpert, 0. I-Iellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April, 2007.

[0263] [SAOC2] J. Engdegârd, B. Resch, C. Falch, 0. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam, 2008 .

[0264] [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010.

[0265] [AAC] Bosi, Marina; Brandenburg, Karlheinz; Quackenbush, Schuyler; Fielder, Louis; Akagiri, Kenzo; Fuchs, Hendrik; Dietz, Martin, "ISO/IEC MPEG-2 Advanced Audio Coding", J. Audio Eng. Soc, vol 45, no 10, pp. 789-814, 1997.

[0266] [ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.

[0267] [ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010.

[0268] [ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011.

[0269] [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.

[0270] [ISS5] Shuhua Zhang and Laurent Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011.

[0271] [ISSβ] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.

[0272] [ISS7] Andrew Nesbit, Emmanuel Vincent, and Mark D. Plumbley: "Benchmarking flexible adaptive timefrequency transforms for underdetermined audio source separation", IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 37-40, 2009.

[0273] [FB] B. Edler, "Aliasing reduction in subbands of cascaded filterbanks with decimation", Electronic Letters, vol. 28, No. 12, pp. 1104-1106, June 1992.

[0274] [MPEG-1] ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 11172, Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s,1993.

Claims

1. Um decodificador para gerar um sinal de saída de áudio, compreendendo um ou mais canal(is) de saída de áudio a partir de um sinal de downmix, compreendendo uma pluralidade de amostras de downmix de domínio de tempo, caracterizado pelo sinal de downmix codificar dois ou mais sinal(is) do objeto de áudio, em que o decodificador compreende: um gerador de sequência de janela (134) para determinar uma pluralidade de janelas de análise, em que cada uma das janelas de análise compreende uma pluralidade de amostras de downmix de domínio de tempo do sinal de downmix, em que cada janela de análise da pluralidade de janelas de análise tem um comprimento da janela indicando o número de amostras de downmix de domínio de tempo da referida janela de análise, em que o gerador de sequência de janela (134) é configurado para determinar a pluralidade de janelas de análise de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinal(is) do objeto de áudio, um módulo de análise t/f (135) para transformar a pluralidade de amostras de downmix de domínio de tempo de cada janela de análise da pluralidade de janelas de análise de um domínio de tempo em um domínio de tempo-frequência, dependendo do comprimento da janela da referida janela de análise, para obter um downmix transformado, e uma unidade não misturada(136) para não misturar o downmix transformado com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal da saída de áudio.

2. Um decodificador de acordo com a reivindicação 1, caracterizado pelo gerador de sequência de janela (134) ser configurado para determinar a pluralidade de janelas de análise, de modo que um transiente indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio sendo codificados pelo sinal de downmix seja compreendido por uma janela de análise primária da pluralidade de janelas de análise e por uma janela de análise secundária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização t do transiente, de acordo com ck = t - lb, e um centro ck+1 da janela de análise primária é definido pela localização t do transiente, de acordo com ck+1 = t + la, em que la e lb são números.

3. Um decodificador de acordo com a reivindicação 1, caracterizado pelo gerador de sequência de janela (134) ser configurado para determinar a pluralidade de janelas de análise, de modo que um transiente indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio sendo codificado pelo sinal de downmix seja compreendido por uma janela de análise primária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização t do transiente, de acordo com ck = t, em que um centro ck-1 de uma janela de análise secundária da pluralidade de janelas de análise é definido por uma localização t do transiente , de acordo com ck-1 = t - lb, e em que um centro ck+1 de uma janela de análise terciária da pluralidade de janelas de análise é definido por uma localização t do transiente , de acordo com ck+1 = t + la, em que la e lb são números.

4. Um decodificador de acordo com a reivindicação 1, caracterizado pelo gerador de sequência de janela (134) ser configurado para determinar a pluralidade de janelas de análise, de modo que cada uma da pluralidade de janelas de análise tanto compreenda um número primário de amostras de sinal do domínio de tempo quanto um número secundário de amostras de sinal do domínio de tempo, em que o número secundário de amostras de sinal do domínio de tempo é maior que o número primário de amostras de sinal do domínio de tempo, e em que cada uma das janelas de análise da pluralidade de janelas de análise compreende o número primário de amostras de sinal do domínio de tempo quando a referida janela de análise compreende um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio sendo codificado pelo sinal de downmix.

5. Um decodificador para gerar um sinal de saída de áudio, compreendendo um ou mais canal(is) de saída a partir do áudio de um sinal de downmix, compreendendo uma pluralidade de amostras de downmix de domínio de tempo, caracterizado pelo sinal de downmix codificar dois ou mais sinais do objeto de áudio, em que o decodificador compreende: um submódulo de análise primário (161) para transformar a pluralidade de amostras de downmix de domínio de tempo para obter uma pluralidade de sub-bandas, compreendendo uma pluralidade de amostras de sub-banda, um gerador de sequência de janela (162) para determinar uma pluralidade de janelas de análise, em que cada uma das janelas de análise compreende uma pluralidade de amostras de sub-banda de uma dentre a pluralidade de subbandas, em que cada janela de análise da pluralidade de janelas de análise tem um comprimento da janela indicando o número de amostras de sub-banda da referida janela de análise, em que o gerador de sequência de janela (162) é configurado para determinar a pluralidade de janelas de análise, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio, um módulo de análise secundário (163) para transformar a pluralidade de amostras de sub-banda de cada janela de análise da pluralidade de janelas de análise dependendo do comprimento da janela da referida janela de análise para obter um downmix transformado, e uma unidade não misturada (164) para não misturar o downmix transformado com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saída de áudio.

6. Um codificador para codificar dois ou mais sinais do objeto de áudio de entrada, caracterizado por cada um de dois ou mais sinais do objeto de áudio de entrada compreender uma pluralidade de amostras de sinal do domínio de tempo, em que o codificador compreende: uma unidade de sequência de janela (102) para determinar uma pluralidade de janelas de análise, em que cada uma das janelas de análise compreende uma pluralidade de amostras de sinal do domínio de tempo de um dos sinais do objeto de áudio de entrada, em que cada uma das janelas de análise tem um comprimento da janela, indicando o número de amostras de sinal do domínio de tempo da referida janela de análise, em que a unidade de sequência de janela (102) é configurada para determinar a pluralidade de janelas de análise, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada, uma unidade de análise de t/f (103) para transformar as amostras de sinal do domínio de tempo de cada uma das janelas de análise a partir de um domínio de tempo em um domínio de tempo-frequência para obter amostras do sinal transformado, em que a unidade de análise de t/f (103) é configurada para transformar a pluralidade de amostras de sinal do domínio de tempo de cada uma das janelas de análise dependendo do comprimento da janela da referida janela de análise, e uma unidade de estimativa por PSI (104) para determinar a informação adicional paramétrica dependendo das amostras do sinal transformado.

7. Um codificador de acordo com a reivindicação 6, caracterizado pelo codificador compreender, ainda, uma unidade de detecção transiente (101) sendo configurada para determinar uma pluralidade de diferenças do nível do objeto de dois ou mais sinais do objeto de áudio de entrada, e sendo configurada para determinar se uma diferença entre uma primeira das diferenças do nível do objeto e uma segunda das diferenças do nível do objeto é maior que um valor limite, para determinar para cada uma das janelas de análise, se a referida janela de análise compreende um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada.

8. Um codificador de acordo com a reivindicação 7, caracterizado pela unidade de detecção transiente (101) ser configurada para empregar uma função de detecção d(n) para determinar se a diferença entre a primeira das diferenças do nível do objeto e a segunda das diferenças do nível do objeto é maior que o valor limite, em que a função de detecção d(n) é definida como:

em que n indica um índice, em que i indica um primeiro objeto, em que j indica um segundo objeto, e em que b indica uma banda paramétrica.

9. Um codificador de acordo com qualquer uma das reivindicações de 6 a 8, caracterizado pela unidade de sequência de janela (102) ser configurada para determinar a pluralidade de janelas de análise, de modo que um transiente indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada seja compreendido por uma janela de análise primária da pluralidade de janelas de análise e por uma janela de análise secundária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização t do transiente, de acordo com ck = t - lb, e um centro ck+1 da janela de análise primária é definido pela localização t do transiente, de acordo com ck+1 = t + la, em que la e lb são números.

10. Um codificador de acordo com qualquer uma das reivindicações de 6 a 8, caracterizado pela unidade de sequência de janela (102) ser configurada para determinar a pluralidade de janelas de análise, de modo que um transiente indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada seja compreendido por uma janela de análise primária da pluralidade de janelas de análise, em que um centro ck da janela de análise primária é definido por uma localização t do transiente, de acordo com ck = t, em que um centro ck-1 de uma janela de análise secundária da pluralidade de janelas de análise é definido por uma localização t do transiente, de acordo com ck-1 = t - lb, e em que um centro ck+1 de uma janela de análise terciária da pluralidade de janelas de análise é definido por uma localização t do transiente, de acordo com ck+1 = t + la, em que la e lb são números.

11. Um codificador de acordo com qualquer uma das reivindicações de 6 a 8, caracterizado pela unidade de sequência de janela (102) ser configurada para determinar a pluralidade de janelas de análise, de modo que cada uma da pluralidade de janelas de análise tanto compreenda um número primário de amostras de sinal do domínio de tempo quanto um número secundário de amostras de sinal do domínio de tempo, em que o número secundário de amostras de sinal do domínio de tempo é maior que o número primário de amostras de sinal do domínio de tempo, e em que cada uma das janelas de análise da pluralidade de janelas de análise compreende o número primário de amostras de sinal do domínio de tempo quando a referida janela de análise compreende um transiente, indicando uma mudança de sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada.

12. Um codificador para codificar dois ou mais sinais do objeto de áudio de entrada, caracterizado por cada um de dois ou mais sinais do objeto de áudio de entrada compreender uma pluralidade de amostras de sinal do domínio de tempo, em que o codificador compreende: um submódulo de análise primário (171) para transformar a pluralidade de amostras de sinal do domínio de tempo para obter uma pluralidade de sub-bandas, compreendendo uma pluralidade de amostras de sub-banda, uma unidade de sequência de janela (172) para determinar uma pluralidade de janelas de análise, em que cada uma das janelas de análise compreende uma pluralidade de amostras de sub-banda de uma dentre a pluralidade de subbandas, em que cada uma das janelas de análise tem um comprimento da janela indicando o número de amostras de subbanda da referida janela de análise, em que a unidade de sequência de janela (172) é configurada para determinar a pluralidade de janelas de análise, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada, um segundo módulo de análise (173) para transformar a pluralidade de amostras de sub-banda de cada janela de análise da pluralidade de janelas de análise dependendo do comprimento da janela da referida janela de análise para obter amostras do sinal transformado, e uma unidade de estimativa por PSI (174) para determinar a informação adicional paramétrica dependendo das amostras do sinal transformado.

13. Um método de decodificar para gerar um sinal de saída de áudio, compreendendo um ou mais canal(is) de saída de áudio a partir de um sinal de downmix, compreendendo uma pluralidade de amostras de downmix de domínio de tempo, caracterizado pelo sinal de downmix codificar dois ou mais sinais do objeto de áudio, em que o método compreende: determinar uma pluralidade de janelas de análise, em que cada uma das janelas de análise compreende uma pluralidade de amostras de downmix de domínio de tempo do sinal de downmix, em que cada janela de análise da pluralidade de janelas de análise tem um comprimento da janela indicando o número de amostras de downmix de domínio de tempo da referida janela de análise, em que a determinação da pluralidade de janelas de análise é conduzida, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio, transformar a pluralidade de amostras de downmix de domínio de tempo de cada janela de análise da pluralidade de janelas de análise a partir de um domínio de tempo em um domínio de tempo-frequência dependendo do comprimento da janela da referida janela de análise, para obter um downmix transformado, e não misturar o downmix transformado com base na informação adicional paramétrica sobre dois ou mais sinais do objeto de áudio para obter o sinal de saída de áudio.

14. Um método para codificar dois ou mais sinais do objeto de áudio de entrada, caracterizado por cada um de dois ou mais sinais do objeto de áudio de entrada compreender uma pluralidade de amostras de sinal do domínio de tempo, em que o método compreende: determinar uma pluralidade de janelas de análise, em que cada uma das janelas de análise compreende uma pluralidade de amostras de sinal do domínio de tempo de um dos sinais do objeto de áudio de entrada, em que cada uma das janelas de análise tem um comprimento da janela indicando o número de amostras de sinal do domínio de tempo da referida janela de análise, em que a determinação da pluralidade de janelas de análise é conduzida, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada, transformar as amostras de sinal do domínio de tempo de cada uma das janelas de análise a partir de um domínio de tempo em um domínio de tempo-frequência para obter amostras do sinal transformado, em que a transformação da pluralidade de amostras de sinal do domínio de tempo de cada uma das janelas de análise depende do comprimento da janela da referida janela de análise, determinar a informação adicional paramétrica dependendo das amostras do sinal transformado.

15. Um método para decodificar a geração de um sinal de saída de áudio, compreendendo um ou mais canal(is) de saída de áudio a partir de um sinal de downmix, compreendendo uma pluralidade de amostras de downmix de domínio de tempo, caracterizado pelo sinal de downmix codificar dois ou mais sinais do objeto de áudio, em que o método compreende: transformar a pluralidade de amostras de downmix de domínio de tempo para obter uma pluralidade de subbandas, compreendendo uma pluralidade de amostras de subbanda, determinar uma pluralidade de janelas de análise, em que cada uma das janelas de análise compreende uma pluralidade de amostras de sub-banda de uma dentre a pluralidade de sub-bandas, em que cada janela de análise da pluralidade de janelas de análise tem um comprimento da janela indicando o número de amostras de sub-banda da referida janela de análise, em que a determinação da pluralidade de janelas de análise é conduzida, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio, transformar a pluralidade de amostras de subbanda de cada janela de análise da pluralidade de janelas de análise dependendo do comprimento da janela da referida janela de análise para obter um downmix transformado, e não misturar o downmix transformado com base na informação adicional paramétrica sobre os dois ou mais sinais do objeto de áudio para obter o sinal de saída de áudio.

16. Um método para codificar dois ou mais sinais do objeto de áudio de entrada, caracterizado por cada um de dois ou mais sinais do objeto de áudio de entrada compreender uma pluralidade de amostras de sinal do domínio de tempo, em que o método compreende: transformar a pluralidade de amostras de sinal do domínio de tempo para obter uma pluralidade de sub-bandas, compreendendo uma pluralidade de amostras de sub-banda, determinar uma pluralidade de janelas de análise, em que cada uma das janelas de análise compreende uma pluralidade de amostras de sub-banda de uma dentre a pluralidade de sub-bandas, em que cada uma das janelas de análise tem um comprimento da janela indicando o número de amostras de sub-banda da referida janela de análise, em que a determinação da pluralidade de janelas de análise é conduzida, de modo que o comprimento da janela de cada uma das janelas de análise dependa de uma propriedade do sinal de, pelo menos, um de dois ou mais sinais do objeto de áudio de entrada, transformar a pluralidade de amostras de subbanda de cada janela de análise da pluralidade de janelas de análise dependendo do comprimento da janela da referida janela de análise para obter amostras do sinal transformado, e determinar a informação adicional paramétrica dependendo das amostras do sinal transformado.