A presente invenção se refere a processamentos de áudio multicanais e, em particular, à geração e ao uso de informações colaterais paramétricas compactas para descrever as propriedades espaciais de um sinal de áudio multicanais.
Histórico da invenção e da técnica anterior
Ultimamente, a técnica de reprodução de áudio multicanais está se tornando cada vez mais importante. Isto pode se dever ao fato que as técnicas de codificação/compressão de áudio, como a bem conhecida técnica mp3, tornaram possível distribuir registros de áudio pela Internet ou outros canais de transmissão com largura de banda limitada. A técnica de codificação mp3 tornou-se tão famosa devido ao fato de permitir a distribuição de todos os registros em formato estéreo, isto é, uma representação digital do registro de áudio, incluindo um primeiro ou canal estéreo esquerdo e um segundo ou canal estéreo direito.
Não obstante, existem desvantagens básicas dos sistemas de som convencionais de dois canais. Portanto, foi desenvolvida a técnica surround. Uma representação multicanais surround recomendada inclui, além dos dois canais estéreo L e R, um outro canal central C e dois canais surround Ls, Rs. Esse formato de som de referência é também denominado de três/dois estéreo, o que significa três canais frontais e dois canais surround. Em um ambiente de playback, são necessários pelo menos cinco falantes nos respectivos cinco locais adequados para se obter um local ideal a uma determinada distância dos cinco alto
falantes bem localizados.
Recentes abordagens dos sinais de áudio multicanais (parametric stereo (PS), spatial audio coding, binaural cue coding (BCC) representam um sinal de áudio multicanais por meio de um sinal downmix (pode ser monofônico ou compreender vários canais) e colaterais paramêtricas (spatial cues)f caracteri zando seu estágio sonoro espacial percebido.
As diferentes abordagens e técnicas serão revisadas brevemente nos parágrafos a seguir.
Uma técnica relacionada, também conhecida como estéreo paramétrico, está descrita em J. Breebaart,
S. van de
Par,
A. Kohlrausch, E.
Schuijers, High-Quality Parametric
Spatial
Audio Coding at Low Bitrates”,
AES 116th Convention,
Berlin,
Preprint 6072, May 2004, and E.
Schuij ers,
J.
Breebaart,
H.
Purnhagen, J. Engdegard, Low
Complexity
Parametric Stereo
Coding, AES 116th Convention, Berlin, Preprint
6073, May 2004.
São conhecidas várias técnicas para a redução da quantidade de dados necessários para a transmissão de um sinal de áudio multicanais. Para tanto, é feita referência na Fig. 11, que mostra um dispositivo joint stereo 60. Esse dispositivo pode ser um dispositivo para a implementação, por exemplo, de intensity stereo (IS) ou binaural cue coding (BCC) . Em geral, esse dispositivo recebe - como entrada - pelo menos dois canais (CHI, CH2, ... CHn) , e produz um único canal portador e dados paramétricos. Os dados paramétricos são definidos de maneira que possa ser calculada uma aproximação de um canal original em um decodificador (CHI, CH2, ... CHn) .
Normalmente, o canal portador inclui amostras de sub-banda, coeficientes espectrais, amostras de domínio do tempo etc., que proporcionam uma representação comparativamente fina do sinal subjacente, enquanto os dados paramétricos não incluem tais amostras de coeficientes espectrais, mas incluem parâmetros de controle para controlar um determinado algoritmo de reconstrução, tal como pesar por multiplicação, mudança de tempo, mudança de frequência, mudança de fase, etc. Portanto, os dados paramétricos incluem somente uma representação comparativamente grosseira do 10 sinal ou do canal associado. Indicado em números, a quantidade de dados requeridos pelo canal portador pode estar na faixa de 60 70 kbit/s em um esquema de codificação MPEG, enquanto que a quantidade de dados requeridos pelas informações colaterais paramétricas para um canal pode estar na faixa de 10 kbit/s para 15 um sinal de canal 5.1. Um exemplo de dados paramétricos são os bem conhecidos fatores de escala, intensity stereo information ou binaural cue parameters como serão descritos abaixo.
A Técnica BCC está, por exemplo, descrita no documento da convenção AES 5574, Binaural Cue Coding applied to 20 Stereo and Multi-Channel Audio Compression, C. Faller, F.
Baumgarte, May 2002, Munich, no Documento IEEE WASPAA Efficient representation of spatial audio using perceptual parametrization, October 2001, Mohonk, NY, e nos 2 documentos ICASSP Estimation of auditory spatial cues for binaural cue coding e Binaural cue 25 coding: a novel and efficient representation of spatial audio, ambos de autoria de C. Faller e F. Baumgarte, Orlando, FL, May 2002 .
Na codificação BCC, uma quantidade de canais de
entrada de áudio é convertida em representação espectral usando uma transformada baseada na DFT (Transformada Discreta de Fourier) com janelas de superposição. O espectro resultante é dividido em partes não superpostas. Cada parte tem uma largura de banda proporcional à largura de banda retangular equivalente (ERB). São estimadas as diferenças de níveis intercanais (ICLD) e as diferenças de tempos intercanais (ICTD) para cada parte. As diferenças de níveis intercanais ICLD e as diferenças de tempos intercanais ICTD são normalmente dadas para cada canal em relação a um canal de referência e ainda quantizado. Os parâmetros transmitidos são finalmente calculados de acordo com as fórmulas prescritas (codificadas) , que podem depender das partes específicas do sinal a ser processado.
No lado do decodificador, este recebe um sinal mono e a taxa de transferência de bits BCC. O sinal mono é transformado no domínio de freqüência e enviado para um bloco de síntese espacial, que também recebe os valores decodificados ICLD e ICTD. No bloco de síntese espacial, os valores dos parâmetros BCC (ICLD e ICTD) são usados para fazer uma operação de pesagem do sinal mono, de maneira a sintetizar os sinais multicanais, que, após uma conversão freqüência/tempo, representam uma reconstrução do sinal de áudio multicanais original.
No caso do BCC, o módulo joint stereo 60 opera para produzir as informações colaterais de canal, de maneira que os dados de canal paramétrico são quantizados e codificados, resultando em parâmetros ICLD ou ICTD, caracterizado pelo fato de que um dos canais originais é usado como canal de referência, enquanto codifica as informações colaterais de canal.
Normalmente, o canal portador ê formado pela soma dos canais participantes originais.
Portanto, as técnicas acima também proporcionam uma adequada representação mono do equipamento de playback que somente pode processar o canal portador, não podendo processar os dados paramétricos para a geração de uma ou mais aproximações de mais do que um canal de entrada.
A técnica de codificação de áudio conhecida como binaural cue coding (BCC) está também bem descrita nas 10 publicações do pedido de patente norte-americana US 2003, 0219130
Al, 2003/0026441 Al e 2003/0035553 Al. Também são feitas referências ao Binaural Cue Coding. Part II: Schemes and Applications, C. Faller and F. Baumgarte, IEEE Trans. on Audio and Speech Proc., Vol. 11, No. 6, Nov. 2 0 03 e ao Binaural cue 15 coding applied to audio compression with flexible rendering, C.
Faller and F. Baumgarte, AES 113th Convention, Los Angeles, October
2002. As referidas publicações de pedido de patente norteamericana e as duas publicações técnicas citadas da técnica BCC de autoria de Faller e Baumgarte estão ora incorporadas por 20 referência em sua totalidade.
Apesar dos parâmetros ICLD e ICTD representarem os mais importantes parâmetros de localização de fonte sonora, uma representação espacial usando esses parâmetros somente limita a qualidade máxima que pode ser obtida. Para superar essa limitação, 25 e assim capacitar uma codificação paramétrica de alta qualidade,
Estéreo paramétrico (como descrito em J.
Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers (2005)
Parametric coding of stereo audio, Eurasip J. Applied Signal
Proc. 9, 13 05-1322) aplica três tipos de parâmetros espaciais, denominados de Interchannel Intensity Differences [Diferenças de Intensidades Intercanais] (IIDs), Interchannel Phase Differences [Diferenças de Fases Intercanais] (IPDs) e Interchannel Coherence 5 [Coerência Intercanais] (IC). A extensão do conjunto de parâmetros espacial com parâmetros de coerência permite uma parametrização da difusividade espacial percebida ou da compacidade espacial do estágio sonoro.
A seguir, é elaborado um esquema genérico típico
BCC para codificação de áudio multicanais mais detalhadamente com referência às Figuras 12 a 14. A Figura 9 mostra este esquema genérico de binaural cue coding para a codificação/transmissão dos sinais de áudio multicanais. É feito o downmix do sinal de entrada de áudio multicanais em uma entrada 110 de um codificador
BCC 112 em um bloco downmix 114. No presente exemplo, o sinal multicanais original na entrada 110 é um sinal surround de 5 canais, tendo um canal frontal esquerdo, um canal frontal direito, um canal surround esquerdo, um canal surround direito e um canal central. Em uma configuração preferida da presente invenção, o
0 bloco downmix 114 produz um sinal de soma pela simples adição desses cinco canais em um sinal mono. São conhecidos na técnica outros esquemas de downnux, de maneira que usando um sinal de entrada multicanais, possa ser obtido um sinal dowrmux dotado de um canal simples. Esse canal simples é produzido em uma linha de 25 sinal de soma 115. As informações colaterais obtidas por um bloco de análise BCC 116 são produzidas em uma linha de informações colaterais 117. No bloco de análise BCC, as diferenças de níveis intercanais (ICLD) e as diferenças de tempos intercanais (ICTD)
são calculadas como acima mencionado. O bloco de analise BCC 116 é formado para calcular também os valores de correlação intercanais (valores 1CC) . São transmitidos o sinal de soma e as informações colaterais, de preferência sob forma codificada e quantizada para um decodificador BCC 120. O decodificador BCC decompõe o sinal de soma transmitido em várias sub-bandas e aplica a escalação, retardo e demais processamentos para gerar as sub-bandas dos sinais de áudio multicanais de saída. Esse processamento é feito de maneira que os parâmetros ICLD, ICTD e ICC (sinalizações) de um sinal multicanais reconstruído em uma saída 121 sejam similares às respectivas sinalizações do sinal multicanais original na entrada 110 do codificador BCC 112. Para isso, o decodificador BCC 120 inclui um bloco de síntese BCC 122 e um bloco de processamento de informações colaterais 123.
A |
seguir, a |
construção |
interna |
do |
bloco |
de |
síntese BCC 122 é |
explicada com |
referência |
à Fig. |
13 . |
0 sinal |
de |
soma na linha |
115 entra |
em uma unidade |
de |
conversão |
tempo/freqüência ou banco de filtros FB 125. Na saída do bloco 125, existe um número N de sinais de sub-banda, ou, em caso extremo, um bloco de coeficientes espectrais quando o banco de filtro de áudio 125 realiza uma transformada 1:1, isto é, uma transformada que produz N coeficientes espectrais de N amostras de domínio de tempo (amostragem crítica).
O bloco de síntese BCC 122 ainda compreende um estágio de retardo 126, um estágio de modificação de nível 127, um estágio de processamento de correlação 128 e um estágio de banco de filtro inverso IFB 129. Na saída do estágio 129, o sinal de áudio multicanais reconstruído tendo, por exemplo, cinco canais no
A
caso de um sistema surround de 5 canais, pode ser enviado a um conjunto de alto-falantes 124 como ilustrado na Fig. 12.
Como mostrado na Fig. 13, o sinal de entrada s(n) é convertido no domínio de frequência ou domínio de banco de filtro por meio do elemento 125. A saída de sinal pelo elemento 125 é multiplicada, de maneira que várias versões do mesmo sinal sejam obtidas, como ilustrado pelo nodo ramal 13 0. 0 número de versões do sinal original é igual ao número de canais de saída no sinal de saída a ser reconstruído. Em geral, quando cada versão do sinal original no nodo 13 0 é submetida a um determinado retardo di, d2, ..., di, ..., dN. Os parâmetros de retardo são computados pelo bloco de processamento de informações colaterais 123 na Fig. 12 e obtêm as diferenças de tempos intercanais como determinado pelo bloco de análise BCC 116.
O mesmo é verdade para os parâmetros de multiplicação aX/ a2, ..., aiz ..., an, que também são calculados pelo bloco de processamento de informações colaterais 123 com base nas diferenças de níveis intercanais como calculado pelo bloco de análise BCC 116.
Os parâmetros ICC calculados pelo bloco de análise BCC 116 são usados para controlar a funcionalidade do bloco 128, para que sejam obtidas determinadas correlações entre os sinais retardado e de nível manipulado nas saídas do bloco 128. Deve ser aqui notado que o ordenamento dos estágios 126, 127, 128 pode ser diferente do caso mostrado na Fig. 13.
É preciso notar que, em um processamento framewise de um sinal de áudio, a análise BCC é também realizada framewíse, isto é, com variação de tempo e também de freqüência. Isto
significa que, para cada banda espectral, os parâmetros BCC são obtidos individualmente. Significa ainda que, caso o banco de filtro de áudio 125 decompuser o sinal de entrada em, por exemplo 32 sinais de passe de banda, o bloco de análise BCC obtém um conjunto de parâmetros BCC para cada uma das 32 bandas. Naturalmente, o bloco de síntese BCC 122 da Fig. 12, que é mostrado em detalhes na Fig. 13, faz uma reconstrução, que também se baseia nas 32 bandas do exemplo.
A seguir é feita referência à Fig. 14 mostrando um arranjo para determinar certos parâmetros BCC. Normalmente, os parâmetros ICLD, ICTD e ICC podem ser definidos entre pares arbitrários de canais. Um método que será mostrado aqui consiste dos parâmetros ICLD e ICTD entre um canal de referência e cada um dos demais canais. Isto está ilustrado na Fig. 14A.
Os parâmetros ICC podem ser definidos de várias formas. Mais geralmente, é possível estimar os parâmetros ICC no codificador entre todos os pares de canais possíveis como indicado na Fig. 14B. Nesse caso, um decodificador sintetizaria ICC, de maneira que seja aproximadamente o mesmo que no sinal multicanais original entre todos os possíveis pares de canais. Entretanto, foi proposto estimar somente os parâmetros ICC entre os dois canais mais potentes por vez. Esse esquema está ilustrado na Fig. 14C, onde está mostrado um exemplo onde, em um instante de tempo é estimado um parâmetro ICC entre os canais 1 e 2 e, em outro instante de tempo, é calculado um parâmetro ICC entre os canais 1 e 5. 0 decodificador então sintetiza a correlação intercanais entre os canais mais potentes no decodificador e aplica uma regra heurística para computar e sintetizar a coerência intercanais dos
pares restantes de canais.
Com relação ao cálculo, por exemplo, dos parâmetros de multiplicação aiz ...,an com base nos parâmetros transmitidos ICLD, é feita referência ao documento da convenção AES 5574 citado acima. Os parâmetros ICLD representam uma distribuição de energia em um sinal multicanais original. Sem perda de generalidade, está mostrado na Fig. 14A que existem quatro parâmetros ICLD mostrando a diferença de energia entre todos os demais canais e o canal frontal esquerdo. No bloco de processamento de informações colaterais 123, os parâmetros de multiplicação ai, ..., an são obtidos a partir dos parâmetros ICLD, de maneira que a energia total de todos os canais de saída reconstruídos é a mesma que (ou proporcional) a energia do sinal de soma transmitido. Uma forma simples para a determinação desses parâmetros é um processo de 2 estágios, onde, em um primeiro estágio, o fator de multiplicação do canal frontal esquerdo é estabelecido como a unidade, enquanto os fatores de multiplicação dos demais canais na Fig. 14A são determinados a partir dos valores ICLD transmitidos. Então, em um segundo estágio, a energia de todos os cinco canais é calculada e comparada à energia do sinal de soma transmitido. Então, todos os canais são escalados para baixo usando um fator de redução de escala, que é igual para todos os canais, caracterizado pelo fato de que o fator de redução de escala é selecionado de maneira que a energia total de todos os canais de saída reconstruídos seja, depois da redução de escala, igual à energia total do sinal de soma transmitido.
Naturalmente, existem também outros métodos para calcular os fatores de multiplicação, que não se baseiam em um ν·.
processo de 2 estágios, mas que somente precisam de um processo de estágio.
Com relação aos parâmetros de retardo, deve ser notado que os parâmetros de retardo ICTD, que são transmitidos a 5 partir de um codificador BCC, podem ser diretamente usados, quando o parâmetro de retardo dx do canal frontal esquerdo é estabelecido em zero. Aqui não deve ser feita reescalação, já que o retardo não altera a energia do sinal.
Como ressaltado acima em relação à Fig. 14, as informações colaterais paramétricas, isto é, as diferenças de níveis intercanais (ICLD), as diferenças de tempo intercanais (ICTD) ou o parâmetro de coerência intercanais (ICC) podem ser calculados e transmitidos para cada um dos cinco canais. Isto significa que normalmente um transmite quatro conjuntos de 15 diferenças de níveis intercanais para um sinal de cinco canais. O mesmo é verdadeiro para as diferenças de tempo intercanais. Em relação ao parâmetro de coerência intercanais, este pode ser suficiente para somente transmitir, por exemplo, dois conjuntos desses parâmetros.
Como ressaltado acima em relação à Fig. 13, não existe um único parâmetro de diferença de nível, parâmetro de diferença de tempo ou parâmetro de coerência para um frame ou porção de tempo de um sinal. Ao invés disso, esses parâmetros são determinados para várias bandas de frequências diferentes, de 25 maneira que seja obtida uma parametrização dependente da frequência. Como é preferível usar, por exemplo, 32 canais de frequências, isto é, um banco de filtros tendo 32 bandas de frequências para análise BCC e síntese BCC, os parâmetros podem
32.
ocupar muitos dados. Apesar - quando comparado a outras transmissões multicanais - da representação paramétrica resultar em um baixo índice de dados, existe uma necessidade contínua de mais reduções do índice necessário de dados para representar um sinal com mais de dois canais, como um sinal surround multicanais.
A codificação de um sinal de áudio multicanais pode ser implementada com vantagens usando vários módulos existentes, que realizam uma codificação estéreo paramétrica em um monocanal simples. 0 pedido internacional de patente W02004008805
Al mostra como os codificadores estéreo paramétricos podem ser ordenados em um arranjo hierárquico de maneira que, seja subsequentemente feito o downmix de um dado número de canais de entrada de áudio em um monocanal simples. As informações colaterais paramétricas, que descrevem as propriedades espaciais do monocanal downmix, finalmente consistem de todas as informações paramétricas produzidas subsequentemente durante o processo iterativo de downmix. Isto significa que, se existirem, por exemplo, três processos de downmix estéreo-para-mono envolvidos na construção do sinal mono final, o conjunto final de parâmetros que constrói a representação paramétrica do sinal de áudio multicanais consiste dos três conjuntos dos parâmetros obtidos durante cada processo de downmix estéreo-para-mono.
Está mostrado na Fig. 15 um codificador hierárquico de downmix, para explicar o método da técnica anterior mais detalhadamente. A Fig. 15 mostra seis canais de áudio originais 200a a 200f, que são transformados em um canal de áudio monofônico simples 202 mais as informações colaterais paramétricas. Portanto, os seis canais de áudio originais 200a a
200f devem ser transformados a partir do domínio de tempo para o domínio de freqüência, que é feito pelas unidades de transformação 204, transformando os canais de áudio 200a a 200f nos canais correspondentes 206a a 206f no domínio de freqüência. Após a 5 abordagem hierárquica, é feito o downmix dos canais 206a a 206f em pares para três canais monofônicos L, R e C (208a, 208b e 208c, respectivamente). Durante o processo de downmix dos três pares de canais, é obtido um conjunto de parâmetros para cada par de canais, descrevendo as propriedades espaciais do sinal 10 estereofônico original em que foi feito o downmix para um sinal monofônico. Assim, nessa primeira etapa de downmix, são gerados três conjuntos de parâmetros 210a a 210c para preservar as informações espaciais dos sinais 206a a 206f.
Na próxima etapa de downmix hierárquico, é feito 15 o downmix dos canais 208a e 208b para um canal 212 (LR) , gerando um conjunto de parâmetros 210d (conjunto de parâmetros 4) . Para finalmente obter somente um canal monofônico simples, é necessário um downmix dos canais 208c e 212, resultando no canal 214 (M) .
Isso gera um quinto conjunto de parâmetros 210e (conjunto de parâmetros 5). Finalmente, o sinal de áudio monofônico downmix 214 é inversamente transformado no domínio de tempo para obter um sinal de áudio 202 que pode ser reproduzido por um equipamento padrão.
Como descrito acima, uma representação paramétrica do sinal de áudio downmix 202 de acordo com a técnica anterior, consiste de todos os conjuntos de parâmetros 210a a 210e, significando que se for desejado reconstruir o sinal de áudio multicanais original (canais 200a a 200f) a partir do sinal χ >
de áudio monofônico 202, todos os conjuntos de parâmetros 210a a 210e são necessários como informações colaterais do sinal monofônico downmix 202.
pedido de patente norte-americana 11/032,689 5 (doravante denominado combinação de s inali zação da técnica anterior) descreve um processo para a combinação de vários valores de sinalização (cue values) em um único transmitido, de maneira a salvar as informações colaterais em um esquema de codificação não hierárquica. Para isso, primeiro é feito o downmix 10 de todos os canais e os códigos de sinalização são posteriormente combinados para formarem valores de sinalização transmitidos (também poderia ser um valor simples), a combinação sendo dependente de uma função matemática predefinida, onde os parâmetros espaciais, obtidos diretamente dos sinais de entrada, 15 são colocados como variáveis.
As mais recentes técnicas de codificação paramétrica de dois (estéreo) ou mais (multicanais) canais de entrada de áudio deduzem os parâmetros espaciais diretamente dos sinais de entrada. Exemplos desses parâmetros são as diferenças de 20 níveis intercanais (ICLD) ou diferenças de intensidade intercanais (IID), retardo de tempo intercanais (ICTD) ou diferenças de fase intercanais (IPD) e a correlação/coerência intercanais (ICC), cada qual sendo transmitida sob a forma de seleção de frequência, isto é, por banda de freqüência. A aplicação da combinação de 25 sinalização da técnica anterior mostra que vários valores de sinalização podem ser combinados em um único valor que é transmitido a partir do codificador para o lado do decodificador. 0 processo de decodificação usa o valor simples transmitido ao
invés dos valores de sinalização individualmente transmitidos originalmente para reconstruir o sinal de saída multicanais. Em uma configuração preferida, esse esquema foi aplicado aos parâmetros ICC. Foi mostrado que isso conduz a uma redução considerável no tamanho das informações colaterais de sinalização, preservando a qualidade espacial da vasta maioria dos sinais. Entretanto, não está claro como isso pode ser explorado em um esquema de codificação hierárquico.
O pedido de patente da combinação de sinalização da técnica anterior detalhou o princípio da invenção por meio de um exemplo de um sistema baseado em dois canais downmix transmitidos. No método proposto, com referência ã Figura 15, os valores ICC dos pares de canais Lf/Lr e Rf/Rr são combinados em um único parâmetro ICC transmitido. Os dois valores ICC combinados foram obtidos durante o downmix de um canal frontal esquerdo Lf e um canal traseiro esquerdo Lr em um canal L e durante o downmix de um canal frontal direito Rf e um canal traseiro direito Rr no canal R. Portanto, os dois valores ICC combinados que estão sendo finalmente combinados no único parâmetro ICC transmitido, transportam as informações sobre a correlação frontal/traseira dos canais originais e uma combinação desses dois valores ICC irá geralmente preservar a maior parte das informações. Se ainda fosse necessário fazer o downmix dos canais L e R em um monocanal único, seria necessário obter um terceiro valor ICC, portando as informações sobre a correlação esquerdo/direito dos canais downmix
L e R. De acordo com a combinação de sinalização da técnica anterior, dever-se-ia agora combinar os três valores ICC aplicando uma dada função, transformando os três valores ICC em um parâmetro
ICC transmitido.
Existe então o problema que as informações frontal/traseira mixa com as informações esquerda/direita, o que é obviamente desvantajoso para uma reprodução do sinal de áudio multicanais original. No pedido norte-americano 11/032,689, isto é evitado por meio da transmissão de dois canais downmix, os canais L e R, que retêm as informações esquerdo/direito, além de transmitir um único valor ICC, retendo as informações frontal/traseira. Isto preserva as propriedades espaciais dos canais originais ao custo de um índice de dados substancialmente aumentado, que resulta do outro canal downmix completo a ser transmitido.
Sumário da invenção
É o objetivo da presente invenção prover um conceito aperfeiçoado para gerar e usar uma representação paramétrica de um sinal de áudio multicanais com informações colaterais compactas no contexto de um esquema de codificação hierárquica.
De acordo com o primeiro aspecto da presente invenção, este objetivo é alcançado por um codificador para a geração de uma representação paramétrica de um sinal de áudio tendo pelo menos dois canais esquerdos originais em um lado esquerdo e dois canais direitos originais em um lado direito em relação à posição de audição, compreendendo: um gerador para gerar informações paramétricas, o gerador operando para processar separadamente vários pares de canais para obter informações de nível para os pares de canais processados, e para obter informações de coerência para um par de canais incluindo um s
primeiro canal tendo somente informações do lado esquerdo e um segundo canal tendo somente informações do lado direito, e um provedor para prover a representação paramêtrica por meio da seleção das informações de nível de pares de canais e determinar uma medida de coerência esquerdo/direito usando as informações de coerência.
De acordo com um segundo aspecto da presente invenção, esse objetivo é alcançado por um decodificador para o processamento de uma representação paramêtrica de um sinal de áudio original, o sinal de áudio original tendo pelo menos dois canais esquerdos originais em um lado esquerdo e pelo menos dois canais direitos originais em um lado direito em relação à posição de audição, compreendendo: um receptor para prover a representação paramêtrica do sinal de áudio, o receptor operando para prover informações de nível de pares de canais e prover uma medida de coerência esquerdo/direito para um par de canais que inclui um canal esquerdo e um canal direito, a medida de coerência esquerdo/direito representando uma informação de coerência entre pelo menos um par de canais que inclui um primeiro canal dotado somente de informações do lado esquerdo e um segundo canal dotado somente de informações do lado direito; e um processador para fornecer informações paramétricas para pares de canais, o para pelo menos um par de processador operando para
selecionar |
informações |
de |
nível da |
para obter |
informações |
de |
coerência |
canais usando a medida |
de |
coerência |
esquerdo/direito, o referido par de canais incluindo um primeiro canal tendo somente informações do lado esquerdo e um segundo
De acordo com um terceiro aspecto da presente invenção, esse objetivo é alcançado por um método para gerar uma representação paramétrica de um sinal de áudio.
De acordo com um quarto aspecto da presente invenção, esse objetivo é alcançado por um programa de computador que implementa o método acima, quando operado em um computador.
De acordo com um quinto aspecto da presente invenção, esse obj etivo é alcançado por um método para o processamento de uma representação paramétrica do sinal de áudio original.
De acordo com um sexto aspecto da presente invenção, esse objetivo é alcançado por um programa de computador que implementa o método acima, quando operado em um computador.
De acordo com um sétimo aspecto da presente invenção, esse objetivo é alcançado por dados de áudio codificados gerados pela construção de uma representação paramétrica de um sinal de áudio tendo pelo menos dois canais esquerdos originais em um lado esquerdo e dois canais direitos originais em um lado direito em relação à posição de audição, caracterizado pelo fato de que a representação paramétrica compreende diferenças de níveis para pares de canais e medida de coerência esquerdo/direito obtidas a partir das informações de coerência de um par de canais, incluindo um primeiro canal tendo somente informações do lado esquerdo e um segundo canal tendo somente informações do lado direito.
A presente invenção se baseia na constatação que uma representação paramétrica de um sinal de áudio multicanais descreve as propriedades espaciais do sinal de áudio usando as
informações colaterais compactas, quando as informações de coerência, que descrevem a coerência entre um primeiro e um segundo canais, obtidos dentro de um processo de codificação hierárquica somente para pares de canais que incluem um primeiro canal que somente tem as informações de um canal esquerdo em relação a uma posição de audição e incluindo um segundo canal que somente tem as informações de um lado direito em relação a uma posição de audição. Como no processo hierárquico, é feito o downmix dos canais múltiplos de áudio do sinal de áudio original iterativamente de preferência em um canal monofônico, e se tem a oportunidade de escolher os parâmetros relevantes de informações colaterais durante o processo de codificação de uma etapa que envolve somente pares de canais que possuem as informações desejadas necessárias para descrever as propriedades espaciais do sinal de áudio original da melhor forma possível. Isto permite construir uma representação paramétrica do sinal de áudio original, baseado naqueles parâmetros escolhidos ou em uma combinação daqueles parâmetros, permitindo uma significativa redução das dimensões das informações colaterais, que retêm as informações espaciais do sinal downmix.
conceito proposto permite que a combinação dos valores de sinalização reduza o índice de informações colaterais de um sinal de áudio downmix, mesmo no caso em que somente seja possível um único canal (monofônico) de transmissão. 0 conceito da invenção até permite diferentes topologias hierárquicas do codificador. É esclarecido especificamente, como pode ser obtido um úni co valor I CC adequado, que pode ser ap 1 i cado em um decodificador de áudio espacial usando a abordagem hierárquica
codificação/decodificação para reproduzir com precisão a imagem sonora original.
Uma configuração da presente invenção implementa uma estrutura de codificação hierárquica que combina os canais de áudio frontal esquerdo e traseiro esquerdo de um sinal de áudio de canal 5.1 em um canal mestre esquerdo e que simultaneamente combina os canais frontal direito e traseiro direito em um canal mestre direito. Com a combinação dos canais esquerdos e dos canais direitos separadamente, as informações importantes de coerência esquerdo/direito são principalmente preservadas e, de acordo com a invenção, são obtidas em uma segunda etapa de codificação, onde é feito o downmix dos canais mestre esquerdo e o mestre direito para um canal mestre estéreo. Durante esse processo de downmix, é obtido o parâmetro ICC de todo o sistema, já que esse parâmetro ICC será o parâmetro ICC que parece ter a maior precisão de coerência esquerdo/direito. Dentro dessa configuração da presente invenção, é obtido um parâmetro ICC, que descreve a mais importante coerência esquerdo/direito dos seis canais de áudio simplesmente distribuindo as etapas de codificação hierárquica de maneira adequada e não aplicando alguma função artificial a um conjunto de parâmetros ICC, descrevendo pares arbitrários de canais, como é o caso das técnicas anteriores.
Em uma modificação da configuração descrita da presente invenção, é feito o downmix do canal central e do canal de baixa frequência do sinal de áudio 5.1 para um canal mestre central, este canal retendo principalmente as informações sobre o canal central, já que o canal de baixa frequência contém somente sinais com tal baixa frequência que a origem dos sinais »,
dificilmente pode ser detectada por humanos. Pode ser vantajoso, além disso, orientar o valor ICC obtido como acima descrito, por parâmetros que descrevem o canal mestre central. Isto pode ser feito, por exemplo, pesando o valor ICC com as informações de energia, as informações de energia indicando quanta energia é transmitida por meio do canal mestre central em relação ao canal mestre estéreo.
Em outra configuração da presente invenção, o processo de codificação hierárquica é feito de maneira que em uma primeira etapa, é feito o downmix dos canais esquerdo frontal e direito frontal de um sinal de áudio 5.1 para um canal mestre frontal, considerando que é feito o downmix dos canais esquerdo traseiro e direito traseiro para um canal mestre traseiro. Portanto, em cada um dos processos de downmix é gerado um valor ICC, contendo informações sobre a importante coerência esquerdo/direito. O parâmetro ICC combinado e transmitido é então obtido a partir de uma combinação de dois valores ICC separados, sendo uma forma vantajosa de obter o parâmetro ICC transmitido a construção da soma pesada dos valores ICC usando os parâmetros de nível dos canais como pesos.
Em uma modificação da invenção, é feito o downmix do canal central e do canal de baixa freqüência para um canal mestre central e depois é feito o downmix do canal mestre central e do canal mestre frontal para um canal mestre estéreo. No último processo de downmix, é recebida uma correlação entre os canais central e o estéreo, que é usada para orientar ou modificar um parâmetro ICC transmitido, levando assim também em consideração a contribuição central para o sinal de áudio frontal. Uma grande %,
vantagem do sistema anteriormente descrito e ser possível construir as informações de coerência de maneira que os canais que mais contribuem para o sinal de áudio definam o valor ICC transmitido. Estes serão normalmente os canais frontais, mas como exemplo em uma representação multicanais de um concerto musical, o sinal do aplauso da audiência podería ser enfatizado usando principalmente o valor ICC dos canais traseiros. É ainda uma vantagem que a pesagem entre os canais frontais e traseiros possa ser dinamicamente variada, dependendo das propriedades espaciais do sinal de áudio multicanais.
Em uma configuração da presente invenção um decodificador hierárquico da invenção opera para receber menos parâmetros ICC do que o exigido pelo número de etapas de decodificação. O decodificador opera para obter os parâmetros ICC exigidos por cada etapa decodificadora a partir dos parâmetros ICC recebidos.
Isto pode ser feito obtendo os demais parâmetros ICC usando uma regra de obtenção baseada nos parâmetros ICC recebidos e nos valores ICLD recebidos ou usando, ao invés disso, valores predefinidos.
Entretanto, em uma configuração preferida, o decodificador opera para usar um único parâmetro ICC transmitido para cada etapa individual de decodificação. Isto é vantajoso, já que a correlação mais importante, a correlação esquerdo/direito é preservada em um parâmetro ICC transmitido dentro do conceito da invenção. Como se trata do caso, o ouvinte terá uma reprodução do sinal que se parece muito com o sinal original. Deve ser lembrado que o parâmetro ICC está definindo a amplidão perceptiva de um sinal reconstruído. Se o decodificador modificasse um parâmetro ICC transmitido após a transmissão, os parâmetros ICC que descrevem a amplidão perceptiva do sinal reconstruído poderíam se tornar muito diferentes para a correlação esquerdo/direito e para a correlação frontal/traseira dentro da reprodução hierárquica. Isto seria muito desvantajoso já que, quando o ouvinte movimenta ou gira sua cabeça, ouvirá um sinal que se torna perceptivelmente mais amplo ou mais estreito, o que é evidentemente perturbador. Isto pode ser evitado distribuindo um único parâmetro ICC recebido para as unidades decodificadoras de um decodificador hierárquico.
Em outra configuração preferida, um decodificador da invenção opera para receber um conjunto total de valores ICC ou, alternativamente, um único valor ICC, caracterizado pelo fato de que o decodificador reconhece a estratégia de decodificação de maneira a aplicar recebendo uma indicação de estratégia dentro da taxa de transferência de bits. Esse decodificador compatível para trás também opera nos ambientes da técnica anterior, decodificando seus sinais da técnica anterior e transmitindo um conjunto total de dados ICC.
Breve descrição dos desenhos
As configurações preferidas da presente invenção serão agora descritas com referência aos desenhos anexos, onde:
A Fig. 1 mostra um diagrama de blocos de uma configuração do codificador hierárquico da invenção;
A Fig. 2 mostra uma configuração de um codificador de áudio da invenção;
A Fig. 2a mostra um possível esquema de orientação dos parâmetros IIC de um codificador de áudio da
invenção; |
|
|
|
|
A Fig. 3a, b mostra |
representações gráficas |
das |
informações |
colaterais de canal; |
|
|
|
A Fig. 4 mostra uma |
segunda configuração de |
um |
codificador |
de áudio da invenção; |
|
|
|
A Fig. 5 mostra um |
diagrama de blocos de |
uma |
configuração preferida de um decodificador de áudio da invenção;
A Fig. 6 mostra uma configuração deum decodificador de áudio da invenção;
A Fig. 7 mostra outra configuração deum decodificador de áudio da invenção;
A Fig. 8 mostra um transmissor ou gravadorde áudio da invenção;
A Fig. 9 mostra um receptor ou reprodutorde áudio da invenção;
A Fig. 10 mostra um sistema de transmissãoda invenção;
A Fig. 11 mostra um codificador joint stereo da técnica anterior;
A Fig. 12 mostra uma representação de diagrama de blocos de uma cadeia codificador/decodificador BCC da técnica anterior;
A Fig. 13 mostra um diagrama de blocos de uma implementação da técnica anterior de um bloco de síntese BCC;
A Fig. 14 mostra uma representação de um esquema para a determinação dos parâmetros BCC; e
A Fig. 15 mostra um codificador hierárquico da técnica anterior.
Descrição Detalhada das Configurações Preferidas
A Fig. 1 mostra um diagrama de blocos de um codificador da invenção, para gerar uma representação paramétrica de um sinal de áudio. A Fig. 1 mostra um gerador 220 para 5 posteriormente combinar canais de áudio e gerar parâmetros espaciais que descrevem as propriedades espaciais de pares de canais que são combinados em um único canal. A Fig. 1 ainda mostra um provedor 222 para prover a representação paramétrica de um sinal de áudio multicanais pela seleção das informações de 10 diferenças de níveis entre pares de canais e pela determinação da medida de coerência esquerdo/direito usando as informações de coerência geradas pelo gerador 220.
Para demonstrar o princípio conceituai da invenção de uma codificação de áudio multicanais hierárquico, a 15 Fig. 1 mostra um caso, onde quatro canais originais de áudio 224a a 224d são combinados de maneira iterativa, resultando em um canal único 226. Os canais originais de áudio 224a e 224b representam os canais esquerdo-frontal e esquerdo-traseiro de um sinal de áudio original de quatro canais, os canais 224c e 224d representam os 20 canais direito-frontal e direito-traseiro, respectivamente. Sem perda de generalidade, somente dois dos vários parâmetros espaciais estão mostrados na Fig. 1 (ICLD e ICC). De acordo com a invenção, o gerador 220 combina os canais de áudio 224a a 224d de maneira que, durante o processo de combinação possa ser obtido um 25 parâmetro ICC que transporte as informações importantes de coerência esquerdo/direito.
Em uma primeira etapa, os canais que somente contêm as informações colaterais esquerdas 224a e 224b são combinados em um canal mestre esquerdo 228a (L) e dois canais contendo somente as informações colaterais direitas 224c e 224d são combinados em um canal mestre direito 228b (R). Durante essa combinação, o gerador gera dois parâmetros ICLD 230a e 230b, ambos 5 sendo parâmetros espaciais contendo informações sobre a diferença de níveis dos dois canais originais sendo combinados em um único canal. O gerador também gera dois parâmetros ICC 232a e 232b, descrevendo a correlação entre os dois canais sendo combinada em um único canal. Os parâmetros ICLD e ICC 23 0a, 230b, 232a e 232b 10 são transferidos para o provedor 222.
Na próxima etapa do processo de geração hierárquica, o canal mestre esquerdo 228a é combinado com o canal mestre direito 228b no canal de áudio resultante 226, caracterizado pelo fato de que o gerador provê um parâmetro ICLD 15 234 e um parâmetro ICC 236, ambos sendo transmitidos ao provedor
222. É importante notar que o parâmetro ICC 236 gerado nessa etapa de combinação representa principalmente as informações importantes de coerência esquerdo/direito do sinal original de áudio de quatro canais representado pelos canais de áudio 224a a 224d.
Portanto, o provedor 222 cria uma representação paramétrica 238 a partir dos parâmetros espaciais disponíveis 230a,b, 232a,b, 234 e 236 de mane i ra que a representação paramétrica compreenda os parâmetros 230a, 230b, 234 e 236.
A Fig. 2 mostra uma configuração preferida de um 25 codificador de áudio da invenção que codifica um sinal de áudio multicanais 5.1 em um sinal monofônico único.
A Fig. 2 mostra três unidades de transformação 240a a 240c, cinco downmixers 2-para-l 242a a 242e, uma unidade de
combinação paramétrica 244 e uma unidade de transformação inversa 246. 0 sinal original de áudio de canal 5.1 é dado pelo canal esquerdo-frontal 248a, pelo canal esquerdo-traseiro 248b, o canal direito-frontal 248c, o canal direito traseiro 248d, o canal central 248e e pelo canal de baixa freqüência 248f. É importante notar que os canais originais são agrupados de maneira que os canais que contêm somente as informações colaterais esquerdas 248a e 248b formam um par de canais, os canais contendo somente as informações colaterais direitas 248c e 248d formam outro par de 10 canais e que os canais centrais 248e e 248f formam um terceiro par de canais.
As unidades de transformação 240a a 240c convertem os canais 248a a 248f do domínio de tempo para suas representações espectrais 250a a 250f no domínio da sub-banda de 15 freqüência. Na primeira etapa de codificação hierárquica 252, os canais esquerdos 250a e 250b são codificados em um canal mestre esquerdo 254a, os canais direitos 250c e 250d são codificados em um canal mestre direito 254b e o canal central 250e e o canal de baixa freqüência 250f são codificados em um canal mestre central 20 256. Durante essa primeira etapa de codificação hierárquica 252, os três codificadores 2-para-1 envolvidos 242a a 242c geram os canais que passaram por downmix 254a, 254b e 256, e além disso, os importantes conjuntos de parâmetros espaciais 260a, 260b e 260c, caracterizados pelo fato de que o conjunto de parâmetros 260a 25 (conjunto de parâmetros 1) descreve as informações espaciais entre os canais 250a e 250b, o conjunto de parâmetros 260b (conjunto de parâmetros 2) descreve as informações espaciais entre os canais 250c e 250d e o conjunto de parâmetros 260c (conjunto de '1 .
parâmetros 3) descreve as informações espaciais entre os canais 250e e 250f.
Em uma segunda etapa hierárquica 262, é feito o downmix do canal mestre esquerdo 254a e do canal mestre direito 254b para um canal mestre estéreo 264, gerando um conjunto de parâmetros espaciais 266 (conjunto de parâmetros 4), caracterizado pelo fato de que o parâmetro ICC, desse conjunto de parâmetros 266 contém informações importantes de correlação esquerdo/direito. Para construir um valor ICC combinado a partir do conjunto de parâmetros 266, o conjunto de parâmetros 266 pode ser transferido para a unidade de combinação paramétrica 244 por meio de uma conexão de dados 268. Em uma terceira etapa de codificação hierárquica 272, o canal mestre estéreo 264 é combinado com o canal mestre central 256 para formarem um canal resultante monofônico 274. 0 conjunto de parâmetros 276, que é obtido durante esse processo de downmix, pode ser transferido por meio de uma conexão de dados 278 para a unidade de combinação paramétrica 244. Finalmente, o canal resultante 274 é transformado no mesmo domínio de tempo pela unidade de transformação inversa 246, para construir o sinal de áudio downmix monofônico 280, que é a representação monofônica final do sinal original do canal 5.1 representado pelos canais de áudio 248a a 248f. '
Para reconstruir o sinal original de áudio do canal 5.1 a partir do canal de áudio monofônico downmix 280, também é necessária a representação paramétrica do sinal de áudio do canal 5.1. Na estrutura árvore mostrada na Fig. 2, pode ser visto que os canais esquerdos frontal e traseiro são combinados em um sinal L 254a. De maneira similar, os canais direitos frontal e traseiro são combinados em um sinal R 254b. Depois, é feita a combinação dos sinais L e R, que produz o conjunto de parâmetros número 4 (266) . No caso dessa estrutura hierárquica, uma forma simples de obtenção de um valor ICC combinado é tomar o valor ICC 5 do conjunto de parâmetros número 4 e considerá-lo como valor ICC combinado, que é então incorporado em uma representação paramétrica do sinal de canal 5.1 pela unidade de combinação paramétrica 244.
Métodos mais sofisticados também podem levar em conta a influência do canal central (por exemplo, usando parâmetros do conjunto de parâmetros número 5) , como mostrado na Fig. 2a.
Como exemplo, a razão de energia E(LR)/ E(C) da energia contida no canal LR (264) e no canal C (256) do conjunto 15 de parâmetros número 5 pode ser usada para orientar o ICC do valor. No caso em que a maior parte da energia é proveniente do caminho LR, o valor ICC transmitido deve ficar próximo ao valor ICC(LR) do conjunto de parâmetros número 4. No caso em que a maior parte da energia é proveniente do caminho C 256, o valor ICC 20 transmitido deve ficar subseqüentemente próximo de 1, como indicado na Fig. 2a. A Figura mostra duas possíveis formas de implementação dessa orientação do parâmetro ICC, seja pela comutação entre dois valores extremos quando a razão de energia cruza um determinado limite 286 (função de orientação 288a) ou por 25 uma suave transição entre os valores extremos (função de orientação 288b).
As Figuras 3a e 3b mostram uma comparação de uma possível representação paramétrica de um canal de áudio 5.1
proveniente de uma estrutura de codificação hierárquica usando a técnica anterior (Fig. 3a) e usando o conceito da invenção para a codificação de áudio (Fig. 3b) .
A Fig. 3a mostra uma representação paramétrica de um único time frame e um intervalo discreto de freqüência, como seria provido pela técnica anterior. Cada um dos codificadores 2para-1 242a a 242e da Fig. 2 produz um par de parâmetros ICLD e ICC, a origem dos pares de parâmetros estando indicada na Fig. 3a. Após a abordagem da técnica anterior, todos os conjuntos de parâmetros, como providos pelos codificadores 2-para-l 242a a 242e devem ser transmitidos em conjunto com o sinal de áudio monofônico downmix 280 como informações colaterais para reconstruir um sinal de áudio de canal 5.1.
A Fig. 3b mostra os parâmetros derivados pelo conceito da invenção. Cada um dos codificadores 2-para-l 242a a 242e contribui diretamente somente com um parâmetro, o parâmetro ICLD. 0 único parâmetro ICC transmitido, ICCc, se deriva da unidade de combinação de parâmetros 244, não sendo provido diretamente pelos codificadores 2-para-l 242a a 242e. Como visto claramente nas Figuras 3a e 3b, o conceito da invenção de um codificador hierárquico pode reduzir a quantidade de dados de informações colaterais de forma significativa quando comparado a outras técnicas anteriores.
A Fig. 4 mostra outra configuração preferida da presente invenção, que permite codificar um sinal de áudio de canal 5.1 em um sinal de áudio monofônico por um processo de codificação hierárquica e fornecer informações colaterais compactas. Como o princípio da estrutura de hardware é igual ao
descrito na Fig. 2, os mesmos itens das duas figuras são rotulados com os mesmos números. A diferença se deve ao diferente agrupamento dos canais de entrada 248a a 248f e, portanto a ordem pela qual é feito o downmix dos canais simples para o canal monofônico 274 difere da ordem de downmix na Fig. 2. Portanto, somente os aspectos que diferem da descrição da Fig. 2, que são vitais para a compreensão da configuração da presente invenção mostrada na Fig. 4, são descritos a seguir.
canal esquerdo-frontal 248a e o canal direitofrontal 248c são agrupados para formarem um par de canais, o canal central 248e e o canal de baixa freqüência 248f formam outro par de canais de entrada e o terceiro par de canais de entrada do sinal de áudio 5.1 é formado pelo canal esquerdo traseiro 248b e pelo canal direito traseiro 248d.
Em uma primeira etapa de codificação hierárquica 252, é feito o downmix do canal esquerdo-frontal 250a e do canal direito-frontal 250c para um canal mestre frontal 290 (F), é feito o downmix do canal central 25Oe e do canal de baixa freqüência 250f para um canal mestre central 292 (C) e feito o downmix do canal esquerdo-traseiro 250b e do canal direito-traseiro 250d para um canal mestre traseiro 294 (S) . Um conjunto de parâmetros 300a (conjunto de parâmetros 1) descreve o canal mestre frontal 290, um conjunto de parâmetros 300b (conjunto de parâmetros 2) descreve o canal mestre central 292 e um conjunto de parâmetros 300c (conjunto de parâmetros 3) descreve o canal mestre traseiro 294.
É importante notar que o conjunto de parâmetros 300a, assim como o conjunto de parâmetros 300c retêm as informações que descrevem a importante correlação esquerdo/direito entre os canais originais 248a a 248f. Portanto, o conjunto de parâmetros 300a e o conjunto de parâmetros 300c ficam disponíveis para a unidade de combinação paramétrica 244 por meio de links de dados 302a e 302b.
Em uma segunda etapa de codificação 262, é feito o downmix do canal mestre frontal 290 e do canal mestre central 292 para um canal frontal puro 304, gerando um conjunto de parâmetros 300d (conjunto de parâmetros 4) . Esse conjunto de parâmetros 3 0 Od é também disponibi1i zado para a unidade de combinação paramétrica 244 por meio de um link de dados 306.
Em uma terceira etapa de codificação hierárquica
272, é |
feito o |
downmix |
do |
canal |
frontal puro |
304 |
com |
o |
canal |
mestre |
traseiro |
294 para |
o |
canal |
resultante 274 |
(M) |
, que |
é |
então |
transformado no |
domínio |
de |
tempo |
pela unidade |
de |
t rans f ormação |
inversa 246 para formar o canal de áudio monofônico final 280. 0 conjunto de parâmetros 300e (conjunto de parâmetros 5) , que se origina do downmix do canal frontal puro 3 04 e o canal mestre traseiro 294 é também disponibilizado para a unidade de combinação paramétrica 244 por meio de um link de dados 310.
A estrutura árvore da Fig. 4 primeiro faz uma combinação dos canais esquerdo e direito em separado para frente e a traseira. Assim, existe a correlação/coerência esquerdo/direito básica nos conjuntos de parâmetros 1 e 3 (300a, 300c) . Um valor
ICC combinado poderia ser construído pela unidade de combinação paramétrica 244, construindo a média ponderada entre os valores ICC dos conjuntos de parâmetros 1 e 3. Isto significa que será dado mais peso aos pares de canais mais potentes (Lf/Rf versus Lr/Rr). É possível fazer o mesmo obtendo um parâmetro ICC combinado, ICCc, construindo a soma ponderada:
ICCc = (A*ICCi + B*ICC2) / (A+B) onde A denota a energia dentro do par de canais que corresponde ao ICCX e B denota a energia dentro do par de canais que corresponde ao ICC2.
Em uma configuração alternativa, métodos mais sofisticados também podem levar em conta a influência do canal central (por exemplo, levando em conta os parâmetros do conjunto de parâmetros número 4).
A Fig. 5 mostra um decodificador da invenção, para processar as informações colaterais compactas recebidas, sendo uma representação paramétrica de um sinal original de áudio de quatro canais. A Fig. 5 compreende um receptor 310 para prover uma representação paramétrica compacta do sinal de áudio de quatro canais e um processador 312 para processar a representação paramétrica compacta, de maneira que sej a fornecida uma representação paramétrica completa do sinal de áudio de quatro canais, o que permite a reconstrução do sinal de áudio de quatro canais a partir do sinal de áudio monofônico recebido.
receptor 310 recebe os parâmetros espaciais ICLD (B) 314, ICLD (F) 316, ICLD (R) 318 e ICC 320. A representação paramétrica fornecida, que consiste dos parâmetros 314 a 320, descreve as propriedades espaciais dos canais originais de áudio 324a a 324d.
Como uma primeira etapa de up-inixing, o processador 312 fornece os parâmetros espaciais que descrevem um primeiro par de canais 326a, sendo uma combinação de dois canais
324a e 324b (Rf e Lf) e um segundo par de canais 326b, sendo uma combinação de dois canais 324c e 324d (Rr e Lr) . Para tanto, é necessária a diferença de nível 314 dos pares de canais. Como ambos os pares de canais 32 6a e 32 6b contêm um canal esquerdo assim como um canal direito, a diferença entre os pares de canais descreve principalmente uma correlação frontal/traseira. Portanto, o parâmetro ICC recebido 320, que transporta principalmente as informações sobre a coerência esquerdo/direito, é enviado ao processador 312 de maneira que as informações de coerência esquerdo/direito são preferivelmente usadas para fornecer os parâmetros ICC individuais para os pares de canais 326a e 326b.
Na etapa a seguir, o processador 312 fornece os parâmetros espaciais adequados para poder reconstruir os canais de áudio simples 324a e 324b a partir do canal 326a, e os canais 324c e 324d a partir do canal 326b. Para isso, o processador 312 fornece as diferenças de nível 316 e 318, e o processador 312 deve fornecer os valores ICC adequados para os dois pares de canais, já que cada um dos pares de canais 326a e 326b contêm informações importantes de coerência esquerdo/direito.
Em um exemplo, o processador 312 poderia simplesmente fornecer o valor ICC recebido combinado 320 para upmix os pares de canais 326a e 326b. De maneira alternativa, o valor ICC recebido combinado 320 poderia ser pesado para obter valores ICC individuais para os dois pares de canais sendo, por exemplo, os pesos baseados na diferença de nível 314 dos dois pares de canais.
Em uma configuração preferida da presente invenção, o processador provê o parâmetro ICC recebido 320 para t
cada etapa simples de upmixing, para evitar a introdução de outros problemas durante a reprodução dos canais 324a a 324d.
A Fig. 6 mostra uma configuração preferida de um decodificador que incorpora um procedimento de decodificação hierárquica de acordo com a presente invenção, para decodificar um sinal de áudio monofônico em um sinal de áudio multicanais 5.1, fazendo uso de uma representação paramétrica compacta de um sinal de áudio 5.1 original.
A Fig. 6 mostra uma unidade de transformação 350, uma unidade de processamento paramétrico 3 52, cinco decodif icadores l-para-2 354a a 354e e três unidades de transformação inversa 356a a 356c.
Deve ser notado que a configuração do decodificador da invenção de acordo com a Fig. 6 é a contraparte do codificador descrito na Fig. 2 e projetado para receber um canal de áudio downmix monofônico 358, que passará finalmente por um up-mix para um sinal de áudio 5.1, consistindo de canais de áudio 360a (lf), 360b (lr), 360c (rf), 360d (rr), 360e (co) e 360f (lfe) . 0 canal downmix 358 (m) é recebido e transformado do domínio de tempo para o domínio de frequência em sua representação de freqüência 362 usando a unidade de transformação 350. A unidade de processamento paramétrico 352 recebe um conjunto combinado e compacto de parâmetros espaciais 364 em paralelo com o canal downmix 358.
Em uma primeira etapa 363 do processo de decodificação hierárquica, o canal monofônico downmix 362 passa por up-mix em um canal mestre estéreo 364 (LR) e um canal mestre central 366 (C).
Em uma segunda etapa
68 do processo de
decodificação hierárquica, o canal mestre estéreo 364 passa por up-mix em um canal mestre esquerdo 3 70 (L) e um canal mestre direito 372 (R).
Em uma terceira etapa do processo de decodificação, o canal mestre esquerdo 370 passa por up-mix para um canal frontal esquerdo 374a e um canal esquerdo-traseiro 374b, o canal mestre direito 372 passa por up-mix para um canal frontal direito 374c e um canal direito-traseiro 374d, e o canal mestre central 366 passa por up-mix para um canal central 374e e um canal de baixa freqüência 374f.
Finalmente, os seis canais de áudio simples 374a a 374f são transformados pelas unidades de transformação inversa 356a a 356c em suas representações no domínio do tempo, e assim criar o sinal de áudio 5.1 reconstruído, tendo seis canais de áudio 360a a 360f. Para manter a propriedade espacial original do sinal de áudio 5.1, a unidade de processamento paramétrico 352, especialmente a forma com que a unidade de processamento paramétrico provê os conjuntos de parâmetros individuais 380a a 380e, é vital, especialmente a forma com que a unidade de processamento paramétrico 352 induz os conjuntos de parâmetros individuais 380a a 380e.
O parâmetro ICC combinado recebido descreve a importante coerência esquerdo/direito do sinal de áudio de seis canais originais. Portanto, a unidade de processamento paramétrico 352 constrói o valor ICC do conjunto de parâmetros 4 (3 8 0d) de maneira com que pareça com as informações de correlação esquerdo/direito do valor espacial originalmente recebido, sendo
transmitido dentro do conjunto de parâmetros 364. Na implementação mais simples possível, a unidade de processamento paramétrico 352 simplesmente usa o parâmetro ICC combinado recebido.
Outra configuração preferida de um decodificador de acordo com a presente invenção está mostrada na Fig. 7, o decodificador da Fig. 7 sendo a contraparte do codificador da Fig.
4.
Como o codificador da Fig. 7 compreende os mesmos blocos funcionais que o decodificador da Fig. 6, a discussão a seguir se limita às etapas em que o processo de decodificação hierárquica difere daquele da Fig. 6. Isto se deve principalmente ao fato que é feito upmix do sinal monofônico 362 em ordem diferente e em diferente combinação de canais, já que o sinal de áudio 5.1 original passou por downmix de maneira diferente do recebido na Fig. 6.
Na primeira etapa 363 do processo de decodificação hierárquica, é feito o upmix do sinal monofônico 362 para um canal mestre traseiro 400 (S) e um canal frontal puro 402 (CF) .
Em uma segunda etapa 368, é feito o upmix do canal frontal puro 402 para um canal mestre frontal 404 e um canal mestre central 406.
Em uma terceira etapa de decodificação 372, é feito o upmix do canal mestre frontal para um canal frontal 25 esquerdo 374a e um canal frontal direito 374c, é feito o upmix do canal mestre central 406 para um canal central 374e e um canal de baixa freqüência 374f e feito o upmix do canal mestre traseiro 400 para um canal esquerdo-traseiro 374b e um canal direito-traseiro χ ,
374d. Finalmente, os seis canais de áudio 374a a 374f são transformados do domínio de frequência em suas representações no domínio de tempo 360a a 360f, criando o sinal de áudio 5.1 reconstruído.
Para preservar as propriedades espaciais do sinal
5.1 original, tendo sido codificada como informações colaterais pelo codificador, a unidade de processamento paramétrico 352 fornece os conjuntos de parâmetros 410a a 410e para os decodificadores l-para-2 354a a 354e. Como são necessárias as 10 informações importantes de correlação esquerdo/direito no terceiro processo de up-mixing 312 para criar os canais Lf, Rf, Lr e Rr, a unidade de processamento paramétrico 352 pode fornecer um valor ICC adequado nos conjuntos de parâmetros 410a e 410c, na implementação mais simples somente tomando o parâmetro ICC 15 transmitido para criar os conjuntos de parâmetros 410a e 410c. Em uma possível alternativa, o parâmetro ICC recebido poderia ser transformado em parâmetros individuais para os conjuntos de parâmetros 410a e 410c, aplicando uma função adequada de pesagem ao parâmetro ICC recebido, seus pesos sendo, por exemplo, 20 dependentes da energia transmitida no canal mestre frontal 404 e no canal mestre traseiro 400. Em uma implementação ainda mais sofisticada, a unidade de processamento paramétrico 352 também poderia levar em consideração as informações do canal central para fornecer um valor ICC individual para o conjunto de parâmetros 5 e 25 o conjunto de parâmetros 4 (410a, 410b).
A Fig. 8 mostra um transmissor ou registrador de áudio da invenção 500 que possui um codificador 220, uma interface de entrada 502 e uma interface de saída 504.
Um sinal de áudio pode ser fornecido na interface de entrada 502 do transmissor/registrador 500. O sinal de áudio é codificado usando um codificador da invenção 220 dentro do transmissor/registrador e a representação codificada é enviada 5 pela interface de saída 504 do transmissor/registrador 500. A representação codificada pode então ser transmitida ou armazenada em um meio de armazenagem.
A Fig. 9 mostra um receptor da invenção ou reprodutor de áudio 520 tendo um decodificador da invenção 312, 10 uma entrada de taxa de transferência de bits 522, e uma saída de áudio 524.
A taxa de transferência de bits pode ser enviada para a entrada 522 do receptor/reprodutor de áudio da invenção 520. A taxa de transferência de bits é então decodificada usando o 15 decodif icador 312 e o sinal decodificado é produzido ou reproduzido na saída 524 receptor/reprodutor de áudio da invenção 520.
|
A |
Fig. 10 |
mostra um sistema de |
transmissão |
que |
compreende um |
transmissor |
da |
invenção |
500 e |
um receptor |
da |
20 invenção 520. |
|
|
|
|
|
|
|
|
A |
entrada |
do |
sinal de |
áudio |
na interface |
de |
entrada 502 do transmissor 500 é codificada e transferida a partir da saída 504 do transmissor 500 para a entrada 522 do receptor 520. O receptor decodifica o sinal de áudio e reproduz ou envia o 25 sinal de áudio para sua saída 524.
Os exemplos discutidos dos decodificadores da invenção fazem o downmix de um sinal de áudio mui ti canais em um sinal de áudio monofônico. É claro ser também alternativamente
possível fazer o downmix de um sinal multicanais em um sinal estereofônico, que se referiríam, por exemplo, às configurações discutidas nas Figs. 2 e 4, podendo ser contornada aquela etapa no processo de codificação hierárquica. Também são possíveis todos os outros números de canais resultantes.
método proposto para codificar ou decodificar hierarquicamente as informações de áudio multicanais provendo/usando uma representação paramétrica compacta das propriedades espaciais do sinal de áudio é descrito principalmente pela compactação das informações colaterais pela combinação de múltiplos valores ICC em um único valor ICC transmitido. Deve ser aqui notado que a invenção descrita não deve ser de forma alguma limitada ao uso de um único valor ICC combinado. Ao invés disso, podem ser gerados dois valores combinados, um descrevendo a importante correlação esquerdo/direito, o outro descrevendo a correlação frontal/traseira.
Isto pode ser implementado vanta j osamente, por exemplo, na configuração da presente invenção mostrada na Fig. 2, onde, por um lado são combinados um canal frontal esquerdo 250a e um canal traseiro esquerdo 250b em um canal mestre esquerdo 254a, e onde um canal frontal direito 250c e um canal traseiro direito
250d são combinados em um canal mestre traseiro 254b. Portanto, essas duas etapas de codificação fornecem informações sobre a correlação frontal traseira do sinal de áudio original, que pode
ser facilmente processado para prover um outro valor ICC, |
que |
retenha as |
informações |
de correlação frontal/traseira. |
|
|
Além |
disso, em uma |
modificação preferida |
da |
presente |
invenção, |
é vantajoso |
ter processos |
de |
codificação/decodificação que possam realizar ambos, usar os parâmetros transmitidos individualmente da técnica anterior e, dependendo das informações colaterais de sinalização enviadas pelo codificador ao decodificador, também usar os parâmetros transmitidos combinados. Tal sistema pode, com vantagens, proporcionar tanto uma maior precisão de representação (usando os parâmetros transmitidos combinados) e, alternativamente, uma baixa taxa de bits de informações colaterais (usando parâmetros combinados).
Tipicamente, a escolha desse ajuste é feita pelo usuário, dependendo das exigências da aplicação, como a quantidade de informações colaterais que podem ser acomodadas pelo sistema de transmissão usado. Isso permite usar a mesma arquitetura unificada de codificador/decodificador podendo operar dentro de uma ampla faixa de fluxo de bits de informações colaterais/trade-offs de precisão. Isto é uma importante capacidade de maneira a. cobrir uma ampla faixa de possíveis aplicações com diferentes exigências e capacidades de transmissão.
Em outra modificação dessa configuração tão vantajosa, a escolha do modo de operação também podería ser feita automaticamente pelo codificador, que analisa, por exemplo, o desvio dos valores decodificados do resultado ideal no caso de ter sido usado o modo de transmissão combinado. Caso não se j a descoberto desvio significativo, será então empregada a 25 transmissão de parâmetros combinados. 0 decodificador poderia até decidir por si mesmo, com base na análise das. informações colaterais fornecidas, qual modo é adequado para cada uso. Por exemplo, caso somente um parâmetro espacial for fornecido, o
decodificador automaticamente comutaria para o modo decodificador usando os parâmetros transmitidos combinados.
Em uma outra modificação vantajosa da invenção presente, o codificador/decodificador comuta automaticamente a partir do modo usando os parâmetros transmitidos combinados para o modo usando individualmente os parâmetros transmitidos, para
garantir o melhor compromisso |
possível |
entre |
uma |
qualidade de |
reprodução de áudio e uma |
desejada |
baixa |
taxa |
de bits de |
informações colaterais. |
|
|
|
|
Como pode ser |
visto a |
partir |
das |
configurações |
preferidas descritas dos codificadores/decodificadores das Figs. 2 4, 6 e 7, essas unidades usam os mesmos blocos funcionais. Portanto, uma outra configuração preferida constrói um codificador e um decodificador usando o mesmo hardware dentro de um alojamento.
Em uma configuração alternativa da presente invenção, é possível comutar dinamicamente entre os diferentes esquemas dé codificação agrupando diferentes canais em conjunto como pares de canais, tornando possível usar dinamicamente o esquema de codificação que provê a melhor qualidade possível de áudio para um dado sinal de áudio multicanais.
Não é necessário transmitir o canal downmix monofônico com uma representação paramétrica de um sinal de áudio multicanais. Ê também possível transmitir somente uma representação paramétrica, para permitir que o ouvinte, que já possui um downmix monofônico do sinal de áudio multicanais, por exemplo como um gravador, reproduza um sinal multicanais usando seu equipamento multicanais existente e as informações colaterais paramétricas.
Para resumir, a presente invenção permite determinar esses parâmetros combinados de maneira vantajosa a partir de parâmetros conhecidos da técnica anterior. Aplicando o 5 conceito da invenção .de parâmetros combinados em uma estrutura hierárquica codificador/decodificador, é possível fazer o downmix de um sinal de áudio multicanais em uma representação paramétrica monobaseada, obtendo uma parametrização exata do sinal original com uma baixa taxa de informações colaterais (= redução de taxa de 10 bits).
Ê um objetivo da presente invenção que o codificador combine determinados parâmetros com o obj etivo de reduzir o número de parâmetros que devam ser transmitidos. Então, o decodificador obtém os parâmetros faltantes dos parâmetros que 15 foram transmitidos, ao invés de usar os valores dos parâmetros padrão, como é o caso em sistemas da técnica anterior, por exemplo o mostrado na Fig. 15.
Essa vantagem se torna evidente revendo novamente a configuração de um codificador de áudio paramétrico hierárquico 20 multicanais usando os princípios da técnica anterior, sendo um exemplo mostrado na Fig. 15. Ali, os sinais de entrada (Lf, Rf, Lr, Rr, C e LFE, correspondendo aos canais esquerdo frontal, direito frontal, esquerdo traseiro, direito traseiro, central e de ampliação de baixa freqüência, respectivamente) são segmentados e 25 transformados para o domínio de frequência para obter os blocos tempo/frequência exigidos. Os sinais resultantes são depois combinados de maneira pareada. Por exemplo, os sinais Lf e Lr são combinados para formarem um sinal L. Um conjunto correspondente
de parâmetros espacial (1) é gerado para modelar as propriedades espaciais entre os sinais Lf e Lr (isto é, consistindo de um ou mais IIDs, ICCs, IPDs) . Na configuração de acordo com a técnica anterior mostrada na Fig. 15, esse processo é repetido até ser obtido um único canal de saída (Μ) , o canal de saída sendo acompanhado por cinco conjuntos de parâmetros. A aplicação das técnicas de codificação hierárquica da técnica anterior envolvería então a transmissão de todos os conjuntos de parâmetros.
Entretanto, deve ser notado que nem todo o conjunto de parâmetros deve conter valores para todos os possíveis parâmetros espaciais. Por exemplo, o conjunto de parâmetros 1 da Fig. 15 pode consistir de parâmetros IID e ICC, enquanto o conjunto de parâmetros 3 pode consistir somente de parâmetros IDD. Se certos parâmetros não forem transmitidos para conjuntos específicos, o decodificador hierárquico da técnica anterior aplica valores padrão para esses parâmetros (por exemplo, ICC = + 1, IPD = 0, etc.). Assim, cada conjunto de parâmetros representa somente uma combinação específica de sinais e não descreve propriedades espaciais dos pares de canais restantes.
Essa perda de conhecimento sobre as propriedades espaciais dos sinais cujos parâmetros não estão sendo transmitidos pode ser evitada usando o conceito da invenção, em que o codificador combina parâmetros específicos, de maneira que as propriedades espaciais mais importantes do sinal original são preservadas.
Por exemplo, quando os parâmetros ICC são combinados em um valor único, os parâmetros combinados podem ser usados no decodificador como substituto de todos os parâmetros % ♦ χ
individuais (ou o parâmetro individual usado no decodificador pode ser obtido a partir dos transmitidos) . Trata-se de uma importante característica que o processo de combinação dos parâmetros do codificador seja feito de maneira que a imagem sonora do sinal 5 multicanais original seja preservada da forma mais próxima possível após a reconstrução pelo decodificador. Transmitir os parâmetros ICC significa que deve ser mantida a largura (decorrelação) do campo sonoro original.
Deve ser aqui notado que o valor ICC mais importante fica entre o eixo esquerdo/direito, já que o ouvinte está normalmente olhando de frente para o equipamento de audição. Isto pode ser levado em conta com vantagem para a construção da estrutura de codificação hierárquica, de maneira que possa ser obtida uma representação paramétrica do sinal de áudio adequada durante o processo iterativo de codificação, caracterizado pelo fato de que o valor ICC combinado resultante representa principalmente a decorrelação esquerdo/direito. Isto será explicado em mais detalhes posteriormente quando forem discutidas as configurações preferidas da presente invenção.
0 esquema de codificação/decodificação da invenção permite reduzir o número de parâmetros transmitidos de um codificador para um decodificador usando uma estrutura hierárquica de um sistema espacial de áudio por meio das duas seguintes medidas:
· combinar os parâmetros do codificador individual para formarem um parâmetro combinado, que é transmitido ao decodificador ao invés dos individuais. A combinação dos parâmetros é feita de maneira que a imagem sonora do sinal
(incluindo a correlação/coerência L/R) seja a mais preservada possível.
• o parâmetro combinado transmitido é usado no decodificador ao invés de vários parâmetros individuais 5 transmitidos (ou os parâmetros usados no presente são derivados do combinado).
Dependendo de determinadas exigências de implementação dos métodos da invenção, os métodos da invenção podem ser implementados em hardware ou em software. A 10 implementação pode ser feita usando um meio de armazenamento digital, em particular um disco, DVD ou um CD dotado de sinais de controle de leitura eletrônica armazenados, que cooperam com um sistema de computador programável, de maneira a operar os métodos da invenção. Em geral, a presente invenção é, portanto, um produto 15 de programa de computador com um código de programa armazenado em um portador com leitura por máquina, o código de programa operando para reali zar os métodos da invenção quando o produto de programa de computador opera em um computador. Em outras palavras, os métodos da invenção são, portanto, um programa de computador tendo 20 um código de programa para realizar pelo menos um dos métodos da invenção quando o programa de computador opera em um computador.
Apesar do mencionado ter sido particularmente mostrado e descrito com referência a suas configurações particulares, será compreendido pelos peritos na técnica que 25 várias outras alterações de forma e detalhes podem ser feitas sem abandonar o espírito e o escopo da invenção. Deve ser compreendido que várias alterações podem ser feitas para adaptar as diferentes configurações sem abandonar os conceitos mais amplos revelados na » *
presente e englobados pelas reivindicações que seguem.