BRPI0511362B1 - sintetizador multicanais e método para a geração de um sinal de saída multicanais - Google Patents

sintetizador multicanais e método para a geração de um sinal de saída multicanais Download PDF

Info

Publication number
BRPI0511362B1
BRPI0511362B1 BRPI0511362A BRPI0511362A BRPI0511362B1 BR PI0511362 B1 BRPI0511362 B1 BR PI0511362B1 BR PI0511362 A BRPI0511362 A BR PI0511362A BR PI0511362 A BRPI0511362 A BR PI0511362A BR PI0511362 B1 BRPI0511362 B1 BR PI0511362B1
Authority
BR
Brazil
Prior art keywords
post
processed
reconstruction
quantized
channel
Prior art date
Application number
BRPI0511362A
Other languages
English (en)
Inventor
Sasha Disch
Christian Ertel
Juergen Herre
Johannes Hilpert
Andreas Hoelzer
Claus-Christian Spenger
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of BRPI0511362A publication Critical patent/BRPI0511362A/pt
Publication of BRPI0511362B1 publication Critical patent/BRPI0511362B1/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Radio Relay Systems (AREA)
  • Stereophonic System (AREA)
  • Channel Selection Circuits, Automatic Tuning Circuits (AREA)

Abstract

sintetizador multicanais e método para a geração de um sinal de saída multicanais. sintetizador multicanais que inclui um pós-processador (10) para a determinação de parâmetros de reconstrução pós-processados ou quantidades derivadas do parâmetro de reconstrução da porção de tempo real do sinal de entrada, de maneira que o parâmetro de reconstrução pós-processado ou a quantidade pós-processada seja diferente do correspondente parâmetro de reconstrução quantizado e inversamente quantizado quando o volume do parâmetro de reconstrução pós-processado ou da quantidade derivada não está ligado por uma dimensão de etapa de quantização. um reconstrutor multicanais (12) usa o parâmetro de reconstrução pós-processado para reconstruir o sinal de saída multicanais. o pós-processamento dos parâmetros de reconstrução em conexão com a codificação/decodificação multicanais permite uma baixa taxa de dados, por um lado, e uma alta qualidade pelo outro lado, já que são reduzidas grandes mudanças no sinal de saída multicanais reconstruído devido a uma grande dimensão de etapa de quantização do parâmetro de reconstrução, que é preferível devido aos baixos requisitos de taxa de bits.

Description

SINTETIZADOR MULTICANAIS Ε MÉTODO PARA Α GERAÇÃO
DE UM SINAL DE SAÍDA MULTICANAIS
Campo da invenção
A presente invenção se refere ao processamento de áudio multicanais e, em particular, à reconstrução de áudio multicanais usando um canal base e informações colaterais paramétricas para a reconstrução de um sinal de saída tendo uma pluralidade de canais.
Histórico da invenção e da técnica anterior
Ultimamente, a técnica de reprodução de áudio multicanais está se tornando cada vez mais importante. Isto pode se dever ao fato que as técnicas de codif icação/compressão de áudio, como a bem conhecida técnica mp3, tornaram possível distribuir registros de áudio pela Internet ou outros canais de transmissão com largura de banda limitada. A técnica de codificação mp3 tornou-se tão famosa devido ao fato de permitir a distribuição de todos os registros em formato estéreo, isto é, uma representação digital do registro de áudio, incluindo um primeiro ou canal estéreo esquerdo e um segundo ou canal estéreo direito.
0 Não obstante, existem desvantagens básicas dos sistemas de som convencionais de dois canais. Portanto, foi desenvolvida a técnica surround. Uma representação de multicanais surround recomendada inclui, além dos dois canais estéreo L e R, um outro canal central C e dois canais surround Ls, Rs. Esse 25 formato de som de referência é também denominado de três/dois estéreo, o que significa três canais frontais e dois canais surround. Em geral, são necessários cinco canais de transmissão.
Em um ambiente de playback, são necessários pelo menos cinco falantes nos respectivos cinco locais diferentes para se obter um
Figure BRPI0511362B1_D0001
local ideal a uma determinada distância dos cinco alto-falantes bem localizados.
São conhecidas no ramo várias técnicas para a redução da quantidade de dados necessários para a transmissão de 5 um sinal de áudio multicanais. Essas técnicas são denominadas
técnicas joint stereo. Fig. 10, que mostra Para essa finalidade, é feita referência à
um dispositivo joint stereo 60 . Esse
dispositivo pode ser um dispositivo para implementação, por
exemplo, um intensity stereo (IS) ou binaural cue coding (BCC) .
Esse dispositivo geralmente recebe - como uma entrada - pelo menos dois canais (CHI, CH2, ... CHn) , e envia um canal portador simples e dados paramétricos. Os dados paramétricos são definidos de maneira que, em um decodificador, pode ser calculada uma aproximação do canal original (CHI, CH2, ... CHn).
Normalmente, o canal portador incluirá amostras de sub-banda, coeficientes espectrais, amostras de domínio de tempo, etc, que fornecem uma representação comparativamente fina do sinal subj acente, enquanto os dados paramétricos não incluem essas amostras de coeficientes espectrais, mas incluem parâmetros 20 de controle para controlar um determinado algoritmo de reconstrução como pesagem por multiplicação, mudança de tempo, mudança de freqüência, mudança de fase, ... Os dados paramétricos, portanto, incluem somente uma representação comparativamente grosseira do sinal ou do sinal associado. Dito em números, a 2 5 quantidade necessária de dados por um canal portador será na faixa de 60 - 70 kbit/s, enquanto a quantidade de dados necessária pelas informações colaterais paramétricas será na faixa 1,5 - 2,5 kbit/s. Um exemplo de dados paramétricos são os bem conhecidos fatores de escala, informações intensity stereo ou binaural cue parameters, como será descrito abaixo.
A codificação íntensity stereo é descrita na AES preprint 3799, íntensity Stereo Coding, J. Herre, K. H. Brandenburg, D. Lederer, February 1994, Amsterdam. Em geral, o conceito de íntensity stereo se baseia em uma transformada de eixo principal a ser aplicada aos dados de ambos os canais estereofônicos de áudio. Se a maioria dos pontos de dados se concentra à volta do primeiro eixo principal, pode ser obtido um ganho de codificação girando ambos os sinais de um determinado 10 ângulo antes da codificação. Entretanto, isto nem sempre é verdadeiro nas técnicas de produção estereofônicas reais. Portanto, essa técnica é modificada excluindo a segunda componente ortogonal da transmissão na taxa de bits. Assim, os sinais reconstruídos para os canais esquerdo e direito consistem de 15 versões pesadas ou medidas diferentemente do mesmo sinal transmitido. Não obstante, os sinais reconstruídos diferem em amplitude, mas são idênticos com relação às suas informações de fase. Os envelopes energia-tempo de ambos os canais originais de áudio, entretanto, são preservados por meio de uma operação de 20 medição seletiva, que opera tipicamente com freqüência seletiva.
Isto se conforma com a percepção humana de som em altas frequências, em que as sinalizações espaciais dominantes são determinadas pelos envelopes de energia.
Além disso, nas programações práticas, o sinal
5 transmitido, isto é, o canal portador é gerado a partir do sinal de soma do canal esquerdo e do canal direito, ao invés de girar ambos os componentes. Além disso, esse processamento, isto é, a geração de parâmetros íntensity stereo para a realização da operação de medição, é feito com freqüência seletiva, isto é, té independentemente de cada banda de fator de escala, isto é, da partição de freqüência canais são combinados portador stereo são da energia e, além do de t e rmi nadas do codificador.
para formarem canal combinado, que dependem da
De um as do segundo canal
A técnica paper 5574, Binaural cue channel audio compression preferência, os dois c ana1 comb i nado ou energia do primeiro canal, ou da energia do combinado ou canal.
BCC está descrita no AES coding applied to stereo
C. Faller, F. Baumgarte, convention and multiMay 2002,
Munich. Na codificação BCC, alguns canais de entrada de áudio são convertidos em representação espectral usando uma transformada baseada DFT com janelas de sobreposição. 0 espectro uniforme resultante é dividido em partições não sobrepostas, cada qual tendo um índice. Cada partição tem uma largura de banda 15 proporcional à largura de banda retangular equivalente (ERB). As diferenças de níveis intercanais (ICLD) e as diferenças de tempo intercanais (ICTD) são estimadas para cada partição de cada quadro k. A ICLD e a ICTD são quantizadas e codificadas, resultando em
uma t axa de bits BCC . As diferenças de níveis intercanais e as
20 diferenças de tempo intercanais são dadas para cada canal com
relação a um canal de referência. Então, os parâmetros são
calculados de acordo com as fórmulas indicadas, que dependem de
determinadas partições do sinal a ser processado.
No lado do decodificador, o decodificador recebe um sinal mono e a taxa de bits BCC. O sinal mono é transformado em domínio de freqüência e enviado para um bloco de síntese espacial, que também recebe os valores ICLD e ICTD decodificados. No bloco de síntese espacial, os parâmetros BCC (ICLD e ICTD) são usados para fazer a operação de pesagem do sinal mono, de maneira a
Figure BRPI0511362B1_D0002
sintetizar os sinais multicanais que, após uma conversão freqüência/tempo, representam uma reconstrução do sinal original multicanais.
No caso de BCC, o módulo joint stereo 60 opera para enviar as informações colaterais de canal, de maneira que os dados de canal paramétrico são parâmetros ICLD ou ICTD quantizados e codificados, caracterizado pelo fato de que um dos canais originais ê usado como canal de referência para a codificação das informações colaterais do canal.
Normalmente, o canal portador é formado pela soma dos canais participantes originais.
Naturalmente, as técnicas acima somente proporcionam uma representação mono para um decodificador, que somente pode processar o canal portador, mas não consegue 15 processar os dados paramétricos para a geração de uma ou mais aproximações de mais do que um canal de entrada.
A técnica de codificação de áudio conhecida como binaural cue coding (BCC) está também bem descrita nas publicações do pedido de patente norte-americana US 2003, 0219130 Al, 20 2003/0026441 Al e 2003/0035553 Al. Também são feitas outras referências ao Binaural Cue Coding. Part II: Schemes and Applications, C. Faller and F. Baumgarte, IEEE Trans. On Audio and Speech Proc., Vol. 11, No. 6, Nov. 1993. As publicações do pedido de patente norte-americana citadas e as duas publicações 25 técnicas citadas sobre a técnica BCC de autoria de Faller and Baumgarte estão incorporadas ao presente por referência em suas totalidades.
A seguir é elaborado em maiores detalhes um típico esquema genérico BCC para a
codificação de áudio multicanais com referência às Figuras 11 a 13. A Figura 11 mostra um esquema genérico binaural cue coding para a codificação/transmissão de sinais de áudio multicanais. O sinal de
entrada de áudio multicanais em uma entrada 110 de um codificador
5 BCC 112 é down mixed em um bloco down mix 114 . No presente
exemplo, o sinal original multicanais na entrada 110 é um sinal
surround de 5 canais tendo um canal esquerdo frontal, um canal direito frontal, um canal surround esquerdo, um canal surround direito e um canal central. Em uma configuração preferida da 10 presente invenção, o bloco down mix 114 produz um sinal de soma por uma simples adição desses cinco canais em um sinal mono. São conhecidos outros esquemas de down mix na técnica de maneira que, usando um sinal de entrada multicanais, pode ser obtido um sinal down mix tendo um simples canal, Esse simples canal sai em uma 15 linha de sinal de soma 115. As informações colaterais obtidas por um bloco de análise BCC 116 sai na linha de informações colaterais 117. No bloco de análise BCC, as diferenças de níveis intercanais (ICLD) e as diferenças de tempo intercanais (ICTD) são calculadas como ressaltado acima. Recentemente, foi ampliado para também intercanais (valores ICC) .
colaterais codificada, decompõe o calcular sinal o bloco de os valores de soma análise BCC 116 de correlação as informações são transmitidas, de preferência sob forma quantizada e para um decodif icador BCC 120. O sinal de soma decodificador BCC transmitido em um número de sub-bandas e aplica medição, retardos e demais processamentos para gerar as sub-bandas dos sinais de áudio multicanais de saída, Esse processamento é feito de maneira que os parâmetros ICLD, ICTD e
ICC (sinalizações cues) de um sinal multicanais reconstruído em uma saída 121 sejam similares às sinalizações respectivas do sinal
Figure BRPI0511362B1_D0003
original multicanais na entrada 110 do codificador BCC 112. Para esse fim, o decodificador BCC 120 inclui um o bloco de síntese BCC 122 e o bloco de processamento das informações colaterais 123.
A seguir, a construção interna do bloco de síntese BCC 122 é explicada com referência à Fig. 12. O sinal de soma na linha 115 é enviado para uma unidade de conversão tempo/freqüência ou banco de filtro FB 125. Na saída do bloco 125, existe um número N de sinais de sub-banda ou, em caso extremo, um bloco de coeficientes espectrais, quando o banco de filtro de 10 áudio 125 faz a transformada 1:1, isto é, uma transformada que produz N coeficientes espectrais a partir de N amostras de domínio de tempo.
O bloco de síntese BCC 122 ainda compreende um estágio de retardo 126, um estágio de modificação de nível 127, um 15 estágio de processamento de correlação 128 e um estágio de banco de filtro inverso IFB 129. Na saída do estágio 129, o sinal de áudio multicanais reconstruído tendo, por exemplo, cinco canais no caso de um sistema surround de 5 canais, pode ser enviado a um conjunto de alto-falantes 124, como ilustrado na Fig. 11.
Como mostrado na Fig. 12, o sinal de entrada s(n) ê convertido para o domínio de frequência ou domínio de banco de filtro por meio do elemento 125. A saída do sinal pelo elemento 125 é multiplicada de maneira que são obtidas várias versões do mesmo sinal como ilustrado pelo nodo de multiplicação 130. O número de versões do sinal original é igual ao número de canais de saída no sinal de saída a ser reconstruído quando, em geral, cada versão do sinal original no nodo 13 0 é submetida a um determinado retardo dx, d2, ..., di, ..., dN. Os parâmetros de retardo são computados pelo bloco de processamento das informações colaterais
123 na Fig. 11 e são derivados das diferenças de tempo intercanais determinadas pelo bloco de analise BCC 116.
O mesmo é verdadeiro para os parâmetros de multiplicação a.lt a2, ..., , ..., aN, que também são calculados pelo bloco de processamento de informações colaterais 123 baseado nas diferenças de níveis intercanais, como calculado pelo bloco de análise BCC 116.
Os parâmetros ICC calculados pelo bloco de análise BCC 116 são usados para controlar a funcionalidade do bloco 128 de maneira que, algumas correlações entre os sinais retardados e manipulados por nível são obtidas nas saídas do bloco 128. Deve-se notar aqui que o ordenamento dos estágios 126, 127, 128 pode ser diferente do caso mostrado na Fig. 12.
Deve ser notado aqui que, em um processamento de quadros de um sinal de áudio, a análise BCC é feita em quadros, isto é, com variação de tempo, e também de freqüências. Isto significa que, em cada banda espectral, são obtidos os parâmetros BCC. Isto significa que, no caso de um banco de filtro de áudio 125 decompõe o sinal de entrada em, por exemplo, 32 sinais de passe de banda, o bloco de análise BCC obtém um conjunto de parâmetros BCC para cada uma das 32 bandas. Naturalmente, o bloco de síntese BCC 122 da Fig. 11, que é mostrado em detalhes na Fig. 12, faz uma reconstrução que é também baseada nas 32 bandas do exemplo.
A seguir, é feita referência à Fig. 13 mostrando uma montagem para determinar alguns parâmetros BCC. Normalmente, os parâmetros ICLD, ICTD e ICC podem ser definidos entre pares de canais. Entretanto, é preferível determinar os parâmetros ICLD e ICTD entre um canal de referência e cada outro canal. Isto é
Figure BRPI0511362B1_D0004
ilustrado na Fig. 13A.
Os parâmetros ICC podem ser definidos de várias formas. Mais geralmente, podem-se estimar os parâmetros ICC no codificador entre todos os pares possíveis de canais como indicado 5 na Fig. 13B. Nesse caso, o decodif icador sintetizaria ICC, de maneira que fosse aproximadamente o mesmo que no sinal multicanais original entre todos os possíveis pares de canais. Foi, entretanto, proposto estimar somente parâmetros ICC entre os dois canais mais potentes a cada vez. Esse esquema está ilustrado na 10 Fig. 13c, onde está mostrado um exemplo, em que em um momento no tempo é estimado um parâmetro ICC entre os canais 1 e 2, e em outro momento no tempo, é calculado um parâmetro ICC entre os canais 1 e 5. 0 decodificador então sintetiza a correlação intercanais entre os canais mais potentes no decodificador e 15 aplica alguma regra heurística para computar e sintetizar a coerência intercanais dos outros pares de canais.
Com relação ao cálculo, por exemplo, dos parâmetros de multiplicação ai, aN baseado nos parâmetros ICLD transmitidos, é feita referência ao documento da convenção AES 20 5574 citado acima. Os parâmetros ICLD representam qualquer distribuição de energia em um sinal multicanais original. Sem a perda de generalidade, é mostrado na Fig. 13A que existem quatro parâmetros ICLD mostrando a diferença de energia entre todos os demais canais e o canal esquerdo frontal. No bloco de 25 processamento das informações colaterais 123, os parâmetros de multiplicação ax, ..., aH derivam dos parâmetros ICLD de maneira que a energia total de todos os canais de saída reconstruídos é a mesma que (ou proporcional) a energia do sinal de soma transmitido. Uma simples maneira para determinar esses parâmetros ê ο processo de 2 estágios, em que, em um primeiro estágio, o fator de multiplicação do canal frontal esquerdo é estabelecido como a unidade, enquanto os fatores de multiplicação dos demais canais na Fig. 13 A são estabelecidos nos valores ICLD transmitidos. Então, em um segundo estágio, a energia de todos os cinco canais é calculada e comparada à energia do sinal de soma transmitido. Então, todos os canais são reduzidos usando um fator de redução igual para todos os canais, caracterizado pelo fato de que o fator de redução é selecionado de maneira que a energia 10 total de todos os canais de saída reconstruídos seja, depois da redução, igual ã energia total do sinal de soma transmitido.
Naturalmente, existem outros métodos para o cálculo dos fatores de multiplicação, que não se baseiam no processo de 2 estágios, mas que somente precisam de um processo de 15 1 estágio.
Com referência aos parâmetros de retardo, deve ser notado que os parâmetros de retardo ICTD, que são transmitidos a partir de um codificador BCC podem ser usados diretamente, quando o parâmetro de retardo dx do canal frontal esquerdo for 2 0 ajustado em zero. Não deve ser feito aqui nenhum redimensionamento, já que o retardo não altera a energia do sinal.
Com referência à medida de coerência intercanais
ICC transmitida do codificador BCC para o decodificador BCC, deve ser notado aqui que pode ser feita uma manipulação de coerência 25 modificando os fatores de multiplicação ax, an como pela multiplicação dos fatores de pesagem de todas as sub-bandas com números randômicos de valores entre 201ogl0(-6) e 201ogl0(6). A seqüência pseudo-randômica é escolhida de preferência de maneira que a variância sej a aproximadamente constante para todas as bandas críticas, e a média seja zero dentro de cada banda crítica. A mesma seqüência se aplica aos coeficientes espectrais de cada quadro diferente. Assim, a largura da imagem auditório é controlada modificando a variância da seqüência pseudo-randômica.
Uma ma i or var i ânc ia cria uma maior largura de imagem. A modificação de variância pode ser feita em bandas individuais que têm largura crítica de banda. Isso permite a existência simultânea de múltiplos objetos em uma cena de auditório, cada objeto tendo uma diferente largura de imagem. Uma distribuição adequada de amplitude da seqüência pseudo-randômica é uma distribuição uniforme em escala logarítmica, como ressaltado na publicação do pedido de patente norte-americana 2003/0219130 Al. Não obstante, todo o processamento de síntese BCC se relaciona a um único canal de entrada transmitido como o sinal de soma do codificador BCC para o decodificador BCC como mostrado na Fig. 11.
Uma técnica relacionada, também conhecida como estéreo paramétrica, é descrita em J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuij ers, High-Quality Parametric Spatial Audio Coding at Low Bitrates”, AES 116th Convention, Berlin, Preprint 2 0 6072, May 2004, and E. Schuijers, J. Breebaart, H. Purnhagen, J.
Engdegard, Low Complexity Parametric Stereo Coding”, AES 116th Convention, Berlin, Preprint 6073, May 2004.
Como foi ressaltado acima com respeito à Fig. 13, as informações colaterais paramétricas, isto é, as diferenças de 25 níveis intercanais (ICLD), as diferenças de tempo intercanais (ICTD) ou o parâmetro de coerência intercanais (ICC) podem ser calculados e transmitidos para cada um dos cinco canais. Isto significa que, normalmente, transmite cinco conjuntos de diferenças de níveis intercanais para um sinal de cinco canais. 0
JL3 mesmo é verdade para as diferenças de tempo intercanais. Com respeito ao parâmetro de coerência intercanais, também pode ser suficiente para somente transmitir, por exemplo, dois conjuntos desses parâmetros.
Como foi ressaltado acima com respeito à Fig. 12, não existe um único parâmetro de diferença de níveis, parâmetro de diferença de tempo ou parâmetro de coerência para um quadro ou porção de tempo de um sinal. Ao invés disso, esses parâmetros são determinados para várias diferentes bandas de freqüência, de 10 maneira que é obtida uma parametrização dependente da freqüência.
Como é preferível usar, por exemplo, 32 canais de freqüência, isto é, um banco de filtros tendo 32 bandas de freqüência para análise BCC e síntese BCC, os parâmetros podem ocupar muitos dados. Apesar disso - comparada com outras transmissões multicanais - a 15 representação paramétrica resulta em uma taxa de dados bastante baixa, existindo uma contínua necessidade de maior redução da taxa de dados necessária para representar um sinal multicanais, como um
sinal dotado de dois canais (sinal estéreo) ou um sinal que seja
dotado de mais do que dois c ana is, c omo um sinal surround
2 0 multicanais.
Para essa finalidade, os parâmetros de
reconstrução calculados do lado do codificador são quantizados de acordo com uma determinada regra de quantização. Isto significa que os parâmetros de reconstrução não quantizados são mapeados em 2 5 um conj unto 1imitado de níveis de quant i zação ou índi ces de quantização, como conhecido na técnica e descrito em detalhes em C. Faller and F. Baumgarte, Binaural cue coding applied to audio compression with flexible rendering, AES 113th Convention, Los Angeles, Preprint 5686, October 2002.
A quantização tem o efeito de que todos os valores de parâmetros que forem menores que uma dimensão de etapa de quantização, são quantizados para zero. Além disso, mapeando um grande conjunto de valores não quantizados em um pequeno conjunto de valores quantizados resulta, em si, uma economia de dados. Essa economia de taxas de dados é ainda ampliada pela codificação entrópica dos parâmetros de reconstrução quantizados no lado do decodificador. Os métodos de codificação entrópica preferidos são os métodos de Huffman baseados em tabelas predefinidas de códigos ou baseados na determinação real de estatísticas de sinais e construção com adaptação do sinal de livros de códigos. De maneira alternativa, podem ser usadas outras ferramentas de codificação entrópica, como a codificação aritmética.
Em geral, existe a regra que, a taxa de dados necessária para os parâmetros de reconstrução decresce com o crescimento da dimensão da etapa de quantização. Dito em outras palavras, uma quantização mais grosseira resulta em menor taxa de dados, e uma quantização mais fina resulta em uma maior taxa de dados.
Como as representações de sinais paramétricos são normalmente necessárias em ambientes de baixa taxa de dados, é tentada a quantização dos parâmetros de reconstrução mais grosseiramente possível para obter uma representação de sinais tendo uma determinada quantidade de dados no canal base, e também tendo uma pequena e razoável quantidade de dados para as informações colaterais que incluem os parâmetros de reconstrução quantizados e codificados em entropia.
Os métodos da técnica anterior, portanto, fazem os parâmetros de reconstrução ser transmitidos diretamente do sinal multicanais para a codificação. Uma quantização mais grosseira como acima discutida resulta em distorções no parâmetro de reconstrução, que resultam em maiores erros de arredondamento, quando o parâmetro de reconstrução quantizado for quantizado inversamente em um decodificador e usado para a síntese multicanais. Naturalmente, o erro de arredondamento aumenta com a dimensão da etapa de quantização, isto é, com a grossura do quantizador. Esses erros de arredondamento podem resultar em uma mudança do nível de quant i zação, isto é, em uma mudança do primeiro nível de quantização em um primeiro instante no tempo para um segundo nível de quantização em um instante posterior no tempo, caracterizado pelo fato de que a diferença entre um nível de quantização e outro nível de quantização é definida pela dimensão bem maior da etapa de quantização, que é preferível para uma quantização mais grosseira. Infelizmente, essa mudança de nível de quantização que atinge uma maior dimensão da etapa de quantização pode ser disparada por somente uma pequena mudança de parâmetros, quando o parâmetro não quantizado estiver no meio entre dois níveis de quantização. Ê claro que a ocorrência de tais mudanças no índice de quantização nas informações colaterais resulta nas mesmas grandes mudanças no estágio de síntese de sinal. Quando - como exemplo - é considerada a diferença de níveis intercanais, torna-se claro que resulta grande mudança de consistente redução da altura de som de um determinado sinal de alto-falante e um aumento consistente de acompanhamento da altura de um sinal de outro alto-falante. Essa situação, que somente é determinada por uma mudança de nível de quant i zação e uma quantização mais grosseira pode ser percebida como uma relocação imediata de uma fonte sonora de um (virtual) primeiro lugar para um (virtual) segundo lugar. Essa relocação imediata de um instante de tempo para outro instante de tempo não parece natural, isto é, é percebida como um efeito de modulação, já que as fontes sonoras, particularmente de sinais tonais, não alteram suas localizações muito rapidamente.
Em geral, erros de transmissão também podem resultar em grandes alterações dos índices de quantização, que imediatamente resultam em grandes alterações no sinal de saída multicanais, que são ainda mais verdadeiras em situações em que foram adotados quantizadores mais grosseiros por motivos de taxa de dados.
Sumário da Invenção
É o obj etivo da presente invenção prover um conceito de síntese de sinal aperfeiçoado que permita uma baixa taxa de dados por um lado e, de outro lado, uma boa qualidade subjetiva.
De acordo com o primeiro aspecto da presente invenção, esse objetivo é alcançado por um sintetizador multicanais para a geração de um sinal de saída a partir de um sinal de entrada, o sinal de entrada tendo pelo menos um canal de entrada e uma seqüência de parâmetros de reconstrução quantizados, os parâmetros de reconstrução quantizados sendo quantizados de acordo com uma regra de quantização, e estando associados com subseqüentes porções de tempo do canal de entrada, o sinal de saída tendo um número de canais de saída sintetizados, e o número de canais de saída sintetizados sendo maior que 1 ou maior que o número de canais de entrada, compreendendo: um pós-processador para a determinação de um parâmetro de reconstrução pós-processado ou uma quantidade pós-processada derivada do parâmetro de reconstrução para uma porção de tempo do sinal de entrada a ser processado, caracterizado pelo fato de que o pós-processador esta operativo para determinar o parâmetro de reconstrução pósprocessado, de maneira que um valor do parâmetro de reconstrução pós-processado ou a quantidade pós-processada seja diferente de um valor que possa ser obtido usando a requantização de acordo com a regra de quantização; e um reconstrutor multicanais para reconstruir uma porção de tempo do número de canais de saída sintetizados usando a porção de tempo do canal de entrada e o parâmetro de reconstrução pós-processado ou a quantidade pósprocessada.
De acordo com um segundo aspecto da invenção, esse objetivo é alcançado por um método de geração de um sinal de saída a partir do sinal de entrada, o sinal de entrada tendo pelo menos um canal de entrada e uma seqüência de parâmetros de reconstrução quantizados, os parâmetros de reconstrução quantizados sendo quantizados de acordo com uma regra de quantização, e estando associados com subsequentes porções de tempo do canal de entrada, o sinal de saída tendo um número de canais de saída sintetizados, e o número de canais de saída sintetizados sendo maior que 1 e maior que um número de canais de entrada, compreendendo: a determinação de um parâmetro de reconstrução pós-processado ou uma quantidade pós-processada derivada do parâmetro de reconstrução para uma porção de tempo do sinal de entrada a ser processado, de maneira que um valor do parâmetro de reconstrução pós-processado ou da quantidade pósprocessada seja diferente de um valor que possa ser obtido usando requantização de acordo com a regra de quantização; e reconstruir uma porção de tempo do número de canais de saída sintetizados usando a porção de tempo do canal de entrada e o parâmetro de reconstrução pós-processado ou a quantidade pós-processada.
De acordo com um terceiro aspecto da presente invenção, este objetivo é alcançado por um programa de computador que implementa o método acima, ao ser operado em um computador.
A presente invenção se baseia na descoberta de um pós-processamento de parâmetros de reconstrução quantizados usado em um sintetizador multicanais que opera para reduzir, ou mesmo eliminar, problemas associados com quantização grosseira, por um lado, e por outro lado alterações de níveis de quantização. Enquanto nos demais sistemas da técnica anterior, uma pequena alteração de parâmetros de um codificador resulta em uma grande alteração de parâmetros no decodificador, por somente ser possível uma requant i zação no s intet i zador para o conj unto 1imitado de valores quantizados, o dispositivo da invenção faz um pósprocessamento de parâmetros de reconstrução, de maneira que o parâmetro de reconstrução pós-processado de uma porção de tempo a ser processado do sinal de entrada não é determinado pelo quadro de quantização adotado pelo codificador, mas resulta em um valor do parâmetro de reconstrução, que é diferente de um valor que pode ser obtido pela quantização, de acordo com a regra de quantização.
Assim, em um caso de quantizador linear, o método da técnica anterior somente permite valores quantizados inversamente que sejam múltiplos inteiros da dimensão da etapa de quantização, o pós-processamento do invento permite que valores quantizados inversamente sejam múltiplos não inteiros da dimensão da etapa de quantização. Isto significa que o pós-processamento do invento elimina a limitação da dimensão da etapa de quantização, já que também os parâmetros de reconstrução pós-processados que se situam entre dois níveis de quantização adjacentes podem ser obtidos por pós-processamento e usados pelo reconstrutor multicanais do invento, que faz uso do parâmetro de reconstrução pós-processado.
Esse pós-processamento pode ser feito antes ou depois da requantização em um sintetizador multicanais. Quando o pós-processamento é feito com os parâmetros quantizados, isto é, com os índices de quantização, é necessário um quantizador inverso, que não somente pode quantizar inversamente múltiplos da 10 etapa de quantização, mas que também pode quantizar inversamente valores quantizados inversamente entre múltiplos da dimensão da etapa de quantização.
No caso do pós-processamento ser feito usando parâmetros de reconstrução quantizados inversamente, pode ser
15 usado um quant i zador inverso para frente, sendo feita uma
interpolação/f iltração/suavização com os valores quantizados
inversamente.
No caso de uma regra de quantização não linear,
como uma regra de quantização logarítmica, é preferível um pós20 processamento dos parâmetros de reconstrução quantizados antes da requantização, já que a quantização logarítmica é similar à percepção do som pelo ouvido humano, que é mais precisa para sons de baixo nível e menos precisa para sons de alto nível, isto é, faz um tipo de compressão logarítmica.
5 Pode ser aqui notado que os méritos do invento não são obtidos somente pela modificação do próprio parâmetro de reconstrução, que está incluído na taxa de bits como parâmetro quantizado. As vantagens também podem ser obtidas derivando uma quantidade pós-processada do parâmetro de reconstrução. Isto é especialmente útil quando o parâmetro de reconstrução é um parâmetro de diferença, sendo feita uma manipulação, como uma suavização em um parâmetro absoluto derivado do parâmetro de diferença.
Em uma configuração preferida da presente invenção, o pós-processamento dos parâmetros de reconstrução é controlado por meio de um analisador de sinais, que analisa a porção do sinal associada com um parâmetro de reconstrução para descobrir qual característica de sinal existe. Em uma configuração preferida, o pós-processamento do invento é ativado somente para porções tonais do sinal (com respeito à freqüência e/ou tempo), enquanto o pós-processamento é desativado para porções não tonais, isto é, porções transientes do sinal de entrada. Isto garante que toda a dinâmica das alterações do parâmetro de reconstrução seja transmitida para seções transientes do sinal de áudio, não sendo este o caso para porções tonais do sinal.
De preferência, o pós-processador faz uma modificação na forma da suavização dos parâmetros de reconstrução, onde isto fizer sentido a partir do ponto de vista psico-acústico, sem afetar importantes sinalizações de detecção espacial, que são de especial importância para porções não tonais, isto é, porções transientes de sinal.
A presente invenção resulta em uma baixa taxa de dados, já que a quantização do lado do codificador dos parâmetros de reconstrução pode ser uma quantização grosseira, já que o proj etista do sistema não tem que temer grandes alterações no decodif cador, devido a uma alteração de um parâmetro de reconstrução de um nível quantizado inversamente para outro nível quantizado inversamente, cuja alteração é reduzida pelo
Figure BRPI0511362B1_D0005
processamento do invento, mapeando um valor entre dois níveis de requantização.
Outra vant agem da p r es ent e invenç ão é que é aperfeiçoada a qualidade do sistema, já que problemas audíveis provocados por uma mudança de um nível de requantização para o próximo nível permitido de requantização são reduzidos pelo pósprocessamento do invento, que é operativo para mapear um valor entre dois níveis permitidos de requantização.
Naturalmente, o pós-processamento do invento de parâmetros de reconstrução quantizados representa mais uma perda de informações, além da perda de informações obtida pela parametrização no codificador e a subseqüente quantização do parâmetro de reconstrução. Isto, entretanto, não é tão mau como parece, já que o pós-processador do invento usa de preferência os parâmetros de reconstrução quantizados atuais ou anteriores para a determinação do parâmetro de reconstrução pós-processado a ser usado para a reconstrução da porção de tempo real do sinal de entrada, isto é, do canal base. Ficou demonstrado que isto produz uma aperfeiçoada qualidade subjetiva, jâ que os erros induzidos pelo codificador podem ser compensados em certo grau. Mesmo quando os erros induzidos no lado do codificador não são compensados pelo pós-processamento dos parâmetros de reconstrução, são reduzidas grandes alterações da percepção espacial no sinal de áudio multicanais reconstruído, de preferência somente para porções de sinal tonal, de maneira que a qualidade subjetiva de audição é melhorada em qualquer caso, sem relação com o fato de se isto resulta ou não em mais perdas de informações.
Breve descrição dos desenhos
As configurações preferidas da presente invenção
3<Ζ serão descritas a seguir, com referência aos desenhos anexos, onde:
A Fig. 1 é um diagrama de blocos de uma configuração preferida do sintetizador multicanais do invento,·
A Fig. 2 é um diagrama de blocos de uma configuração preferida de um sistema codificador/decodificador, em que o sintetizador multicanais da Fig. 1 está incluído;
A Fig. 3 é um diagrama de blocos de uma combinação de analisador pós-processador/de sinal a ser usado no sintetizador multicanais do invento da Fig. 1;
A Fig. 4 é uma representação esquemática de porções de tempo do sinal de entrada e dos parâmetros de reconstrução quantizados associados de porções pós-sinal, porções de sinal real porções de sinal futuro a serem processadas;
é uma configuração de um pós-processador da
Fig. 1;
Fig.
6a outra configuração do pós-processador da
Fig. 1;
6b outra configuração preferida do pósprocessador;
7a outra configuração do pós-processador mostrado na Fig.
1;
Fig. 7b uma indicação esquemática dos parâmetros a serem pós-processados de acordo mo s t rando que t ambém uma quant idade de r ivada com a invenção.
do parâmetro de reconstrução pode ser suavizada;
A Fig. 8 é uma indicação esquemática de um quantizador/quantizador inverso que realiza um mapeamento para frente ou um mapeamento ampliado;
A Fig. 9a é um curso de tempo exemplar dos parâmetros de reconstrução quantizados associados a subseqüentes porções de sinais de entrada;
A Fig. 9b é um curso de tempo dos parâmetros de reconstrução pós-processados, que foram pós-processados pelo pósprocessador que implementa uma função (passa-baixo)
Fig. 10 ilustra um codificador de suavi zação;
joint stereo da técnica anterior;
blocos da técnica
Fig. 11 anterior é uma representação de diagrama de de cadeia decodificador/codificador
BCC;
Fig. 12 é um diagrama de blocos de uma implementação da técnica anterior de um bloco de
Fig. 11; e
A Fig. 13 é uma representação de síntese BCC da um esquema bem conhecido para a determinação de parâmetros ICLD, ICTD e ICC.
A Fig. 1 mostra um diagrama de blocos de um sintetizador multicanais do invento para gerar um sinal de saída de um sinal de entrada. Como será depois mostrado com referência à Fig. 4, o sinal de entrada tem pelo menos um canal de entrada e uma seqüência de parâmetros de reconstrução quantizados, os parâmetros de reconstrução quantizados sendo quantizados de acordo com uma regra de quantização. Cada parâmetro de reconstrução está associado a uma porção de tempo do canal de entrada, de maneira que uma seqüência de porções de tempo tem consigo associada uma seqüência de parâmetros de reconstrução quantizados. Além disso, deve ser notado que o sinal de saída, que é gerado pelo sintetizador multicanais da Fig. 1 tem um número de canais de saída sintetizados, que é, em qualquer caso, maior que o número de
Figure BRPI0511362B1_D0006
canais de entrada no sinal de entrada. Quando o número de canais de entrada é 1, isto é, quando houver um único canal de entrada, o número de canais de saída será 2 ou mais. Entretanto, quando o número de canais de saída for 2 ou 3, o número de canais de saída será pelo menos de 3 ou 4.
No caso BCC acima descrito, o número de canais de entrada será 1 ou geralmente não mais que 2, enquanto o número de canais de saída será 5 (surround esquerdo, esquerdo, central, direito, surround direito) ou 6 (5 canais surround mais 1 canal sub-woofer) ou ainda mais no caso de formatos multicanais 7.1 ou 9.1.
Como mostrado na Fig. 1, o sintetizador multicanais do invento inclui, como características essenciais, um pós-processador de parâmetro de reconstrução 10 e um reconstrutor multicanais 12. O pós-processador de parâmetro de reconstrução 10 opera para receber parâmetros de reconstrução quantizados e preferivelmente codificados para subseqúentes porções de tempo do canal de entrada. 0 pós-processador de parâmetro de reconstrução 10 opera para determinar um parâmetro de reconstrução pósprocessado em sua saída para uma porção de tempo a ser processada do sinal de entrada. O pós-processador de parâmetro de reconstrução opera de acordo com uma regra de pós-processamento, que é em determinadas configurações preferidas uma regra de filtração passa-baixo, uma regra de suavização ou alguma coisa do gênero. Em particular, o pós-processador 10 opera para determinar o parâmetro de reconstrução pós-processado, de maneira que um valor do parâmetro de reconstrução pós-processado seja diferente de um valor que possa ser obtido pela requantização de qualquer parâmetro de reconstrução quantizado de acordo com a regra de
Figure BRPI0511362B1_D0007
quantização.
O reconstrutor multicanais 12 ê usado para reconstruir uma porção de tempo de cada do número de canais de saída síntese, usando a porção de tempo a ser processada do canal de entrada e o parâmetro de reconstrução pós-processado.
Em configurações preferidas da presente invenção, os parâmetros de reconstrução quantizados são parâmetros BCC quantizados, como diferenças de níveis intercanais, diferenças de tempo intercanais ou parâmetros de coerência intercanais. Naturalmente, todos os demais parâmetros de reconstrução, como parâmetros estéreo de intensity stereo ou estéreo paramétrico podem ser processados também de acordo com a presente invenção.
Para resumir, o sistema do invento tem uma primeira entrada 14a para os parâmetros de re c ons t ruç ão quantizados e preferivelmente codificados associados com subsequentes porções de tempo do sinal de entrada. As subsequentes porções de tempo do sinal de entrada são recebidas em uma segunda entrada 14b, que está ligada ao reconstrutor multicanais 12 e preferivelmente a um analisar de sinais de entrada 16, que será posteriormente descrito. No lado da saída, o sintetizador multicanais do invento da Fig. 1 tem uma saída 18 do sinal de saída multicanais, que inclui vários canais de saída, cujo número é maior que o número de canais de entrada, caracterizado pelo fato de que o número de canais de entrada pode ser um único canal de entrada ou dois ou mais canais de entrada. Em qualquer caso, existem mais canais de saída do que de canais de entrada, já que os canais de saída sintetizados são formados pelo uso de um sinal de entrada por um lado, e as informações colaterais sob a forma de parâmetros de reconstrução pelo outro lado.
Figure BRPI0511362B1_D0008
A seguir, será feita referência à Fig. 4, que mostra um exemplo de taxa de bits. A taxa de bits inclui vários quadros 20a, 2 0b, 20c,... Cada quadro inclui uma porção de tempo do sinal de entrada indicado pelo retângulo superior de um quadro na Fig. 4. Além disso, cada quadro inclui um conjunto de parâmetros de reconstrução quantizados que estão associados com a porção de tempo, e ilustrados na Fig. 4 pelo retângulo inferior de cada quadro 20a, 20b, 20c. Como exemplo, o quadro 20b é considerado como a porção de sinal de entrada a ser processada, caracterizado pelo fato de que esse quadro tem porções de entrada precedentes, isto é, que formam o passado da porção de sinal de entrada a ser processada. Além disso, existem porções de sinal de entrada seguintes, que formam o futuro da porção de sinal de entrada a ser processada (a porção de entrada a ser processada é também denominada de porção do sinal de entrada real), enquanto as porções do sinal de entrada no passado são denominadas de porções do sinal de entrada anteriores, enquanto as porções do sinal no futuro são denominadas últimas porções do sinal de entrada.
A seguir, é feita referência à Fig. 2 com respeito a um estabelecimento completo codificador/decodificador, onde pode ser situado o sintetizador multicanais do invento.
A Fig. 2 mostra um lado do codificador 21 e um lado do decodificador 22. No codificador, N canais de entrada originais entram em um estágio de down mixer 23. O estágio de down mixer opera para reduzir o número de canais para, por ex., um único monocanal ou, possivelmente, para dois canais estéreo. A representação de sinal down mixed na saída do down mixer 23 é, então, enviada a um codificador de origem 24, o codificador de origem sendo implementado, por exemplo, como um decodificador mp3 ou como um codificador AAC produzindo uma taxa de bits de saída. 0 lado do codificador 21 ainda compreende um extrator de parâmetros
25, que, de acordo com a presente invenção, realiza uma análise BCC (bloco 116 na Fig. 11) e envia as diferenças de níveis intercanais quantizadas e preferivelmente Huffman codificadas (ICLD) . A taxa de bits na saída do codificador fonte 24, assim como os parâmetros de reconstrução quantizados produzidos pelo estrator de parâmetros 25 pode ser transmitida a um decodificador 22 ou pode ser armazenada para posterior transmissão a um decodificador, etc.
O decodificador 22 inclui um decodificador fonte
26, que opera para reconstruir um sinal da taxa de bits recebida (que se origina do codificador fonte 24) . Para isso, o decodificador fonte 26 fornece em sua saída, subsequentes porções de tempo do sinal de entrada para um up-mixer 12, que realiza a mesma função que o reconstrutor multicanais 12 da
Fig. 1. De preferência, essa funcionalidade é uma síntese
BCC como implementada pelo bloco 122 na Fig.
11.
multicanais do denominado de (ICLD)'1, que é
Cont rar i ament e invento ainda suavi zador de controlado pelo
Fig
11, o sintetizador compreende diferenças analisador o pós-processador 10, de níveis intercanais que preferivelmente faz uma análise de tonalidade do sinal de entrada.
Pode ser visto na Fig. 2 que existem parâmetros de reconstrução como as diferenças de níveis intercanais (iCLDs), que entram no suavizador ICLD, enquanto existe uma outra conexão entre o extrator de parâmetros 25 e o up-mixer 12. Por essa
3$ conexão by-pass, podem ser fornecidos outros parâmetros para reconstrução, que não precisam ser pôs-processados do extrator de parâmetros 25 para o up-mixer 12.
A Fig. 3 mostra uma configuração preferida do processamento do parâmetro de reconstrução com adaptação de sinal formado pelo analisador de sinais 16 e o suavizador ICLD 10.
O analisador de sinais 16 é formado a partir de uma unidade de determinação de tonalidade 16a e um subsequente dispositivo de limites 16b. Além disso, o pós-processador do parâmetro de reconstrução 10 da Fig. 2 inclui um filtro de suavização 10a e um comutador pós-processador 10b. O comutador pós-processador 10b é controlado pelo dispositivo de limites 16b, de maneira que o comutador é atuado, quando o dispositivo de limites 16b determinar que uma característica determinada de sinal do sinal de entrada, como a característica de tonalidade está em uma relação predeterminada com um determinado limite especificado. No presente caso, a situação é tal que o comutador é atuado para ficar na posição superior (como mostrado na Fig. 3) , quando a tonalidade de uma porção de sinal do sinal de entrada, e, em particular, uma determinada banda frequência de uma determinada porção de tempo do sinal de entrada tem uma tonalidade acima do limite de tonalidade. Nesse caso, o comutador 10b é acionado para ligar a saída do filtro de suavização 10a à entrada do reconstrutor multicanais 12 de maneira que diferenças intercanais quantizadas pós-processadas, mas ainda não inversamente quantizadas sejam fornecidas ao decodificador/reconstrutor multicanais/up-mixer 12.
Entretanto, quando o meio de determinação de tonalidade determina que uma determinada banda de freqüência da porção do tempo presente do sinal de entrada, isto é, uma determinada banda de frequência de uma porção de sinal de entrada a ser processada tem uma tonalidade menor do que um limite especificado, isto é, é transiente, o comutador é acionado de maneira que o filtro de suavização 10a seja contornado.
No caso anterior, o pós-processamento com adaptação de sinal pelo filtro de suavização 10a certifica que as alterações do parâmetro de reconstrução dos sinais transientes passam pelo estágio de pós-processamento sem modificações e provocam rápidas mudanças no sinal de saída reconstruído com respeito à imagem espacial, que corresponde às situações reais com alto grau de probabilidade de sinais transientes.
Deve ser notado aqui que a configuração da Fig.
3, isto é, a ativação de pós-processamento por um lado e o total desativação do pós-processamento por outro lado, isto é, uma decisão binária para pós-processamento ou não é somente uma configuração preferida, devido à sua simples e eficiente estrutura. Não obstante, deve ser notado que, em particular com respeito à tonalidade, essa característica de sinal não é somente um parâmetro qualificativo, mas também um parâmetro quantitativo, que pode estar normalmente entre 0 e 1. De acordo com o parâmetro determinado quantitativamente, o grau de suavização de um filtro de suavização ou, por exemplo, a freqüência de corte de um filtro passa-baixo pode ser determinada de maneira que, para sinais pesadamente tonais, é ativada uma pesada suavização, enquanto que para sinais que não forem tão tonais, é iniciada a suavização com um baixo grau de suavização.
Naturalmente, pode-se também detectar porções transientes e exagerar as mudanças nos parâmetros para valores entre valores quantizados pré-definidos ou índices de quantização, de mane i ra que, para s inai s processamento dos parâmetros mudança ainda mais exagerada pesadamente transientes, o pósde reconstrução resulta em uma da imagem espacial de um sinal multicanais. Nesse caso, pode ser ressaltada uma dimensão de etapa de quantização de 1 como instruída pelos subsequentes parâmetros de reconstrução para subsequentes porções de tempo para, por exemplo, 1,5; 1,4; 1,3; etc, que resulta em uma imagem espacial ainda mais dramaticamente modificada do sinal multicanais reconstruído.
Deve aqui ser notado que uma característica de sinal tonal, uma característica de sinal transiente ou outras características de sinal são somente exemplos de características de sinais, baseado em que pode ser feita uma análise de sinal para controlar um pós-processador de parâmetro de reconstrução. Em resposta a esse controle, o um pós-processador de parâmetro de reconstrução determina um parâmetro de reconstrução pós-processado com um valor diferente de quaisquer dos valores dos índices de quantização, por um lado, ou dos valores de requantização, por outro lado, como determinado por uma regra de quantização predeterminada.
Deve ser notado aqui que o pós-processamento de parâmetros de reconstrução dependente de uma característica de sinal, isto é, um pós-processamento de parâmetro com adaptação de sinal é somente opcional. Um pós-processamento independente de sinal também proporciona vantagens para muitos sinais. Uma determinada função de pós-processamento poderia, por exemplo, ser selecionada pelo usuário, de maneira que o usuário obtenha mudanças ampliadas (no caso de uma função de exagero) ou mudanças
4/ amortecidas (no caso de uma função de suavização) . De maneira alternativa, um pós-processamento independente de qualquer seleção do usuário e independente das características de sinal também pode fornecer algumas vantagens com respeito à resiliência de erros.
Torna-se claro que, especialmente no caso de grande dimensão da etapa de quantização, um erro de transmissão em um índice de quantização pode resultar em problemas bastante audíveis. Para tanto, pode-se fazer uma correção de erro para frente ou algo parecido, quando o sinal tiver que ser transmitido em canais passíveis de erros. De acordo com a presente invenção, o pós15 processamento correção de processamento parâmetros parâmetros resultando de de em disso, quando suavização, diferentes posteriores pode erros dos tornar óbvia parâmetros de a necessidade de códigos de para bi ts, já que o pós reconstrução com base nos reconstrução no passado resulta na detecção de reconstrução quantizados errôneos transmitidos, adequadas contra-medidas contra função de pós-processamento os dos esses erros. Além for uma função de parâmetros de reconstrução quant i z ado s muito parâmetros de reconstrução anteriores ou serão manipulados automaticamente como será depois ressaltado.
A Fig. 5 mostra uma configuração preferida do pós-processador do parâmetro de reconstrução 10 da Fig. 1. Em particular, é considerada a situação em que os parâmetros de 25 reconstrução quantizados são codificados. Aqui, os parâmetros de reconstrução quantizados codificados entram em um decodificador de entropia 10c, que envia a seqüência de parâmetros de reconstrução quantizados decodificados. Os parâmetros de reconstrução na saída do decodificador de entropia são quantizados, o que significa que não possuem um determinado valor útil, mas significa que indicam determinados índices de quantização ou níveis de quantização de uma determinada regra de quantização implementada por um quantizador inverso subsequente. 0 manipulador lOd pode ser, por exemplo, um filtro digital como um IIR (de preferência) ou um filtro FIR com características de filtro determinadas pela necessária função de pós-processamento. É preferível uma função de pós-processamento de filtração passa-baixo ou de suavização. Na saída do manipulador lOd, obtém-se uma seqüência de parâmetros de reconstrução quantizados manipulados, que não são somente números inteiros mas que são quaisquer números reais situados dentro da faixa determinada pela regra de quantização. Tais parâmetros de reconstrução quantizados manipulados podem ter valores de 1,1;
0,1; 0,5;...; comparados com os valores 1, 0, 1 antes do estágio lOd. A seqüência de valores na saída do bloco lOd é então enviada para um quantizador inverso ampliado lOe para obter os parâmetros de reconstrução pós-processados, que podem ser usados para a reconstrução de multicanais (ex. síntese BCC) no bloco 12 da Fig.
1.
Deve-se notar que o quantizador ampliado lOe é diferente de um quantizador inverso normal, já que um quantizador inverso normal somente mapeia cada de um número limitado de índices de quant i zação em um valor de saída especificado inversamente quantizado.
Os quant i zadore s inversos normais não podem mapear índices quantizadores não inteiros. 0 quantizador inverso ampliado lOe é portanto implementado para usar preferivelmente a mesma regra de quant i zação que uma lei de quantização linear ou logarítmica, mas pode aceitar entradas não inteiras para fornecer valores de saída que sejam diferentes dos valores obtidos somente usando entradas inteiras.
Com respeito à presente invenção, basicamente não faz diferença se a manipulação é feita antes da requantização (ver Fig. 5) ou depois da requantização (ver Fig. 6a, Fig. 6b) . No último caso, o quantizador inverso somente deve ser um quantizador inverso para frente normal, que é diferente do quantizador inverso ampliado lOe da Fig. 5, como acima ressaltado. Naturalmente, a seleção entre a Fig. 5 e a Fig. 6a será uma escolha dependente da determinada implementação. Para a presente implementação BCC, é preferível a configuração da Fig. 5, já que é mais compatível com os algoritmos BCC existentes. Não obstante, pode ser diferente para outras aplicações.
A Fig. 6b mostra uma configuração onde o quantizador inverso ampliado lOe na Fig. 6a é substituído por um quantizador inverso para frente e um mapeador lOg para o mapeamento de acordo com uma curva linear ou de preferência não linear. Esse mapeador pode ser implementado em hardware ou em software, tal como um circuito para fazer uma operação matemática ou como uma tabela de consulta. A manipulação de dados usando, p. ex., o suavizador lOg pode ser feita antes do mapeador lOg ou depois do mapeador lOg ou em ambos os locais combinados. Essa configuração ê preferida, quando é feito o pós-processamento no domínio do quantizador inverso, já que todos os elementos 10 f, lOh, lOg podem ser implementados usando componentes para frente como circuitos de rotinas de software.
Em geral, o pós-processador 10 é implementado como pós-processador da maneira indicada na Fig. 7a, que recebe todos ou uma seleção dos parâmetros de reconstrução quantizados reais, parâmetros de reconstrução futuros ou parâmetros de reconstrução quantizados passados. No caso em que o pósprocessador somente recebe pelo menos um parâmetro de reconstrução passado e o parâmetro de reconstrução real, o pós-processador atuara como um filtro passa-baixo. Entretanto, quando o pósprocessador 10 recebe um parâmetro de reconstrução quantizado futuro, que não é possível para aplicações em tempo real, mas sendo possível em todas as demais aplicações, o pós-processador pode fazer uma interpolação entre o parâmetro de reconstrução quantizado futuro e o presente ou um passado para, por exemplo suavizar o curso de tempo de um parâmetro de reconstrução, por exemplo para uma determinada banda de freqüência.
Como ressaltado acima, a manipulação de dados para superar os problemas devido às dimensões da etapa de quantização em um ambiente de quantização grosseira também pode ser feita em uma quantidade derivada de um parâmetro de reconstrução anexo ao canal base no sinal multicanais parametricamente codificado. Quando, por exemplo, o parâmetro de reconstrução quantizado for um parâmetro de diferença (ICLD), esse parâmetro pode ser inversamente quantizado sem qualquer modificação. Então, um valor de nível absoluto de um canal de saída pode ser derivado e ser feita a manipulação dos dados do invento no valor absoluto. Esse procedimento também resulta na redução dos problemas do invento, enquanto for feita uma manipulação de dados no caminho de processamento entre o parâmetro de reconstrução quantizado e a reconstrução real, de maneira que um valor do parâmetro de reconstrução pós-processado ou da quantidade pós-processada seja diferente de um valor que pode ser obtido usando a requantização de acordo com a regra de quantização, isto ê, sem manipulação para superar a limitação de dimensão da etapa.
São possíveis e utilizadas na técnica muitas funções de mapeamento para derivar a quantidade eventualmente manipulada do parâmetro de reconstrução quantizado, caracterizado pelo fato de que essas funções de mapeamento incluem funções para mapear com exclusividade um valor de entrada para um valor de saída de acordo com uma regra de mapeamento para obter uma quantidade não pós-processada, que é então pós-processada para obter a quantidade pós-processada usada no algoritmo de reconstrução de multicanais (síntese).
A seguir, é feita referência ã Fig. 8 para ilustrar as diferenças entre um quantizador inverso ampliado lOe da Fig. 5 e um quantizador inverso para frente lOf na Fig. 6a. Para tanto, a ilustração da Fig. 8 mostra, no eixo horizontal, um eixo de valor de entrada para valores não quantizados. 0 eixo vertical ilustra os níveis de quantização ou índices de quantização, que são de preferência inteiros tendo um valor de 0, 1, 2, 3. Deve ser aqui notado que o quantizador da Fig. 8 não resultará em nenhum valor entre 0eloule2. O mapeamento desses níveis de quantização é controlado pela função com formato de escada, de maneira que os valores entre -10 e 10, por exemplo, são mapeados para 0, enquanto os valores entre 10 e 20 são quantizados para 1, etc.
Uma possível função de quantização inversa é mapear um nível de quantização de 0 para um valor quantizado inversamente de 0. Um nível de quantização de 1 seria mapeado para um valor quantizado inversamente de 10. Analogamente, um nível de quantização de 2 seria mapeado para um valor quantizado inversamente de 20, por exemplo. Portanto, a requantização é controlada por uma função de quantização inversa indicada por um número de referência 31. Deve ser notado que, para um quantizador inverso para frente, somente os pontos de cruzamento da linha 30 e a linha 31 são possíveis. Isto significa que, para um quantizador inverso para frente tendo uma regra de quantização inversa da Fig.
somente valores de 0, 10, 20, 30 podem ser obtidos pela requantização.
Isto é diferente no quantizador inverso ampliado 10e, já que o quantizador inverso ampliado recebe, como entrada, valores entre 0 e 1 ou 1 e 2 como o valor 0,5. A requantização avançada do valor 0,5 obtida pelo manipulador lOd resultará em um valor de saída quantizado inversamente de 5, isto é, em um parâmetro de reconstrução pós-processado que tem um valor diferente de um valor que pode ser obtido pela requantização de acordo com a regra de quantização. Apesar da regra de quantização normal somente admitir valores de 0 ou 10, o quantizador inverso do invento, funcionando de acordo com a função de quantização inversa 31 resulta em um valor diferente, isto é, o valor 5 como indicado na Fig. 8.
Apesar do quantizador inverso para frente mapear níveis de quantização inteiros somente para níveis quantizados, o quantizador inverso ampliado recebe níveis quantizadores não inteiros para mapear esses valores em valores quantizados inversamente entre os valores determinados pela regra de quantização inversa.
A Fig. 9 mostra o impacto do pós-processamento do invento na configuração da Fig. 5. A Fig. 9a mostra uma seqüência de parâmetros de reconstrução quantizados variando entre 0 e 3. A
Fig. 9b mostra uma seqüência de parâmetros de reconstrução pósprocessados, que também são denominados de índices de quantização modificados, quando a forma de onda na Fig. 9a entra em um filtro passa-baixo (suavização) . Deve ser notado aqui que os aumentos/reduções no momento do tempo 1, 4, 6, 8, 9 e 10 são reduzidos na configuração da Fig. 9b. Deve ser notado com ênfase que o pico entre o instante do tempo 8 e o instante do tempo 9, que pode ser um problema, ê amortecido por uma etapa de quantização total. O amortecimento desses valores extremos pode, 10 entretanto, ser controlado por um grau de pós-processamento de acordo com um valor de tonalidade quantitativa como ressaltado acima.
A presente invenção tem vantagens devido ao pósprocessamento do invento suavizar as flutuações ou suavizar valores extremos curtos. A situação surge em especial em um caso, onde as porções de sinal de vários canais de entrada tendo energias similares são superposicionadas em uma banda de freqüência de um sinal, isto é, o canal base ou o canal do sinal de entrada. Essa banda de freqüência é então, por porção de tempo 20 e dependendo da situação do instante, misturada aos respectivos canais de saída de maneira altamente flutuante. Entretanto, do ponto de vista psico-acústico seria melhor, suavizar essas flutuações, já que essas flutuações não contribuem substancialmente para a detecção de uma localização de uma fonte, 25 mas afeta a impressão de audição subjetiva de forma negativa.
De acordo com uma configuração preferida da presente invenção, esses problemas audíveis são reduzidos ou mesmo eliminados sem incorrer em perdas de qualidade em um local diferente no sistema ou sem exigir uma maior resolução/quantização (e, portanto, uma maior taxa de dados) dos parâmetros de reconstrução transmitidos. A presente invenção atinge esse objetivo fazendo uma modificação com adaptação de sinal (suavização) dos parâmetros sem influenciar substancialmente ” 5 importantes sinalizações de detecção de localização espacial.
As súbitas mudanças que ocorrem na característica do sinal de saída reconstruído resultam em problemas audíveis, em particular para sinais de áudio tendo característica estacionária altamente constante. Este ê o caso com os sinais tonais. Portanto,
10 é importante prover uma transição suavizadora entre os
parâmetros de reconstrução quantizados desses sinais. Isto pode
ser feito, por exemplo, por suavização, interpolação, etc.
Além disso, essa modificação de valor de
parâmetro pode introduzir distorções audíveis em outros tipos de 15 sinais de áudio. É o caso para os sinais, que incluem rápidas flutuações em suas características. Essa característica pode ser encontrada na parte transiente ou ataque de um instrumento de percussão. Nesse caso, a presente invenção provê a desativação da suavização do parâmetro.
0 Isso é obtido pelo pós-processamento dos parâmetros de reconstrução quantizados transmitidos de forma de adaptação de sinal.
A adaptatividade pode ser linear ou não linear.
Quando a adaptatividade é não linear, é feito um procedimento de 25 limite como descrito na Fig. 3.
Outro critério para o controle da adaptatividade, é uma determinação da estacionariedade de uma característica de sinal. Uma certa forma para a determinação da estacionariedade de uma característica de sinal é a avaliação do envelope do sinal ou, em particular, da tonalidade do sinal. Deve ser aqui notado, que a tonalidade pode ser determinada para toda a faixa de freqüência ou, de preferência, individualmente para diferentes bandas de freqüência de um sinal de áudio.
A presente invenção provoca uma redução, ou mesmo a eliminação de problemas, que foram inevitáveis até o presente, sem incorrer em um aumento da taxa necessária de dados para a transmissão dos valores de parâmetro.
Como mencionado acima com respeito às figuras 2 e
3, a configuração preferida da presente invenção faz uma suavização das diferenças de níveis intercanais, quando a porção de sinal em consideração tem característica tonal. As diferenças de níveis intercanais, que são calculadas e quantizadas em um codificador são enviadas a um decodificador para a realização de uma operação de suavização com adaptação de sinal. A componente de adaptação é uma determinação de tonalidade em conexão com uma determinação de limite, que comuta na filtração das diferenças de níveis intercanais para componentes espectrais tonais, e que desliga esse pós-processamento para componentes espectrais do tipo ruído e transientes. Nessa configuração, não são necessárias outras informações colaterais de um codificador para a realização de algoritmos adaptativos de suavização.
Deve ser aqui notado que o pós-processamento do invento também pode ser usado para outros conceitos de codificação paramétrica de sinais multicanais como para o estéreo paramétrico MP3/AAC, MP3 surround e métodos similares.

Claims (25)

1. Sintetizador multicanais para a geração de um sinal de salda a partir de um sinal de entrada, o sinal de entrada tendo pelo menos um canal de entrada e uma seqüência de parâmetros de reconstrução quantizados, os parâmetros de reconstrução quantizados sendo quantizados de acordo com uma regra de quantização, e sendo associados com subseqüentes porções de tempo do canal de entrada, o sinal de salda tendo um número de canais de salda sintetizados, e o número de canais de salda sintetizados sendo maior que 1 ou maior que o número de canais de entrada, compreendendo: um pós-processador (10) para a determinação de um parâmetro de reconstrução pós-processado ou uma quantidade pósprocessada derivada do parâmetro de reconstrução de uma porção de tempo do sinal de entrada a ser processado, caracterizado pelo fato de que o pós-processador (10) opera para determinar o parâmetro de reconstrução pós-processado ou a quantidade pósprocessada, de maneira que um valor do parâmetro de reconstrução pós-processado ou da quantidade pós-processada seja diferente de um valor que pode ser obtido usando a requantização de acordo com a regra de quantização; e um reconstrutor multicanais (12) para a reconstrução de uma porção de tempo de um número de canais de salda sintetizados usando a porção de tempo do canal de entrada e o parâmetro de reconstrução pós-processado ou o valor pósprocessado .
2. Sintetizador multicanais de acordo com a reivindicação 1, compreendendo ainda: um analisador de sinais de entrada (16) para a análise do sinal de entrada, para determinar
Petição 870180065789, de 30/07/2018, pág. 7/14
2/8 uma característica de sinal de uma porção de tempo do sinal de entrada a ser processado; e caracterizado pelo fato de que o pósprocessador (10) opera para determinar o parâmetro de reconstrução pós-processado dependendo da característica do sinal.
3. Sintetizador multicanais de acordo com a reivindicação 2, caracterizado pelo fato de que o pós-processador (10) opera para determinar o parâmetro de reconstrução pósprocessado, quando for determinada uma característica predeterminada de sinal pelo analisador de sinais de entrada (16), e para contornar o pós-processador (10), quando a característica predeterminada de sinal não for determinada pelo analisador de sinais de entrada para uma porção de tempo do sinal de entrada.
4. Sintetizador multicanais de acordo com a reivindicação 3, caracterizado pelo fato de que o analisador de sinais de entrada (16) opera para determinar a característica de sinal como característica predeterminada de sinal, quando um valor de característica de sinal estiver em relação especificada com um limite.
5. Sintetizador multicanais de acordo com a reivindicação 2, 3 ou 4 caracterizado pelo fato de que a característica de sinal é uma característica de tonalidade ou uma característica transiente da porção do sinal de entrada a ser processado.
6. Sintetizador multicanais de acordo com qualquer uma das reivindicações 1 a 5, caracterizado pelo fato de que o pós-processador (10) opera para realizar uma função de suavização, de maneira que uma sequência de parâmetros de reconstrução pós-processados seja mais suave no tempo quando
Petição 870180065789, de 30/07/2018, pág. 8/14
3/8 comparada com uma seqüência de parâmetros de reconstrução quantizados não pós-processados inversamente.
7. Sintetizador multicanais de acordo com qualquer uma das reivindicações 1 a 6, caracterizado pelo fato de que o pós-processador (10) opera para realizar uma função de suavização, e em que o pós-processador (10) inclui um filtro digital tendo características de passa-baixo, o filtro recebendo como entrada pelo menos um parâmetro de reconstrução associado a uma porção anterior de tempo do sinal de entrada.
8. Sintetizador multicanais de acordo com qualquer uma das reivindicações 1 a 7, caracterizado pelo fato de que o pós-processador (10) opera para realizar uma função de interpolação usando um parâmetro de reconstrução associado a pelo menos uma porção anterior de tempo ou usando um parâmetro de reconstrução associado a pelo menos uma porção subseqüente de tempo.
9. Sintetizador multicanais de acordo com qualquer uma das reivindicações 1 a 8, caracterizado pelo fato de que o pós-processador (10) opera, para determinar um parâmetro de reconstrução manipulado como não sendo coincidente com qualquer nível de quantização definido pela regra de quantização, e para quantizar inversamente o parâmetro de reconstrução manipulado usando um quantizador inverso operacional para mapear o parâmetro de reconstrução manipulado em um parâmetro de reconstrução manipulado inversamente quantizado não sendo coincidente com um valor quantizado inversamente definido pelo mapeamento de qualquer nível de quantização pelo quantizador inverso.
10. Sintetizador multicanais de acordo com a
Petição 870180065789, de 30/07/2018, pág. 9/14
4/8 reivindicação 9, caracterizado pelo fato de que a regra de quantização é uma regra de quantização logarítmica.
11. Sintetizador multicanais de acordo com qualquer uma das reivindicações 1 a 11, caracterizado pelo fato de que o pós-processador (10) opera para quantizar inversamente os parâmetros de reconstrução quantizados de acordo com a regra de quantização, para manipular os parâmetros de reconstrução quantizados inversamente obtidos, e mapear os parâmetros manipulados de acordo com uma função linear ou não linear.
12. Sintetizador multicanais de acordo com qualquer uma das reivindicações 1 a 11, caracterizado pelo fato de que o pós-processador (10) opera para quantizar inversamente parâmetros de reconstrução quantizados de acordo com a regra de quantização, para mapear os parâmetros quantizados inversamente obtidos de acordo com uma função linear ou não linear; e para manipular os parâmetros de reconstrução obtidos mapeados.
13. Sintetizador multicanais de acordo com qualquer uma das reivindicações 1 a 12, caracterizado pelo fato de que o pós-processador (10) opera para um parâmetro de reconstrução quantizado inversamente associado à porção subseqüente de tempo do sinal de entrada de acordo com a regra de quantização, e onde o pós-processador (10) ainda opera para determinar um parâmetro de reconstrução pós-processado baseado em pelo menos um parâmetro de reconstrução quantizado inversamente por pelo menos uma porção de tempo precedente do sinal de entrada.
14. Sintetizador multicanais de acordo com qualquer uma das reivindicações 1 a 13, caracterizado pelo fato de que uma porção de tempo do sinal de entrada tem associada a si
Petição 870180065789, de 30/07/2018, pág. 10/14
5/8 uma pluralidade de parâmetros de reconstrução quantizados para as diferentes bandas de freqüência do sinal de entrada, e em que o pós-processador (10) opera para determinar os parâmetros de reconstrução pós-processados das diferentes bandas de freqüência do sinal de entrada.
15. Sintetizador multicanais de acordo com qualquer uma das reivindicações 1 a 14, caracterizado pelo fato de que o sinal de entrada é um espectro soma obtido pela combinação de pelo menos dois canais originais de um sinal de áudio multicanais, e onde o parâmetro de reconstrução quantizado é um parâmetro de diferenças de níveis intercanais, um parâmetro de diferença de tempo intercanais, um parâmetro de diferença de fases intercanais ou um parâmetro de coerência intercanais.
16. Sintetizador multicanais de acordo com qualquer uma das reivindicações 2 a 15, caracterizado pelo fato de que o analisador de canal de entrada (16) opera para determinar um grau para indicar quantitativamente quanto o sinal de entrada tem a característica de sinal, e onde o pós-processador (10) opera para fazer um pós-processamento com uma potência grau dependente.
17. Sintetizador multicanais de acordo com qualquer uma das reivindicações 1 a 16, caracterizado pelo fato de que o pós-processador (10) opera para usar o parâmetro de reconstrução quantizado associado com a porção de tempo a ser processada, ao determinar o parâmetro de reconstrução pósprocessado para a porção de tempo a ser processada.
18. Sintetizador multicanais de acordo com qualquer uma das reivindicações 1 a 17, caracterizado pelo fato de que a regra de quantização é tal que uma diferença entre dois
Petição 870180065789, de 30/07/2018, pág. 11/14
6/8 níveis adjacentes de quantização é maior do que a diferença entre dois números determinados pela precisão de processador de um processador para a realização de cálculos numéricos.
19. Sintetizador multicanais de acordo com qualquer uma das reivindicações 1 a 18, caracterizado pelo fato de que os parâmetros de reconstrução quantizados são codificados por entropia e associados com a porção de tempo de uma forma codificada por entropia, e onde o pós-processador (10) opera para decodificar, por entropia, o parâmetro de reconstrução quantizado codificado por entropia usado para a determinação dos parâmetros de reconstrução pós-processados.
20. Sintetizador multicanais de acordo com a reivindicação 7, caracterizado pelo fato de que o filtro digital (10a) é um filtro IIR.
21. Sintetizador multicanais de acordo com qualquer uma das reivindicações 1 a 20, caracterizado pelo fato de que o pós-processador (10) opera para implementar uma regra de pós-processamento de maneira que uma diferença entre os parâmetros de reconstrução pós-processados das subseqüentes porções de tempo é menor que uma diferença entre parâmetros de reconstrução não pós-processados derivados dos parâmetros de reconstrução quantizados associados com subseqüentes porções de tempo por requantização.
22. Sintetizador multicanais de acordo com qualquer uma das reivindicações 1 a 21, caracterizado pelo fato de que a quantidade pós-processada se deriva do parâmetro de reconstrução quantizado somente usando uma função de mapeamento, mapeando exclusivamente um valor de entrada em um valor de saída
Petição 870180065789, de 30/07/2018, pág. 12/14
7/8 de acordo com uma regra de mapeamento para obter uma quantidade não pós-processada, e onde o pós-processador opere para pósprocessar a quantidade não pós-processada para obter a quantidade pós-processada.
23. Sintetizador multicanais de acordo com qualquer uma das reivindicações 1 a 22, caracterizado pelo fato de que o parâmetro de reconstrução quantizado é um parâmetro de diferença, indicando uma diferença parametrizada entre duas quantidades absolutas associadas com os canais de entrada, e onde a quantidade pós-processada é um valor absoluto usado para reconstruir um canal de salda correspondente a um dos canais de entrada.
24. Sintetizador multicanais de acordo com qualquer uma das reivindicações 1 a 23, caracterizado pelo fato de que o parâmetro de reconstrução quantizado é uma diferença de nivel intercanais, e onde a quantidade pós-processada indica um nivel absoluto de um canal de salda, ou onde o parâmetro de reconstrução quantizado é uma diferença de tempo intercanais, e onde a quantidade pós-processada indica uma referência de tempo absoluto de um canal de salda, ou onde o parâmetro de reconstrução quantizado é uma medida de coerência intercanais, e onde a quantidade pós-processada indica um nivel de coerência absoluto de um canal de salda, ou onde o parâmetro de reconstrução quantizado é uma diferença de fase intercanais, e onde a quantidade pós-processada indica um valor de fase absoluto de um canal de salda.
25. Método para a geração de um sinal de salda a partir de um sinal de entrada, o sinal de entrada caracterizado
Petição 870180065789, de 30/07/2018, pág. 13/14
8/8 pelo fato de que tem pelo menos um canal de entrada e uma seqüência de parâmetros de reconstrução quantizados, os parâmetros de reconstrução quantizados sendo quantizados de acordo com uma regra de quantização, e estando associados a subseqüentes porções de tempo do canal de entrada, o canal de saída tendo um número de canais de saída sintetizados, e o número de canais de saída sintetizados sendo maior que 1 ou maior que um número de canais de entrada, compreendendo: determinar (10) um parâmetro de reconstrução pós-processado ou uma quantidade pós-processada derivada do parâmetro de reconstrução para uma porção de tempo do sinal de entrada a ser processado, de maneira que um valor do parâmetro de reconstrução pós-processado ou a quantidade pósprocessada seja diferente de um valor que possa ser obtido usando requantização de acordo com a regra de quantização; e reconstruir (12) uma porção de tempo do número de canais de saída sintetizados usando a porção de tempo do canal de entrada e o parâmetro de reconstrução pós-processado ou o valor pós-processado.
BRPI0511362A 2004-06-30 2005-06-13 sintetizador multicanais e método para a geração de um sinal de saída multicanais BRPI0511362B1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/883,538 US8843378B2 (en) 2004-06-30 2004-06-30 Multi-channel synthesizer and method for generating a multi-channel output signal
PCT/EP2005/006315 WO2006002748A1 (en) 2004-06-30 2005-06-13 Multi-channel synthesizer and method for generating a multi-channel output signal

Publications (2)

Publication Number Publication Date
BRPI0511362A BRPI0511362A (pt) 2007-12-04
BRPI0511362B1 true BRPI0511362B1 (pt) 2018-12-26

Family

ID=34971777

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0511362A BRPI0511362B1 (pt) 2004-06-30 2005-06-13 sintetizador multicanais e método para a geração de um sinal de saída multicanais

Country Status (18)

Country Link
US (1) US8843378B2 (pt)
EP (1) EP1649723B1 (pt)
JP (1) JP4712799B2 (pt)
KR (1) KR100913987B1 (pt)
CN (1) CN1954642B (pt)
AT (1) ATE394901T1 (pt)
AU (1) AU2005259618B2 (pt)
BR (1) BRPI0511362B1 (pt)
CA (1) CA2569666C (pt)
DE (1) DE602005006495D1 (pt)
ES (1) ES2307188T3 (pt)
HK (1) HK1090504A1 (pt)
IL (1) IL178670A (pt)
MX (1) MXPA06014968A (pt)
NO (1) NO338980B1 (pt)
PT (1) PT1649723E (pt)
RU (1) RU2345506C2 (pt)
WO (1) WO2006002748A1 (pt)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4612787B2 (ja) * 2003-03-07 2011-01-12 キヤノン株式会社 画像データの暗号化装置の制御方法及び画像データ変換装置の制御方法、及び、それらの装置、並びにコンピュータプログラム及びコンピュータ可読記憶媒体
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
ES2387256T3 (es) * 2004-07-14 2012-09-19 Koninklijke Philips Electronics N.V. Método, dispositivo, aparato codificador, aparato decodificador y sistema de audio
JP4892184B2 (ja) * 2004-10-14 2012-03-07 パナソニック株式会社 音響信号符号化装置及び音響信号復号装置
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
EP1851866B1 (en) * 2005-02-23 2011-08-17 Telefonaktiebolaget LM Ericsson (publ) Adaptive bit allocation for multi-channel audio encoding
EP1858006B1 (en) * 2005-03-25 2017-01-25 Panasonic Intellectual Property Corporation of America Sound encoding device and sound encoding method
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
US8577686B2 (en) * 2005-05-26 2013-11-05 Lg Electronics Inc. Method and apparatus for decoding an audio signal
JP2009518659A (ja) * 2005-09-27 2009-05-07 エルジー エレクトロニクス インコーポレイティド マルチチャネルオーディオ信号の符号化/復号化方法及び装置
EP1974347B1 (en) * 2006-01-19 2014-08-06 LG Electronics Inc. Method and apparatus for processing a media signal
WO2007089129A1 (en) * 2006-02-03 2007-08-09 Electronics And Telecommunications Research Institute Apparatus and method for visualization of multichannel audio signals
KR100921453B1 (ko) * 2006-02-07 2009-10-13 엘지전자 주식회사 부호화/복호화 장치 및 방법
ATE527833T1 (de) 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
US7930173B2 (en) * 2006-06-19 2011-04-19 Sharp Kabushiki Kaisha Signal processing method, signal processing apparatus and recording medium
DE102006030276A1 (de) 2006-06-30 2008-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines gefilterten Aktivitätsmusters, Quellentrenner, Verfahren zum Erzeugen eines bereinigten Audiosignals und Computerprogramm
KR100763919B1 (ko) * 2006-08-03 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2 채널의 바이노럴 신호로 복호화하는 방법 및 장치
US20080235006A1 (en) * 2006-08-18 2008-09-25 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
JP4769673B2 (ja) * 2006-09-20 2011-09-07 富士通株式会社 オーディオ信号補間方法及びオーディオ信号補間装置
JP5232791B2 (ja) 2006-10-12 2013-07-10 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びその方法
DE102006051673A1 (de) * 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
EP2092516A4 (en) 2006-11-15 2010-01-13 Lg Electronics Inc METHOD AND APPARATUS FOR AUDIO SIGNAL DECODING
JP5463143B2 (ja) 2006-12-07 2014-04-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及びその装置
WO2008069594A1 (en) 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US20100119073A1 (en) * 2007-02-13 2010-05-13 Lg Electronics, Inc. Method and an apparatus for processing an audio signal
US8908873B2 (en) * 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8290167B2 (en) * 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
KR101505831B1 (ko) * 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
RU2565008C2 (ru) 2008-03-10 2015-10-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал
WO2010016270A1 (ja) * 2008-08-08 2010-02-11 パナソニック株式会社 量子化装置、符号化装置、量子化方法及び符号化方法
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
WO2010036062A2 (en) * 2008-09-25 2010-04-01 Lg Electronics Inc. A method and an apparatus for processing a signal
US8346380B2 (en) * 2008-09-25 2013-01-01 Lg Electronics Inc. Method and an apparatus for processing a signal
US8346379B2 (en) * 2008-09-25 2013-01-01 Lg Electronics Inc. Method and an apparatus for processing a signal
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
KR101499785B1 (ko) 2008-10-23 2015-03-09 삼성전자주식회사 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
ES2644520T3 (es) * 2009-09-29 2017-11-29 Dolby International Ab Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
ES2461172T3 (es) * 2009-10-21 2014-05-19 Dolby International Ab Aparato y procedimiento para generar una señal de audio de alta frecuencia usando sobremuestreo adaptativo
MY154641A (en) * 2009-11-20 2015-07-15 Fraunhofer Ges Forschung Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear cimbination parameter
AU2011237882B2 (en) 2010-04-09 2014-07-24 Dolby International Ab MDCT-based complex prediction stereo coding
EP2464146A1 (en) 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a pre-calculated reference curve
EP3035330B1 (en) 2011-02-02 2019-11-20 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal
US9299355B2 (en) 2011-08-04 2016-03-29 Dolby International Ab FM stereo radio receiver by using parametric stereo
KR101621287B1 (ko) 2012-04-05 2016-05-16 후아웨이 테크놀러지 컴퍼니 리미티드 다채널 오디오 신호 및 다채널 오디오 인코더를 위한 인코딩 파라미터를 결정하는 방법
ES2560402T3 (es) * 2012-04-05 2016-02-18 Huawei Technologies Co., Ltd Método para la codificación y la decodificación de audio espacial paramétrica, codificador de audio espacial paramétrico y decodificador de audio espacial paramétrico
US9460723B2 (en) * 2012-06-14 2016-10-04 Dolby International Ab Error concealment strategy in a decoding system
US9319790B2 (en) 2012-12-26 2016-04-19 Dts Llc Systems and methods of frequency response correction for consumer electronic devices
CN103533123B (zh) * 2013-09-23 2018-04-06 陕西烽火电子股份有限公司 一种飞机用多接收通道通话静噪方法
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US20190096410A1 (en) * 2016-03-03 2019-03-28 Nokia Technologies Oy Audio Signal Encoder, Audio Signal Decoder, Method for Encoding and Method for Decoding
BR112018068892A2 (pt) * 2016-03-18 2019-01-22 Fraunhofer Ges Forschung aparelho para reconstrução de fase a partir de um espectrograma de magnitude de um sinal de áudio, sistema, codificador e método para reconstrução de fase a partir de um espectrograma de magnitude de um sinal de áudio
CN107452387B (zh) * 2016-05-31 2019-11-12 华为技术有限公司 一种声道间相位差参数的提取方法及装置
CN107731238B (zh) 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
US5675701A (en) * 1995-04-28 1997-10-07 Lucent Technologies Inc. Speech coding parameter smoothing method
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
DE19628293C1 (de) * 1996-07-12 1997-12-11 Fraunhofer Ges Forschung Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion
US6130949A (en) * 1996-09-18 2000-10-10 Nippon Telegraph And Telephone Corporation Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
JP3266178B2 (ja) * 1996-12-18 2002-03-18 日本電気株式会社 音声符号化装置
US6307941B1 (en) * 1997-07-15 2001-10-23 Desper Products, Inc. System and method for localization of virtual sound
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
JP3657120B2 (ja) * 1998-07-30 2005-06-08 株式会社アーニス・サウンド・テクノロジーズ 左,右両耳用のオーディオ信号を音像定位させるための処理方法
JP4008607B2 (ja) * 1999-01-22 2007-11-14 株式会社東芝 音声符号化/復号化方法
JP3558031B2 (ja) * 2000-11-06 2004-08-25 日本電気株式会社 音声復号化装置
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US20030220801A1 (en) * 2002-05-22 2003-11-27 Spurrier Thomas E. Audio compression method and apparatus
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
ES2273216T3 (es) * 2003-02-11 2007-05-01 Koninklijke Philips Electronics N.V. Codificacion de audio.
JP2006521577A (ja) * 2003-03-24 2006-09-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャネル信号を表す主信号と副信号の符号化
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal

Also Published As

Publication number Publication date
AU2005259618B2 (en) 2008-05-22
AU2005259618A1 (en) 2006-01-12
CN1954642B (zh) 2010-05-12
CA2569666C (en) 2013-07-16
RU2007103341A (ru) 2008-08-10
DE602005006495D1 (de) 2008-06-19
KR20070028481A (ko) 2007-03-12
US20060004583A1 (en) 2006-01-05
WO2006002748A1 (en) 2006-01-12
CN1954642A (zh) 2007-04-25
PT1649723E (pt) 2008-07-28
CA2569666A1 (en) 2006-01-12
HK1090504A1 (en) 2006-12-22
JP2008504578A (ja) 2008-02-14
BRPI0511362A (pt) 2007-12-04
ES2307188T3 (es) 2008-11-16
EP1649723B1 (en) 2008-05-07
RU2345506C2 (ru) 2009-01-27
MXPA06014968A (es) 2007-02-08
NO338980B1 (no) 2016-11-07
IL178670A (en) 2011-10-31
US8843378B2 (en) 2014-09-23
IL178670A0 (en) 2007-02-11
ATE394901T1 (de) 2008-05-15
NO20070560L (no) 2007-03-30
JP4712799B2 (ja) 2011-06-29
KR100913987B1 (ko) 2009-08-25
EP1649723A1 (en) 2006-04-26

Similar Documents

Publication Publication Date Title
BRPI0511362B1 (pt) sintetizador multicanais e método para a geração de um sinal de saída multicanais
BRPI0605641B1 (pt) equipamento e método para a geração de sinal de controle sintetizador multicanais e equipamento e método para sintetizar multicanais
KR100803344B1 (ko) 멀티채널 출력 신호를 구성하고 다운믹스 신호를 생성하기위한 장치 및 방법
RU2409912C9 (ru) Декодирование бинауральных аудиосигналов
JP4521032B2 (ja) 空間音声パラメータの効率的符号化のためのエネルギー対応量子化
ES2609449T3 (es) Decodificación de audio
BRPI0608036B1 (pt) Dispositivo e método para a geração de um sinal estéreo codificado de uma peça de áudio ou fluxo de dados de áudio
US20120134511A1 (en) Multichannel audio coder and decoder
BRPI0516405B1 (pt) Conformação individual de canal para esquemas bcc e similares
US20110206223A1 (en) Apparatus for Binaural Audio Coding
PT1829026T (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial
BRPI0516392B1 (pt) conformação de som difuso para esquemas bcc e similares
BRPI0520053B1 (pt) Esquema de codificador/decodificador de canais múltiplos quase-transparente ou transparente
BRPI0515623B1 (pt) Dispositivo e método para a geração de um sinal multicanais codificado e dispositivo e método para a decodificação de um sinal multicanais codificado
WO2010037426A1 (en) An apparatus
JP2007104601A (ja) マルチチャンネル符号化における頭部伝達関数をサポートするための装置
BRPI0518507B1 (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial

Legal Events

Date Code Title Description
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 26/12/2018, OBSERVADAS AS CONDICOES LEGAIS.