BRPI0304540B1 - Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign - Google Patents

Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign Download PDF

Info

Publication number
BRPI0304540B1
BRPI0304540B1 BRPI0304540-4A BRPI0304540A BRPI0304540B1 BR PI0304540 B1 BRPI0304540 B1 BR PI0304540B1 BR PI0304540 A BRPI0304540 A BR PI0304540A BR PI0304540 B1 BRPI0304540 B1 BR PI0304540B1
Authority
BR
Brazil
Prior art keywords
signal
spatial
audio
audio channels
parameters
Prior art date
Application number
BRPI0304540-4A
Other languages
English (en)
Inventor
Jeroen Breebaart Dirk
Leonardus Josephus Dimphina Elisabeth Van De Par Steven
Original Assignee
Koninklijke Philips N. V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=29255420&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=BRPI0304540(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips N. V filed Critical Koninklijke Philips N. V
Publication of BRPI0304540B1 publication Critical patent/BRPI0304540B1/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

"métodos para codificar um sinal de áudio, e para decodificar um sinal de áudio codificado, codificador para codificar um sinal de áudio, aparelho para fornecer um sinal de áudio, sinal de áudio codificado, meio de armazenagem, e, decodificador para decodificar um sinal de áudio codificado". em resumo, este pedido descreve uma descrição paramétrica motivada psico acusticamente dos atributos espaciais de sinais de áudio de múltiplos canais. esta descrição paramétrica permite fortes reduções de taxa de bit em codificadores de áudio, uma vez que somente um sinal monaural tem que ser transmitido, combinado com parâmetros (quantizados) que descrevem as propriedades espaciais do sinal. o decodificador pode formar a quantidade original de canais de áudio aplicando os parâmetros espaciais. para áudio estéreo de qualidade próxima de cd, uma taxa de bit associada a estes parâmetros espaciais de 10 kbit/s ou menos, parece suficiente para reproduzir a impressão espacial correta na extremidade de recepção.

Description

“MÉTODOS PARA CODIFICAR UM SINAL DE ÁUDIO, E PARA DECODIFICAR UM SINAL DE ÁUDIO CODIFICADO, CODIFICADOR PARA CODIFICAR UM SINAL DE ÁUDIO, SINAL DE ÁUDIO CODIFICADO, MEIO DE ARMAZENAGEM, E, DECODIFICADOR PARA DECODIFICAR UM SINAL DE ÁUDIO CODIFICADO”.
Esta invenção relaciona-se à codificação de sinais de áudio e, mais particularmente, à codificação de sinais de áudio de múltiplos canais.
Dentro do campo de codificação de áudio é geralmente desejado codificar um sinal de áudio, por exemplo, no sentido de reduzir a taxa de bit para comunicar o sinal ou a exigência de armazenagem para armazenar o sinal, sem comprometer indevidamente a qualidade perceptual do sinal de áudio. Este é um resultado importante quando sinais de áudio devem ser transmitidos via canais de comunicação de capacidade limitada ou quando estes devem ser armazenados em um meio de armazenagem possuindo uma capacidade limitada.
Soluções anteriores em codificadores de áudio que tenham sido sugeridas para reduzir a taxa de bit do material de programa estéreo incluem: ‘Estéreo de intensidade’. Neste algoritmo, altas freqüências (tipicamente acima de 5 kHz) são representadas por um sinal de áudio único (mono), combinado com fatores de escala variantes no tempo e dependentes da freqüência.
Estéreo M/S\ Neste algoritmo, o sinal é decomposto em um sinal de soma (ou meio, ou comum) e de diferença (ou lateral, ou incomum). Esta decomposição é algumas vezes combinada com análise de componente de princípio ou fatores de escala variantes no tempo. Estes sinais são então codificados independentemente, por um codificador transformador ou codificador de forma de onda. A quantidade de redução de informação obtida por este algoritmo depende fortemente das propriedades espaciais do sinal fonte. Por exemplo, se o sinal fonte é monaural, o sinal de diferença é zero e pode ser descartado. Entretanto, se a correlação dos sinais de áudio esquerdo e direito é baixa, o que é freqüentemente o caso, este esquema oferece somente pouca vantagem.
Descrições paramétricas de sinais de áudio têm ganho interesse durante os últimos anos, especialmente no campo de codificação de áudio. Tem sido mostrado que transmitir parâmetros (quantizados) que descrevem sinais de áudio requer somente pouca capacidade de transmissão para re-sintetizar um sinal de forma perceptiva igual na extremidade de recepção. Entretanto, os codificadores de áudio paramétricos atuais têm foco na codificação de sinais monaurais, e sinais estéreo são freqüentemente processados como dual mono. O pedido de patente Europeu EP 1 107 232 descreve um método para codificar um sinal estéreo possuindo uma componente L e R, onde o sinal estéreo é representado por um dos componentes estéreo e informação paramétrica capturando diferenças de fase e nível do sinal de áudio. No decodificador, o outro componente estéreo é recuperado com base com base na componente estéreo codificada e informação paramétrica. E um objetivo da presente invenção resolver o problema de prover uma codificação de áudio melhorada que produza uma alta qualidade perceptual do sinal recuperado.
Os problemas acima e outros são resolvidos por um método para codificar um sinal de áudio, o método compreendendo: gerar um sinal monaural compreendendo uma combinação de pelo menos dois canais de áudio de entrada, determinar um conjunto de parâmetros espaciais indicativos de propriedades espaciais dos pelo menos dois canais de áudio de entrada, o conjunto de parâmetros espaciais incluindo um parâmetro representando uma medida de similaridade de formas de onda dos pelo menos dois canais de áudio de entrada, e gerar um sinal codificado compreendendo o sinal monaural e o conjunto de parâmetros espaciais.
Tem sido verificado pelo inventor que, codificando um sinal de áudio de múltiplos canais como um sinal de áudio monaural e um número de atributos espaciais compreendendo uma medida de similaridade das formas de onda correspondentes, o sinal multicanal pode ser recuperado com uma alta qualidade perceptual. É uma vantagem adicional da invenção que esta provê uma codificação eficiente de um sinal multicanal, isto é, um sinal compreendendo pelo menos um primeiro e segundo canal, por exemplo, um sinal estéreo, um sinal quadrifônico, etc.
Daí, de acordo com um aspecto da invenção, atributos espaciais de sinais de áudio de múltiplos canais são parametrizados. Para aplicações de codificação de áudio geral, transmitir estes parâmetros combinados somente com um sinal de áudio monaural, reduz fortemente a capacidade de transmissão necessária para transmitir o sinal estéreo, comparada a codificadores de áudio que processam os canais independentemente, enquanto mantém a impressão espacial original. Um resultado importante é que, embora pessoas recebam formas de onda de um objeto auditivo duas vezes (uma pelo ouvido esquerdo e outra pelo ouvido direito), somente um objeto auditivo único é percebido em uma certa posição e com um certo tamanho (ou difusibilidade espacial).
Portanto, parece desnecessário descrever sinais de áudio como duas ou mais formas de onda (independentes) e seria melhor descrever áudio de múltiplos canais como um conjunto de objetos auditivos, cada um com suas próprias propriedades espaciais. Uma dificuldade que surge imediatamente é o fato de que é quase impossível separar automaticamente objetos auditivos individuais de um dado conjunto de objetos auditivos, por exemplo, uma gravação musical. Este problema pode ser contornado não dividindo o material do programa em objetos auditivos individuais, mas ao invés disso descrevendo os parâmetros espaciais de um modo que lembra o processamento efetivo (periférico) do sistema auditivo. Quando os atributos espaciais compreendem uma medida de (dis)similaridade das formas de onda correspondentes, uma codificação eficiente é obtida enquanto mantém um alto nível de qualidade perceptual.
Em particular, a descrição paramétrica de áudio de múltiplos canais apresentado aqui está relacionada ao modelo de processamento binaural apresentado por Breebaart e outros. Este modelo pretende descrever um processamento de sinal efetivo do sistema auditivo binaural. Para uma descrição do modelo de processamento binaural de Breebaart e outros, ver Breebaart, J., van de Par, S. e Kohlrausch, A. (2001a). Modelo de processamento binaural baseado em inibição contra lateral. I. Estabelecimento de modelo. J. Acoust. Soc. Am., 110,1074-1088; Breebaart, J., van de Par, S. e Kohlrausch, A. (2001b). Modelo de processamento binaural baseado em inibição contra lateral. II. Dependência de parâmetros espectrais. J. Acoust. Soc. Am., 110, 1089-1104; e Breebaart, J., van de Par, S. e Kohlrausch, A. (2001c). Modelo de processamento binaural baseado em inibição contra lateral. III. Dependência de parâmetros temporais. J. Acoust. Soc. Am., 110, 1105-1117. Uma interpretação curta é dada abaixo, a qual auxilia o entendimento da invenção.
Em uma realização preferida, o conjunto de parâmetros espaciais inclui pelo menos uma sugestão de localização. Quando os atributos espaciais compreendem uma ou mais, preferivelmente duas, sugestões de localização, bem como uma medida de (dis)similaridade das formas de onda correspondentes, uma codificação particularmente eficiente é obtida enquanto mantém um nível particularmente alto de qualidade perceptual. O termo sugestão de localização compreende qualquer parâmetro adequado conduzindo informação sobre a localização de objetos auditivos contribuindo para o sinal de áudio, por exemplo, a orientação e/ou a distância até o objeto auditivo.
Em uma realização preferida da invenção, o conjunto de parâmetros espaciais inclui pelo menos duas sugestões de localização compreendendo uma diferença de nível intercanal (ILD) e uma diferença de tempo intercanal sinal selecionada (ITD) e uma diferença de fase intercanal (IPD). É interessante mencionar que a diferença de nível intercanal e a diferença de tempo intercanal são consideradas as sugestões de localização mais importantes no plano horizontal. A medida de similaridade das formas de onda correspondentes ao primeiro e segundo canais de áudio pode ser qualquer função adequada descrevendo quão similares ou dissimilares são as formas de onda. Daí, a medida de similaridade pode ser uma função de similaridade crescente, por exemplo, um parâmetro determinado a partir da correlação cruzada intercanal (função).
De acordo com uma realização preferida, a medida de similaridade corresponde a um valor de função de correlação cruzada em um máximo da citada função de correlação cruzada (também conhecida como coerência). A correlação cruzada intercanal máxima está fortemente relacionada à difusão espacial perceptual (ou solidez) de uma fonte sonora, isto é, provê informação adicional que não é responsável pelas sugestões de localização acima, provendo deste modo um conjunto de parâmetros com um alto grau de redundância da informação conduzida por eles e, então, provendo uma codificação eficiente. É notado que, altemativamente, outras medidas de similaridade podem ser usadas, por exemplo, uma função aumentando com a dissimilaridade das formas de onda. Um exemplo de tal função é 1-c, onde c é uma correlação cruzada que pode assumir valores entre 0 e 1.
De acordo com uma realização preferida da invenção, a etapa de determinar um conjunto de parâmetros espaciais indicativo de propriedades espaciais, compreende determinar um conjunto de parâmetros espaciais como uma função do tempo e frequência. É um discernimento dos inventores que é suficiente descrever atributos espaciais de qualquer sinal de áudio de múltiplos canais especificando o ILD, ITD (ou IPD) e a correlação máxima como uma função do tempo e freqüência.
Em uma realização adicional preferida da invenção, a etapa de determinar um conjunto de parâmetros espaciais indicativos de propriedades espaciais compreende dividir cada um dos pelo menos dois canais de áudio de entrada em correspondentes diversas faixas de freqüência; para cada uma das diversas faixas de freqüência, determinar o conjunto de parâmetros espaciais indicativo de propriedades espaciais dos pelo menos dois canais de áudio de entrada dentro da faixa de freqüência correspondente.
Daí, o sinal de áudio “entrante” é dividido em diversos sinais limitados em faixa, que são (preferivelmente) espaçados linearmente em uma escala de taxa ERB. Preferivelmente, os filtros de análise mostram uma superposição parcial no domínio da freqüência e/ou tempo. A largura de faixa destes sinais depende da freqüência central, seguindo a taxa ERB. Subseqüentemente, preferivelmente para toda faixa de freqüência, as seguintes propriedades dos sinais “entrantes” são analisadas: A diferença de nível intercanal, ou ILD, definida pelos níveis relativos do sinal limitado em faixa proveniente dos canais esquerdo e direito, A diferença de tempo (ou fase) intercanal (ITD ou IPD) definida pelo retardo intercanal (ou deslocamento de fase) correspondente à posição do pico na função de correlação cruzada intercanal, e A (dis)similaridade das formas de onda que não podem ser responsáveis pelos ITD ou ILD, que podem ser parametrizados pela correlação cruzada intercanal máxima (isto é, o valor da função de correlação cruzada normalizada na posição do pico máximo, também conhecida como coerência).
Os três parâmetros descritos acima variam ao longo do tempo; entretanto, uma vez que o sistema auditivo binaural é muito lento em seu processamento, a taxa de atualização destas propriedades é realmente baixa (tipicamente dezenas de milisegundos).
Pode ser suposto aqui que, as propriedades variando no tempo (lentamente) mencionadas acima são as únicas propriedades de sinal espacial que o sistema auditivo binaural possui disponíveis, e que a partir destes parâmetros dependentes do tempo e da ffeqüência, o mundo auditivo percebido é reconstruído por níveis mais altos do sistema auditivo.
Uma realização da presente invenção pretende descrever um sinal de áudio de múltiplos canais: por um sinal monaural, consistindo de uma certa combinação dos sinais de entrada, e por um conjunto de parâmetros espaciais: duas sugestões de localização (ILD e ITD ou IPD) e um parâmetro que descreve a similaridade ou dissimilaridade das formas de onda que não podem ser responsáveis pelos ILD e/ou ITD (por exemplo, o máximo da função de correlação cruzada) preferivelmente para todo módulo de tempo/freqüência. Preferivelmente, parâmetros espaciais são incluídos para cada canal auditivo adicional.
Uma consequência importante da transmissão de parâmetros é a precisão da representação de parâmetros (isto é, o tamanho dos erros de quantização), que é diretamente relacionada à capacidade de transmissão necessária).
De acordo com ainda com uma outra realização preferida da invenção, a etapa de gerar um sinal codificado compreendendo o sinal monaural e o conjunto de parâmetros espaciais, compreende gerar um conjunto de parâmetros espaciais quantizados, cada um introduzindo um erro de quantização correspondente relativo ao parâmetro espacial determinado correspondente, onde pelo menos um dos erros de quantização introduzidos é controlado para depender de pelo menos um dos parâmetros espaciais determinados.
Daí, o erro de quantização introduzido pela quantização dos parâmetros, é controlado de acordo com a sensibilidade do sistema auditivo humano quanto a mudanças nestes parâmetros. Esta sensibilidade depende fortemente dos valores dos próprios parâmetros. Daí, controlando o erro de quantização para depender dos valores dos parâmetros, é obtida codificação melhorada. É uma vantagem da invenção, que esta provê um desacoplamento de parâmetros de sinal monaural e binaural em codificadores de áudio. Daí, dificuldades relacionadas a codificadores de áudio estéreo são fortemente reduzidas (tal como a audibilidade de ruído de quantização não correlacionado interauralmente comparada à do ruído de quantização correlacionado interauralmente, ou inconsistências de fase interaural em codificadores paramétricos que estão codificando em modo mono dual. É uma vantagem adicional da invenção que uma forte redução de taxa de bit seja alcançada em codificadores de áudio, devido a baixa taxa de atualização e baixa resolução de ffeqüência requerida para os parâmetros espaciais. A taxa de bit associada para codificar os parâmetros espaciais é tipicamente 10 kbit/s ou menos (ver a realização descrita abaixo). t E uma vantagem adicional da invenção que esta pode ser facilmente combinada com codificadores de áudio existentes. O esquema proposto produz um sinal mono que pode ser codificado e decodificado com qualquer estratégia de codificação existente. Após decodificação monaural, o sistema descrito aqui regenera um sinal multicanal estéreo com os atributos espaciais apropriados. O conjunto de parâmetros espaciais pode ser usado como uma camada de reforço nos codificadores de áudio. Por exemplo, um sinal mono é transmitido se somente uma baixa taxa de bit é permitida, embora incluindo a camada de reforço espacial, o decodificador possa reproduzir som estéreo. É notado que a invenção não está limitada a sinais estéreo, porém pode ser aplicada a qualquer sinal multicanal compreendendo n canais (n > 1). Em particular, a invenção pode ser usada para gerar n canais a partir de um sinal mono, se (η - 1) conjuntos de parâmetros espaciais são transmitidos. Neste caso, os parâmetros espaciais descrevem como formar os n canais de áudio diferentes a partir do sinal mono único. A presente invenção pode ser implementada de diferentes modos, incluindo o método descrito acima e no seguinte, um método para decodificar um sinal de áudio codificado, um codificador, um decodificador e meios de produto adicionais, produzindo cada um, um ou mais dos benefícios e vantagens descritos em conexão com o primeiro método mencionado, e cada um possuindo uma ou mais realizações preferidas correspondendo às realizações preferidas descritas em conexão com o primeiro método mencionado e descrito nas reivindicações dependentes. É notado que as características do método descrito acima e no seguinte, podem ser implementadas em software e realizadas em um sistema de processamento de dados ou outros meios de processamento causados pela execução de instruções executáveis por computador. As instruções podem ser meios de código de programa carregados em uma memória, tal como uma RAM, a partir de um meio de armazenagem ou a partir de um outro computador via uma rede de computador. Altemativamente, as características descritas podem ser implementadas por circuitos em hardware ao invés de software, ou em combinação com software. A invenção relaciona-se adicionalmente a um codificador para codificar um sinal de áudio, o codificador compreendendo: meio para gerar um sinal monaural compreendendo uma combinação de pelo menos dois canais de áudio de entrada, meio para determinar um conjunto de parâmetros espaciais indicativos de propriedades espaciais dos pelo menos dois canais de áudio de entrada, o conjunto de parâmetros espaciais incluindo um parâmetro representando uma medida de similaridade de formas de onda dos pelo menos dois canais de áudio de entrada, e meio para gerar um sinal codificado compreendendo o sinal monaural e o conjunto de parâmetros espaciais. É notado que os meios acima para gerar um sinal monaural, os meios para determinar um conjunto de parâmetros espaciais, bem como meio para gerar um sinal codificado, podem ser implementados por qualquer circuito ou dispositivo adequado, por exemplo, como microprocessadores programáveis de finalidade geral ou especial, Processadores de Sinal Digital (DSP), Circuitos Integrados de Aplicação Específica (ASIC), Arranjos Lógicos Programáveis (PLA), Arranjos de Porta Programável de Campo (FPGA), circuitos eletrônicos de finalidade especial, etc., ou uma combinação destes. A invenção relaciona-se adicionalmente a um aparelho para fornecer um sinal de áudio, o aparelho compreendendo: uma entrada para receber um sinal de áudio, um codificador conforme descrito acima e a seguir, para codificar o sinal de áudio para obter um sinal de áudio codificado, e uma saída para fornecer o sinal de áudio codificado. O aparelho pode ser qualquer equipamento eletrônico ou parte de tal equipamento, tais como computadores estacionários ou portáteis, equipamento de rádio comunicação portátil ou outros dispositivos de mão ou portáteis, tais como reprodutores de mídia, dispositivos de gravação, etc. O termo equipamento de rádio comunicação portátil inclui todos os equipamentos tais como telefones móveis, radiolocalizadores, comunicadores, isto é, organizadores eletrônicos, fones inteligentes, assistentes digitais pessoais (PDA), computadores de mão ou similares. A entrada pode compreender qualquer circuito ou dispositivo adequado para receber um sinal de áudio múltiplos canais na forma analógica ou digital, por exemplo, via conexão com fio, tal como um conector de linha, via conexão sem fio, por exemplo um sinal de rádio ou qualquer outro modo adequado.
Similarmente, a saída pode compreender qualquer circuito ou dispositivo adequado para fornecer o sinal codificado. Exemplos de tais saídas incluem uma interface de rede para prover o sinal a uma rede de computador, tal como uma LAN, Internet ou similar, circuitos de comunicações para comunicar o sinal via um canal de comunicações, por exemplo um canal de comunicação sem fio, etc. Em outras realizações, a saída pode compreender um dispositivo para armazenar um sinal em um meio de armazenagem. A invenção relaciona-se adicionalmente a um sinal de áudio codificado, o sinal compreendendo: um sinal monaural compreendendo uma combinação de pelo menos dois canais de áudio, e um conjunto de parâmetros espaciais indicativos de propriedades espaciais dos pelo menos dois canais de áudio de entrada, o conjunto de parâmetros espaciais incluindo um parâmetro representando uma medida de similaridade de formas de onda dos pelo menos dois canais de áudio de entrada. A invenção relaciona-se adicionalmente a um meio de armazenagem possuindo armazenado nele tal sinal codificado. Aqui, o termo meio de armazenagem compreende, porém não está limitado a uma fita magnética, um disco óptico, um disco de vídeo digital (DVD), um disco compacto (CD ou CR-ROM), um mini disco, um disco rígido, um disco flexível, uma memória ferro elétrica, uma memória de somente leitura programável, eletricamente apagável (EEPROM), uma memória flash, uma EPROM, uma memória de somente leitura (ROM), uma memória de acesso randômico estática (SRAM), uma memória de acesso randômico dinâmico (DRAM), uma memória de acesso randômico dinâmico síncrono (SDRAM), uma memória ferromagnética, armazenagem óptica, dispositivos acoplados por carga, cartões inteligentes, um cartão PCMCIA, etc. A invenção relaciona-se adicionalmente a um método para decodificar um sinal de áudio codificado, o método compreendendo: obter um sinal monaural a partir do sinal de áudio codificado, o sinal monaural compreendendo uma combinação de pelo menos dois canais de áudio, obter um conjunto de parâmetros espaciais a partir do sinal de áudio codificado, o conjunto de parâmetros espaciais incluindo um parâmetro representando uma medida de similaridade de formas de onda dos pelo menos dois canais de áudio, e gerar um sinal de saída de múltiplos canais a partir do sinal monaural e dos parâmetros espaciais. A invenção relaciona-se adicionalmente a um decodificador para decodificar um sinal de áudio codificado, o decodificador compreendendo: meio para obter um sinal monaural a partir do sinal de áudio codificado, o sinal monaural compreendendo uma combinação de pelo menos dois canais de áudio, meio para obter um conjunto de parâmetros espaciais a partir do sinal de áudio codificado, o conjunto de parâmetros espaciais incluindo um parâmetro representando uma medida de similaridade de formas de onda dos pelo menos dois canais de áudio, e meio para gerar um sinal de saída de múltiplos canais a partir do sinal monaural e dos parâmetros espaciais. t E notado que os meios acima podem ser implementados por qualquer circuito ou dispositivo adequado, por exemplo, como microprocessadores programáveis de finalidade geral ou especial, Processadores de Sinal Digital (DSP), Circuitos Integrados de Aplicação Específica (ASIC), Arranjos Lógicos Programáveis (PLA), Arranjos de Porta Programável de Campo (FPGA), circuitos eletrônicos de finalidade especial, etc., ou uma combinação destes. A invenção relaciona-se adicionalmente a um aparelho para fornecer um sinal de áudio decodificado, o aparelho compreendendo: uma entrada para receber um sinal de áudio codificado, um decodificador conforme descrito acima e a seguir, para decodificar o sinal de áudio codificado, para obter um sinal de saída de múltiplos canais, uma saída para fornecer ou reproduzir o sinal de saída de múltiplos canais. O aparelho pode ser qualquer equipamento eletrônico ou parte de tal equipamento, conforme descrito acima. A entrada pode compreender qualquer circuito ou dispositivo adequado para receber um sinal de áudio codificado. Exemplos de tais entradas incluem uma interface de rede para receber o sinal via uma rede de computador, tal como uma LAN, Internet ou similar, circuitos de comunicações para receber o sinal via um canal de comunicações, por exemplo um canal de comunicação sem fio, etc. Em outras realizações, a entrada pode compreender um dispositivo para ler um sinal a partir de um meio de armazenagem.
Similarmente, a saída pode compreender qualquer circuito ou dispositivo adequado para fornecer um sinal multicanal na forma digital ou analógica.
Estes e outros aspectos da invenção serão aparentes e esclarecidos a partir das realizações descritas a seguir, com referência ao desenho, no qual: Fig. 1 mostra um fluxograma de um método para codificar um sinal de áudio de acordo com uma realização da invenção;
Fig. 2 mostra um diagrama em blocos esquemático de um sistema de codificação de acordo com uma realização da invenção;
Fig. 3 ilustra um método de filtro para uso na síntese do sinal de áudio; e Fig. 4 ilustra um decorrelator para uso na síntese do sinal de áudio.
Fig. 1 mostra um fluxograma de um método para codificar um sinal de áudio de acordo com uma realização da invenção.
Em uma etapa inicial Sl, os sinais “entrantes” L e R são divididos em sinais de faixa passante (preferivelmente com uma largura de faixa que aumenta com a íreqüência), indicada pelo numeral de referência 101, de tal modo que seus parâmetros podem ser analisados como uma função do tempo. Um método possível para “fatiamento” de tempo/ffeqüência é usar janela de tempo seguida de uma operação de transformação, mas também podem ser usados métodos contínuos no tempo (por exemplo, bancos de filtros). A resolução de tempo e íreqüência deste processo é preferivelmente adaptada para o sinal; para sinais transientes, uma resolução de tempo fina (da ordem de uns poucos milisegundos) e uma resolução de íreqüência grosseira são preferidas, embora para sinais não transientes uma resolução de íreqüência mais fina e uma resolução de tempo mais grosseira (da ordem de dezenas de milisegundos) sejam preferidas. Subseqüentemente, na etapa S2, a diferença de nível (ILD) dos sinais da sub banda correspondentes é determinada; na etapa S3, a diferença de tempo (ITD ou IPD) dos sinais da sub banda correspondentes é determinada; e na etapa S4 é descrita a quantidade de similaridade ou dissimilaridade das formas de onda que não podem ser responsáveis pelas ILD ou ITD. A análise destes parâmetros é discutida abaixo.
Etapa S2: Análise das ILD A ILD é determinada pela diferença de nível dos sinais em uma certa instância de tempo, para uma dada faixa de freqüência. Um método para determinar a ILD é medir o valor médio quadrático (rms) da faixa de freqüência correspondente de ambos canais de entrada e computar a relação destes valores rms (preferivelmente expressa em dB).
Etapa S3: Análise das ITD
As ITD são determinadas pelo alinhamento de tempo ou de fase que dá a melhor coincidência das formas de onda de ambos os canais. Um método para obter a ITD é computar a função de correlação cruzada entre dois sinais de sub bandas correspondentes e buscar o máximo. O retardo que corresponde a este máximo na função de correlação cruzada pode ser usado como valor ITD. Um segundo método é computar os sinais analíticos da sub banda esquerda e direita (isto é, computar valores de fase e envelope) e usar a diferença de fase (média) entre os canais como parâmetro IPD.
Etapa S4: Análise da correlação A correlação é obtida encontrando primeiro a ILD e ITD que produzem a melhor coincidência entre os sinais de sub banda correspondentes e subseqüentemente medir a similaridade das formas de onda, após a compensação para ITD e/ou ILD. Então, nesta estrutura de trabalho, a correlação é definida como a similaridade ou dissimilaridade dos sinais de sub banda correspondentes que não podem ser atribuídos às ILD e/ou ITD.
Uma medida adequada para este parâmetro é o valor máximo da fimção de correlação cruzada (isto é, o máximo através de um conjunto de retardos). Entretanto, também outras medidas poderíam ser usadas, tais como a energia relativa do sinal de diferença após compensação de ILD e/ou ITD, comparada ao sinal de soma das sub bandas correspondentes (preferivelmente também compensadas para as ILD e/ou ITD). Este parâmetro de diferença é basicamente uma transformação linear da correlação (máxima).
Nas etapas subseqüentes S5, S6 e S7, os parâmetros determinados são quantizados. Uma conseqüência importante da transmissão de parâmetros é a precisão da representação de parâmetro (isto é, o tamanho dos erros de quantização), que é diretamente relacionada à capacidade de transmissão necessária. Nesta seção, diversas conseqüências com respeito à quantização dos parâmetros espaciais serão discutidas. A idéia básica é basear os erros de quantização nas assim chamadas diferenças recém notadas (JND) das sugestões espaciais. Para ser mais específico, o erro de quantização é determinado pela sensibilidade do sistema auditivo humano a mudanças nos parâmetros. Uma vez que a sensibilidade a mudanças dos parâmetros depende fortemente dos próprios valores dos parâmetros, aplicamos os seguintes métodos para determinar as etapas de quantização discretas.
Etana S5: Quantização das ILD É sabido de pesquisas psico acústicas que a sensibilidade a mudanças em ILD depende da própria ILD. Se a ILD é expressa em dB, desvios de aproximadamente 1 dB de uma referência de 0 dB são detectáveis, embora mudanças da ordem de 3 dB sejam requeridas se a diferença de nível de referência atinge 20 dB. Portanto, erros de quantização podem ser maiores se os sinais dos canais da esquerda e direita possuem uma diferença de nível maior. Por exemplo, isto pode ser aplicado medindo primeiramente a diferença de nível entre os canais, seguida de uma transformação não linear (compressiva) da diferença de nível obtida e subseqüentemente um processo de quantizaçao linear, ou usando uma tabela de pesquisa para os valores de ILD disponíveis que tem uma distribuição não linear. A realização abaixo dá um exemplo de tal tabela de consulta.
Etapa 6: Ouantizacão das ITD A sensibilidade a mudanças nas ITD em humanos pode ser caracterizada como tendo um limiar de fase constante. Isto significa que, em termos de tempos de retardo, as etapas de quantização para ITD deveríam diminuir com a ffeqüência. Altemativamente, se a ITD é representada na forma de diferenças de fase, as etapas de quantização deveríam ser independentes da ffeqüência. Um método para implementar isto é considerar uma diferença de fase fixa como etapa de quantização e determinar o retardo de tempo correspondente para cada faixa de ffeqüência. Este valor ITD é então usado como etapa de quantização. Um outro método é transmitir diferenças de fase que seguem um esquema de quantização independente da ffeqüência. É também sabido que acima de uma certa ffeqüência, o sistema auditivo humano não é sensível às ITD nas formas de onda de estrutura fina. Este fenômeno pode ser explorado somente transmitindo parâmetros ITD até uma certa ffeqüência (tipicamente 2 kHz).
Um terceiro método de redução de fluxo de bit é incorporar etapas de quantização ITD que dependem da ILD e/ou dos parâmetros de correlação da mesma sub banda. Para grandes ILD, as ITD podem ser codificadas menos precisamente. Ainda mais, se a correlação é muito baixa, é sabido que a sensibilidade humana a mudanças na ITD é reduzida. Daí, erros de quantização ITD maiores podem ser aplicados se a correlação é pequena. Um exemplo extremo desta idéia é não transmitir as ITD se a correlação está abaixo de um certo limiar e/ou se a ILD é suficientemente grande para a mesma sub banda (tipicamente em tomo de 20 dB).
Etana S7: Ouantizacão da correlação O erro de quantização da correlação depende de (1) do próprio valor de correlação e possivelmente (2) da ILD. Valores de correlação próximos de +1 são codificados com uma alta precisão (isto é, uma pequena etapa de quantização), enquanto valores de correlação próximos de 0 são codificados com uma baixa precisão (uma grande etapa de quantização). Um exemplo de um conjunto de valores de correlação distribuídos não linearmente é dado na realização. Uma segunda possibilidade é usar as etapas de quantização para a correlação que depende da ILD medida da mesma sub banda: para grandes ILD (isto é, um canal é dominante em termos de energia), os erros de quantização na correlação tomam-se maiores. Um exemplo extremo deste princípio seria não transmitir valores de correlação para uma certa sub banda, se o valor absoluto da ILD para aquela sub banda estiver além de um certo limiar.
Na etapa S8, um sinal monaural S é gerado a partir dos sinais de áudio “entrantes”, por exemplo, um sinal de soma das componentes de sinal “entrante”, determinando um sinal dominante, gerando um sinal de componente principal a partir das componentes de sinal “entrante”, ou similares. Este processo usa preferivelmente os parâmetros espaciais extraídos para gerar o sinal mono, isto é, alinhando primeiramente as formas de onda da sub banda usando a ITD ou IPD antes da combinação.
Finalmente, na etapa S9, um sinal codificado 102 é gerado a partir do sinal monaural e dos parâmetros determinados. Altemativamente, o sinal de soma e os parâmetros espaciais podem ser comunicados como sinais separados através dos mesmos ou de canais diferentes. É notado que o método acima pode ser implementado por um arranjo correspondente, por exemplo, implementado como microprocessadores programáveis de finalidade geral ou especial, Processadores de Sinal Digital (DSP), Circuitos Integrados de Aplicação Específica (ASIC), Arranjos Lógicos Programáveis (PLA), Arranjos de Porta Programável de Campo (FPGA), circuitos eletrônicos de finalidade especial, etc., ou uma combinação destes.
Fig. 2 mostra um diagrama em blocos esquemático de um sistema de codificação de acordo com uma realização da invenção. O sistema compreende um codificador 201 e um decodificador correspondente 202. O codificador 201 recebe um sinal estéreo com dois componentes L e R e gera um sinal codificado 203 compreendendo um sinal de soma S e parâmetros espaciais P que são comunicados ao decodificador 202. O sinal codificado 203 pode ser comunicado via qualquer canal de comunicações 204 adequado. Altemativamente ou adicionalmente, o sinal pode ser armazenado em um meio de armazenagem removível 214, por exemplo, um cartão de memória, que pode ser transferido do codificador para o decodificador. O codificador 201 compreende módulos de análise 205 e 206 para analisar parâmetros espaciais dos sinais “entrantes” L e R, respectivamente, preferivelmente para cada módulo de tempo/ffeqüência. O codificador compreende adicionalmente um módulo de extração de parâmetro 207 que gera parâmetros espaciais quantizados; e um módulo combinador 208 que gera um sinal de soma (ou dominante) consiste de uma certa combinação de pelo menos dois sinais de entrada. O codificador compreende adicionalmente um módulo de codificação 209 que gera um sinal codificado resultante 203 compreendendo o sinal monaural e os parâmetros espaciais. Em uma realização, o módulo 209 realiza adicionalmente uma ou mais das seguintes funções: alocação de taxa de bit, enquadramento, codificação sem perdas, etc. Síntese (no decodificador 202) é efetuada aplicando os parâmetros espaciais para o sinal de soma, para gerar sinais de saída esquerdo e direito. Daí, o decodificador 202 compreende um módulo decodificador 210 que efetua operação inversa do módulo 209 e extrai o sinal de soma S e os parâmetros P do sinal codificado 203, o decodificador compreende adicionalmente um módulo de síntese 211 que recupera os componentes estéreos L e R a partir do sinal de soma (ou dominante) e dos parâmetros espaciais.
Nesta realização, a descrição do parâmetro espacial é combinada com um codificador de áudio monaural (canal único) para codificar um sinal de áudio estéreo. Deveria ser notado que, embora a realização descrita trabalhe com sinais estéreo, a idéia geral pode ser aplicada a sinais de áudio de n canais, com η > 1.
Nos módulos de análise 205 e 206, os sinais “entrantes” esquerdo e direito L e R, respectivamente, são divididos em vários quadros de tempo (por exemplo, cada um compreendendo 2048 amostras a uma taxa de amostragem de 44,1 kHz). E com janelas com uma janela de raiz quadrada de Hanning. Subseqüentemente, são computadas FFT. As freqüências FFT negativas são descartadas e as FFT resultantes são subdivididas em grupos (sub bandas) de lotes FFT. O número de lotes FFT que são combinados em uma sub banda g depende da freqüência: em freqüências mais altas, mais lotes são combinados do que em baixas freqüências. Em uma realização, lotes FFT correspondentes a aproximadamente 1,8 ERB (Largura de Faixa Retangular Equivalente) são agrupados, resultando em 20 sub bandas para representar a faixa de freqüência audível inteira. O número resultante de lotes FFT S[g] de cada sub banda subseqüente (começando da freqüência mais baixa) é S = [4 4 4 5 6 8 9 12 13 17 21 25 30 38 45 55 68 82 100 477] Então, as três primeiras sub bandas contém quatro lotes FFT, a quarta sub banda contém cinco lotes FFT, etc. Para cada sub banda, as correspondentes ILD, ITD e a correlação (r) são computadas. A ITD e a correlação são computadas simplesmente ajustando todos os lotes FFT que pertencem a outros grupos para zero, multiplicando as FFT resultantes (de faixa limitada) dos canais direito e esquerdo, seguidas por uma transformada FFT inversa. A função de correlação cruzada resultante é varrida para um pico dentro de um retardo intercanal entre -64 e +63 amostras. O retardo interno correspondente ao pico é usado como valor ITD, e o valor da fimção de correlação cruzada neste pico é usado na correlação de intercanal desta sub banda. Finalmente, a ELD é simplesmente computada considerando a relação de potência dos canais esquerdo e direito para cada sub banda.
No módulo combinados 208, as sub bandas esquerda e direita são somadas após uma correção de fase (alinhamento temporal). Esta correção de fase segue a partir da ITD computada para aquela sub banda e consiste de retardar a sub banda do canal esquerdo com ITD/2 e a sub banda do canal direito com -ITD/2. O retardo é efetuado no domínio da freqüência, por modificação apropriada dos ângulos de fase de cada lote FFT. Subseqüentemente, o sinal de soma é computado adicionando as versões de fase modificada dos sinais de sub banda esquerdo e direito. Finalmente, para compensar quanto à adição não correlacionada e correlacionada, cada sub banda do sinal soma é multiplicada por , sendo r a correlação da sub banda correspondente. Se necessário, o sinal soma pode ser convertido para o domínio do tempo (1) inserindo conjugados complexos nas freqüências negativas, (2) efetuando FFT inversa, (3) por meio de janela, e (4) adição por superposição.
No módulo de extração de parâmetro 207, os parâmetros espaciais são quantizados. As ILD (em dB) são quantizadas para o valor mais próximo fora do seguinte conjunto I: I = [-19 -16 -13 -10 -8-6-4-202468 10 13 16 19] As etapas de quantização ITD são determinadas por uma diferença de fase constante em cada sub banda de 0,1 rad. Então, para cada sub banda, a diferença de tempo que corresponde a 0,1 rad da freqüência central da sub banda é usada como etapa de quantização. Para freqüências acima de 2 kHz, nenhuma I-CSCF ITD é transmitida.
Os valores de correlação intercanal r são quantizados para o valor mais próximo do seguinte conjunto R: R = [1 0,95 0,90,82 0,75 0,60,3 0] Isto custará outros 3 bits por valor de correlação.
Se o valor absoluto da ILD (quantizada) da sub banda corrente atinge 19 dB, nenhuma ITD e valores de correlação são transmitidos para esta sub banda. Se o valor de correlação (quantizado) de uma certa sub banda atinge zero, nenhum valor de ITD é transmitido para aquela sub banda.
Deste modo, cada quadro requer um máximo de 233 bits para transmitir os parâmetros espaciais. Com uma extensão de quadro de 1024 quadros, a taxa de bit máxima para transmissão atinge 10,25 kbit/s. Deveria ser notado que usando codificação de entropia ou codificação diferencial, esta taxa de bit pode ser adicionalmente reduzida. O decodificador compreende um módulo de síntese 211 onde o sinal estéreo sintetizado forma o sinal soma recebido e os parâmetros espaciais. Daí, para a finalidade desta descrição é suposto que o módulo de síntese recebe uma representação no domínio da ffeqüência do sinal soma, conforme descrito acima. Esta representação pode ser obtida por janelas e operações de FFT da forma de onda no domínio do tempo. Primeiramente, o sinal soma é copiado para os sinais de saída esquerdo e direito. Subseqüentemente, a correlação entre os sinais esquerdo e direito é modificada com um decorrelator. Em uma realização preferida, um decorrelator conforme descrito abaixo é usado. Subseqüentemente, cada sub banda do sinal esquerdo é retardada de -ITD/2 e do sinal direito é retardada de ITD/2, dada a ITD (quantizada) correspondente àquela sub banda. Finalmente, as sub bandas esquerda e direita são escaladas de acordo com a ILD para aquela sub banda. Em uma realização, a modificação acima é efetuada por um filtro, conforme descrito abaixo. Para converter os sinais de saída para o domínio do tempo, as seguintes etapas são executadas: (1) inserir complexos conjugados em ffeqüências negativas, (2) efetuar transformada inversa FFT, (3) janelas e (4) adição por superposição.
Fig. 3 ilustra um método de filtro para uso na síntese do sinal de áudio. Em uma etapa inicial 301, o sinal de áudio “entrante” x(t) é segmentado em um número de quadros. A etapa de segmentação 301 divide o sinal em quadros xn(t) de uma extensão adequada, por exemplo na faixa de 500-5000 amostras, por exemplo 1024 ou 2048 amostras.
Preferivelmente, a segmentação é efetuada usando funções de análise de superposição e janela de síntese, suprimindo deste modo artefatos que possam ser introduzidos nos limites de quadros (ver, por exemplo, Princen, J. P. and Bradley, A. B.: “Analysis/sinthesis filterbank design based on time domais aliasing cancellation”, IEEE transactions on Acoustics, Speech and Signal Processing, Vol. ASSP 34,1986).
Na etapa 302, cada um dos quadros xn(t) é transformado no domínio da ffeqüência, aplicando uma transformada de Fourier, preferivelmente implementada como Transformada de Fourier Rápida (FFT). A representação de ffeqüência resultante do n-ésimo quadro x„(t) compreende um número de componentes de ffeqüência X(k,n) onde o parâmetro n indica o número de quadro e o parâmetro k indica a componente de ffeqüência cok, onde 0 < k < K. Em geral, as componentes no domínio da ffeqüência X(k,n) são números complexos.
Na etapa 303, o filtro desejado para o quadro corrente é determinado de acordo com os parâmetros espaciais variantes no tempo recebidos. O filtro desejado é expresso como uma resposta de filtro desejada compreendendo um conjunto de K fatores de ponderação complexa F(k,n), 0 < k < K, para o n-ésimo quadro. A resposta do filtro F(k,n) pode ser representada por dois números reais, isto é sua amplitude a(k,n) e sua fase de acordo com No domínio da ffeqüência, os componentes de ffeqüência filtrados são Y(k,n) = F(k,n) · X(k,n), isto é, resultam de uma multiplicação das componentes de ffeqüência X(k,n) do sinal de entrada pela resposta do filtro F(k,n). Como será aparente a uma pessoa especialista na técnica, esta multiplicação no domínio da freqüência corresponde a uma convulsão do quadro do sinal de entrada x„(t) com um filtro correspondente fn(t).
Na etapa 304, a resposta desejada do filtro F(k,n) é modificada antes de aplicá-la ao quadro corrente X(k,n). Em particular, a resposta real do filtro F’(k,n) a ser aplicada é determinada como uma função da resposta do filtro desejada F(k,n) e da informação 308 sobre quadros anteriores. Preferivelmente, esta informação compreende a resposta de filtro real e/ou desejada de um ou mais quadros anteriores, de acordo com Daí, fazendo a resposta do filtro real dependente da história das respostas de filtro anteriores, artefatos introduzidos por mudanças na resposta de filtro entre quadros consecutivos podem ser eficientemente suprimidos. Preferivelmente, a forma real da fimção de transformação φ é selecionada para reduzir os artefatos de adição por superposição resultantes de respostas de filtro variando dinamicamente.
Por exemplo, a função de transformação φ pode ser uma função de uma função de resposta prévia única, por exemplo, Em uma outra realização, a função de transformação pode compreender uma média flutuante através de um número de funções de resposta prévia, por exemplo, uma versão filtrada de funções de respostas prévias ou similares. Realizações preferidas da função de transformação φ serão descritas em maior detalhe abaixo.
Na etapa 305, a resposta de filtro real F’(k,n) é aplicada ao quadro corrente multiplicando as componentes de freqüência X(k,n) do quadro corrente do sinal de entrada pelos fatores de resposta do filtro correspondente F’(k,n) de acordo com Y(k,n) = F’(k,n) ■ X(k,n).
Na etapa 306, as componentes de freqüência processadas resultantes Y(k,n) são transformadas de volta no domínio do tempo, resultando nos quadros filtrados yn(t). Preferivelmente, a transformada inversa é implementada como uma Transformada de Fourier Rápida Inversa (IFFT).
Finalmente, na etapa 307, os quadros filtrados são recombinados para um sinal filtrado y(t) por um método de adição por superposição. Uma implementação eficiente de tal método de adição por superposição é descrito por Bergmans, J. W. M.: “Digital baseband transmission and recording”, Kluwer, 1996.
Em uma realização, a função de transformação φ da etapa 304 é implementada como um limitador de mudança de fase entre o quadro corrente e o anterior. De acordo com esta realização, o ângulo de fase ô(k) de cada componente de freqüência F(k,n) comparada à modificação de fase real cp’(k,n-l) aplicada à amostra prévia da componente de freqüência correspondente é computada, isto Subseqüentemente, a componente de fase do filtro desejada F(k,n) é modificada de tal modo que a mudança de fase através dos quadros é reduzida, se a mudança resultasse em artefatos de adição por superposição. De acordo com esta realização, isto é obtido assegurando que a diferença de fase real não excede um limiar pré-determinado c, por exemplo, simplesmente cortando a diferença de fase, de acordo com 0) O valor de limiar c pode ser uma constante pré-determinada, por exemplo, entre π/8 e π/3 rad. Em uma realização, o limiar c pode não ser uma constante mas, por exemplo, uma função do tempo, freqüência, e/ou similar. Ainda mais, altemativamente ao limite rigoroso acima para a mudança de fase, outras funções limitadoras de mudança de fase podem ser usadas.
Em geral, na realização acima, a mudança de fase desejada através de quadros de tempo subseqüentes para componentes de freqüência individuais é transformada por uma função de entrada-saída P(ô(k)) e a resposta de filtro real F’(k,n) é dada por (2) Daí, de acordo com esta realização, uma função de transformação P da mudança de fase através de quadros subseqüentes é introduzida.
Em uma outra realização da transformação da resposta do filtro, o procedimento de limitação de fase é adicionado por uma medida de tonalidade adequada, por exemplo um método de predição conforme descrito abaixo. Isto tem a vantagem de que saltos de fase entre quadros consecutivos que ocorrem em sinais do tipo ruído podem ser excluídos do procedimento de limitação de mudança de fase de acordo com a invenção. Esta é uma vantagem, uma vez que limitar tais saltos de fase em sinais do tipo ruído fará com que o sinal do tipo ruído soe mais tonal do que é ffeqüentemente percebido como sintético ou metálico.
De acordo com esta realização, um erro de fase previsto 9(k) = (p(k,n) - (p’(k,n-l) - (¾ . h é calculado. Aqui, ©k denota a freqüência correspondente à k-ésima componente de freqüência e h denota o tamanho da transposição em amostras. Aqui, o termo tamanho da transposição se refere à diferença entre dois centros de janelas adjacentes, isto é, metade da extensão de análise para janelas simétricas. A seguir, é suposto que o erro acima é limitado ao intervalo [-π, +π].
Subseqüentemente, uma medida de predição Pk para a quantidade de predictabilidade de fase no k-ésimo lote de freqüência é calculada de acordo com , onde |.| denota o valor absoluto.
Daí, a medida acima Pk produz um valor entre 0 e 1 correspondente à quantidade de predictabilidade de fase no k-ésimo lote de ffeqüência. Se Pk é próximo de 1, o sinal fundamental pode ser suposto ter um alto grau de tonalidade, isto é, ter uma forma de onda substancialmente senoidal. Para tal sinal, saltos de fase são facilmente perceptíveis, por exemplo, pelo ouvinte de um sinal de áudio. Daí, saltos de fase deveríam preferivelmente ser removidos neste caso. Por outro lado, se o valor de Pk está próximo de 0, o sinal fundamental pode ser suposto ruidoso. Para sinais ruidosos, saltos de fase não são facilmente percebidos, e podem, portanto, ser permitidos.
Conseqüentemente, a função de limitação de fase é aplicada se Pk excede um limiar pré-determinado, isto é, Pk > A, resultando na resposta de filtro real F’(k,n) de acordo com Aqui, A é limitado pelos limites superior e inferior de P que são +1 e 0, respectivamente. O valor exato de A depende da implementação real. Por exemplo, A pode ser selecionado entre 0,6 e 0,9. É entendido que, altemativamente, qualquer outra medida adequada para estimar a tonalidade pode ser usada. Ainda em outra realização, o salto de fase permitido c descrito acima pode ser tomado dependente de uma medida adequada de tonalidade, por exemplo, a medida Pk acima, permitindo deste modo maiores saltos de fase se Pk é grande, e vice-versa.
Fig. 4 ilustra um decorrelator para uso na síntese do sinal de áudio. O decorrelator compreende um filtro passa tudo 401 recebendo o sinal monaural x e um conjunto de parâmetros espaciais P incluindo a correlação cruzada intercanal r e um parâmetro indicativo da diferença de canal c. É notado que o parâmetro c está relacionado à diferença de nível intercanal por ILD = k.log(c), onde k é uma constante, isto é, ILD é proporcional ao log de c.
Preferivelmente, o filtro passa tudo compreende um retardo dependente da freqüência provendo um retardo relativamente menor em altas freqüências do que em baixas ffeqüências. Isto pode ser obtido substituindo um retardo fixo do filtro passa tudo por um filtro passa tudo compreendendo um período de um complexo de fase de Schroeder (ver, por exemplo, M.R. Schroeder, “Synthesis of low-peak-factorsignals and binary sequences with low autocorrelation”, IEEE Transact. Inf. Theor, 16:85-89, 1970). O decorrelator compreende adicionalmente um circuito de análise 402 que recebe os parâmetros espaciais do decodificador e extrai a correlação cruzada intercanal r e a diferença de canal c. O circuito 402 determina uma matriz de mistura Μ(α,β) conforme será descrito abaixo. As componentes da matriz de mistura são alimentadas em um circuito de transformação 403 que recebe adicionalmente o sinal de entrada x e o sinal filtrado H®x. O circuito 403 efetua uma operação de mistura de acordo com (3) resultando nos sinais de saída L e R. A correlação entre os sinais L e R pode ser expressa como um ângulo a entre vetores representando o sinal L e R, respectivamente, em um espaço abrangido pelos sinais x e H®x, de acordo com r = cos(a). Conseqüentemente, qualquer par de vetores que apresenta a distância angular correta tem a correlação especificada.
Daí, uma matriz de mistura M que transforma os sinais x e H®x em sinais L e R com uma correlação pré-determinada r, pode ser expressa conforme segue: (4) Então, a quantidade de sinal no filtro passa tudo depende da correlação desejada. Ainda mais, a energia da componente de sinal passa tudo é a mesma em ambos os canais de saída (porém com um deslocamento de fase de 180°). r E notado aue o caso em aue a matriz M é dada por (5) isto é, o caso onde α = 90° correspondendo a sinais de saída não correlacionados (r = 0) corresponde a um decorrelator de Lauridsen.
No sentido de ilustrar um problema com a matriz da equação (5), supomos uma situação com uma panorâmica de amplitude extrema na direção do canal esquerdo, isto é, um caso onde um certo sinal está presente somente no canal esquerdo. Supomos adicionalmente que a correlação desejada entre as saídas é zero. Neste caso, a saída do canal esquerdo da transformação da equação (3) com a matriz de mistura da equação (5) produz . Então, a saída consiste do sinal original x combinada com sua versão filtrada passa tudo H®x.
Entretanto, esta é uma situação indesejada, uma vez que o filtro passa tudo usualmente deteriora a qualidade perceptual do sinal. Ainda mais, a adição do sinal original e do sinal filtrado resulta em efeitos de filtro de crista, tal como a coloração percebida do sinal de saída. Neste caso extremo suposto, a melhor solução seria o sinal de saída esquerdo consistisse do sinal de entrada, Este modo de correlação dos dois sinais de saída ainda seria zero.
Em situações com diferenças de nível mais moderadas, a situação preferida é que o canal de saída mais alto contenha relativamente mais do sinal original, e o canal de saída mais suave contenha relativamente mais do sinal filtrado. Daí, em geral, é preferido maximizar a quantidade de sinal original presente nas duas saídas juntas, e minimizar a quantidade do sinal filtrado.
De acordo com esta realização, isto é obtido introduzindo uma matriz de mistura diferente incluindo uma rotação comum adicional: (6) Aqui, β é uma rotação adicional, e C é uma matriz de escalamento que assegura que a diferença de nível relativa entre os sinais de saída seja igual a c, isto é, Inserir a matriz da equação (6) na equação (3) produz os sinais de saída gerados pela operação matricial de acordo com esta realização: Daí, os sinais de saída L e R ainda possuem uma diferença angular a, isto é, a correlação entre os sinais L e R não é afetada pelo escalamento de sinais L e R, de acordo com a diferença de nível desejada, e a rotação adicional pelo ângulo β de ambos os sinais L e R.
Conforme mencionado acima, preferivelmente, a quantidade do sinal x na saída somada de L e R deveria ser maximizada. Esta condição pode ser usada para determinar o ângulo β, de acordo com o que produz a condição: Em resumo, este pedido descreve uma descrição paramétrica motivada psico acusticamente dos atributos espaciais de sinais de áudio de múltiplos canais. Esta descrição paramétrica permite fortes reduções de taxa de bit em codificadores de áudio, uma vez que somente um sinal monaural tem que ser transmitido, combinado com parâmetros (quantizados) que descrevem as propriedades do sinal. O decodificador pode formar a quantidade original de canais de áudio aplicando os parâmetros espaciais. Para áudio estéreo de qualidade próxima de CD, uma taxa de bit associada a estes parâmetros espaciais de 10 kbit/s ou menos, parece suficiente para reproduzir a impressão espacial correta na extremidade de recepção. Esta taxa de bit pode ser escalada adicionalmente reduzindo a resolução espectral e/ou temporal dos parâmetros espaciais e/ou processando os parâmetros espaciais usando algoritmos de compressão sem perdas.
Deveria ser notado que as realizações acima mencionadas ilustram, ao invés de limitar a invenção, e que aqueles especialistas na técnica serão capazes de projetar muitas realizações alternativas, sem se afastar do escopo das reivindicações anexas.
Por exemplo, a invenção foi primariamente descrita em conexão com uma realização usando as duas sugestões de localização ILD e ITD/IPD. Em realizações alternativas, outras sugestões de localização podem ser usadas. Ainda mais, em uma realização, a ILD, a ITD/IPD, e a correlação cruzada intercanal podem ser determinadas conforme descrito acima, mas somente a correlação cruzada intercanal é transmitida juntamente com o sinal monaural, reduzindo deste modo adicionalmente a capacidade requerida de largura de faixa/armazenagem para transmitir/armazenar o sinal de áudio. Altemativamente, a correlação cruzada intercanal e uma das ILD e ITD/IPD podem ser transmitidas. Nestas realizações, o sinal é sintetizado a partir do sinal monaural com base nos parâmetros transmitidos somente.
Nas reivindicações, quaisquer sinais de referência colocados entre parênteses não serão considerados como limitando a reivindicação. A palavra “compreendendo” não exclui a presença de elementos ou etapas diferentes daqueles listados em uma reivindicação. A palavra “um” ou “uma” precedendo um elemento não exclui a presença de diversos de tais elementos. A invenção pode ser implementada por meio de hardware compreendendo diversos elementos distintos e por meio de um computador adequadamente programado. Na reivindicação de dispositivo enumerando diversos meios, diversos destes meios podem ser realizados por um ou pelo mesmo item de hardware. O mero fato de que certas medidas são descritas em reivindicações dependentes mutuamente diferentes, não indica que uma combinação destas medidas não possa ser usada com vantagem.
REIVINDICAÇÕES

Claims (13)

1. Método para codificar um sinal de áudio, o método compreendendo: gerar um sinal inonaural compreendendo uma combinação de pelo menos dois canais de áudio de entrada» determinar um conjunto de parâmetros espaciais indicativos de propriedades espaciais dos pelo menos dois canais de áudio de entrada, gerar um sinal codificado compreendendo o sinal mona ura 1 e o conjunto de parâmetros espaciais, e caracterizado por o conjunto de parâmetros espaciais incluindo um parâmetro representando uma medida de similaridade de formas de onda dos pelo menos dois canais de áudio de entrada.
2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de determinar um conjunto de parâmetros espaciais indicativos das propriedades espaciais, compreende determinar um conjunto de parâmetros espaciais como uma função do tempo e da frequência.
3. Método de acordo com a reivindicação 2, caracterizado pelo fato de que a etapa de determinar um conjunto de parâmetros espaciais indicativos das propriedades espaciais, compreende dividir cada um dos pelo menos dois canais de áudio de entrada em correspondentes diversas faixas de frequência; para cada uma das diversas faixas de frequência, determinar o conjunto de parâmetros espaciais indicativo de propriedades espaciais dos pelo menos dois canais de áudio de entrada dentro da faixa de frequência correspondente,
4. Método de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pelo fato de que o conjunto de parâmetros espaciais incluí pelo menos uma sugestão de localização.
5. Método de acordo com a reivindicação 4, caracterizado pelo fato de que o conjunto de parâmetros espaciais inclui pelo menos duas sugestões de localização compreendendo uma diferença de nível intercanal e uma selecionada dentre uma diferença de tempo intercanal e uma diferença de fase intercanal.
6. Método de acordo com a reivindicação 4 ou 5, caracterizado pelo fato de que a medida de similaridade compreende informação que não pode ser responsável pelas sugestões de localização.
7. Método de acordo com qualquer uma das reivindicações 1 a 6, caracterizado pelo fato de que a medida de similaridade corresponde a um valor de uma função de correlação cruzada em um máximo da citada função de correlação cruzada.
8. Método de acordo com qualquer uma das reivindicações 1 a 7, caracterizado pelo fato de que a etapa de gerar um sinal codificado compreendendo o sinal monaural e o conjunto de parâmetros espaciais, compreende gerar um conjunto de parâmetros espaciais quantizados, cada um introduzindo um erro de quantização correspondente, relativo ao parâmetro espacial determinado correspondente, onde pelo menos um dos erros de quantização introduzidos é controlado para depender de um valor de pelo menos um dos parâmetros espaciais determinados.
9. Codificador para codificar um sinal de áudio, o codificador compreendendo: meio para gerar um sinal monaural compreendendo uma combinação de pelo menos dois canais de áudio de entrada, meio para determinar um conjunto de parâmetros espaciais indicativos de propriedades espaciais dos pelo menos dois canais de áudio de entrada, meio para gerar um sinal codificado compreendendo o sinal monaural e o conjunto de parâmetros espaciais, e caracterizado por o conjunto de parâmetros espaciais incluindo um parâmetro representando uma medida de similaridade de formas de onda dos pelo menos dois canais de áudio de entrada,
10. Sinal de áudio codificado, o sinal compreendendo; um sinal monaural compreendendo uma combinação de pelo menos dois canais de áudio, e um conjunto de parâmetros espaciais indicativos de propriedades espaciais dos pelo menos dois canais de áudio de entrada, caracterizado por o conjunto de parâmetros espaciais incluindo um parâmetro representando uma medida de similaridade de formas de onda dos pelo menos dois canais de áudio de entrada,
11. Meio de armazenagem, caracterizado pelo fato de ter armazenado nele um sinal codificado como definido na reivindicação 10.
12. Método para decodificar um sinal de áudio codificado, o método compreendendo: obter um sinal monaural a partir do sinal de áudio codificado, o sinal monaural compreendendo uma combinação de pelo menos dois canais de áudio, obter um conjunto de parâmetros espaciais a partir do sinal de áudio codificado, gerar um sinal de saída de múltiplos canais a partir do sinal monaural e dos parâmetros espaciais, e caracterizado por o conjunto de parâmetros espaciais incluindo um parâmetro representando uma medida de similaridade de formas de onda dos pelo menos dois canais de áudio.
13. Decodificador para decodificar um sinal de áudio codificado, o decodifícador compreendendo: meio para obter um sinal monaural a partir do sinal de áudio codificado, o sinal monaural compreendendo uma combinação de pelo menos dois canais de áudio, e meio para obter um conjunto de parâmetros espaciais a partir do sinal de áudio codificado, meio para gerar um sinal de saída de múltiplos canais a partir do sinal monaural e dos parâmetros espadais, e caracterizado por o conjunto de parâmetros espaciais incluindo um parâmetro representando uma medida de similaridade de formas de onda dos pelo menos dois canais de áudio.
BRPI0304540-4A 2002-04-22 2003-04-22 Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign BRPI0304540B1 (pt)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
EP02076588.9 2002-04-22
EP02076588 2002-04-22
EP02077863.5 2002-07-12
EP02077863 2002-07-12
EP02079303 2002-10-14
EP02079303.0 2002-10-14
EP02079817.9 2002-11-20
EP02079817 2002-11-20
PCT/IB2003/001650 WO2003090208A1 (en) 2002-04-22 2003-04-22 pARAMETRIC REPRESENTATION OF SPATIAL AUDIO

Publications (1)

Publication Number Publication Date
BRPI0304540B1 true BRPI0304540B1 (pt) 2017-12-12

Family

ID=29255420

Family Applications (2)

Application Number Title Priority Date Filing Date
BRPI0304540-4A BRPI0304540B1 (pt) 2002-04-22 2003-04-22 Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign
BR0304540A BR0304540A (pt) 2002-04-22 2003-04-22 Métodos para codificar um sinal de áudio, e para decodificar um sinal de áudio codificado, codificador para codificar um sinal de áudio, aparelho para fornecer um sinal de áudio, sinal de áudio codificado, meio de armazenagem, e, decodificador para decodificar um sinal de áudio codificado

Family Applications After (1)

Application Number Title Priority Date Filing Date
BR0304540A BR0304540A (pt) 2002-04-22 2003-04-22 Métodos para codificar um sinal de áudio, e para decodificar um sinal de áudio codificado, codificador para codificar um sinal de áudio, aparelho para fornecer um sinal de áudio, sinal de áudio codificado, meio de armazenagem, e, decodificador para decodificar um sinal de áudio codificado

Country Status (11)

Country Link
US (3) US8340302B2 (pt)
EP (2) EP1881486B1 (pt)
JP (3) JP4714416B2 (pt)
KR (2) KR100978018B1 (pt)
CN (1) CN1307612C (pt)
AT (2) ATE426235T1 (pt)
AU (1) AU2003219426A1 (pt)
BR (2) BRPI0304540B1 (pt)
DE (2) DE60318835T2 (pt)
ES (2) ES2300567T3 (pt)
WO (1) WO2003090208A1 (pt)

Families Citing this family (159)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
JP4714416B2 (ja) * 2002-04-22 2011-06-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 空間的オーディオのパラメータ表示
DE60311794C5 (de) * 2002-04-22 2022-11-10 Koninklijke Philips N.V. Signalsynthese
US7343281B2 (en) 2003-03-17 2008-03-11 Koninklijke Philips Electronics N.V. Processing of multi-channel signals
FR2853804A1 (fr) * 2003-07-11 2004-10-15 France Telecom Procede de decodage d'un signal permettant de reconstituer une scene sonore et dispositif de decodage correspondant
JP2007504503A (ja) * 2003-09-05 2007-03-01 コニンクリユケ フィリップス エレクトロニクス エヌ.ブイ. 低ビットレートオーディオ符号化
US7725324B2 (en) 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
KR20070001139A (ko) * 2004-02-17 2007-01-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 분배 시스템, 오디오 인코더, 오디오 디코더 및이들의 동작 방법들
DE102004009628A1 (de) * 2004-02-27 2005-10-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Beschreiben einer Audio-CD und Audio-CD
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
KR101079066B1 (ko) * 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
CN101552007B (zh) * 2004-03-01 2013-06-05 杜比实验室特许公司 用于对编码音频信道和空间参数进行解码的方法和设备
US7805313B2 (en) 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
EP1735777A1 (en) * 2004-04-05 2006-12-27 Koninklijke Philips Electronics N.V. Multi-channel encoder
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
EP1600791B1 (en) * 2004-05-26 2009-04-01 Honda Research Institute Europe GmbH Sound source localization based on binaural signals
US7756713B2 (en) 2004-07-02 2010-07-13 Panasonic Corporation Audio signal decoding device which decodes a downmix channel signal and audio signal encoding device which encodes audio channel signals together with spatial audio information
EP1779385B1 (en) * 2004-07-09 2010-09-22 Electronics and Telecommunications Research Institute Method and apparatus for encoding and decoding multi-channel audio signal using virtual source location information
KR100663729B1 (ko) 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
KR100773539B1 (ko) * 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
KR100658222B1 (ko) * 2004-08-09 2006-12-15 한국전자통신연구원 3차원 디지털 멀티미디어 방송 시스템
TWI393120B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 用於音訊信號編碼及解碼之方法和系統、音訊信號編碼器、音訊信號解碼器、攜帶有位元流之電腦可讀取媒體、及儲存於電腦可讀取媒體上的電腦程式
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
BRPI0514998A (pt) 2004-08-26 2008-07-01 Matsushita Electric Ind Co Ltd equipamento de codificação de sinal de canal múltiplo e equipamento de decodificação de sinal de canal múltiplo
US8046217B2 (en) 2004-08-27 2011-10-25 Panasonic Corporation Geometric calculation of absolute phases for parametric stereo decoding
WO2006022190A1 (ja) * 2004-08-27 2006-03-02 Matsushita Electric Industrial Co., Ltd. オーディオエンコーダ
WO2006025337A1 (ja) 2004-08-31 2006-03-09 Matsushita Electric Industrial Co., Ltd. ステレオ信号生成装置およびステレオ信号生成方法
DE102004042819A1 (de) 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
CN101015230B (zh) * 2004-09-06 2012-09-05 皇家飞利浦电子股份有限公司 音频信号增强
DE102004043521A1 (de) 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
WO2006030754A1 (ja) * 2004-09-17 2006-03-23 Matsushita Electric Industrial Co., Ltd. オーディオ符号化装置、復号化装置、方法、及びプログラム
JP2006100869A (ja) * 2004-09-28 2006-04-13 Sony Corp 音声信号処理装置および音声信号処理方法
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
MX2007005027A (es) 2004-10-26 2007-06-19 Dolby Lab Licensing Corp Calculo y ajuste de la sonoridad percibida y/o el balance espectral percibido de una senal de audio.
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
DE602005017302D1 (de) 2004-11-30 2009-12-03 Agere Systems Inc Synchronisierung von parametrischer raumtonkodierung mit extern bereitgestelltem downmix
RU2007120056A (ru) * 2004-11-30 2008-12-10 Мацусита Электрик Индастриал Ко. Устройство стереокодирования, устройство стереодекодирования и способы стереокодирования и стереодекодирования
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
EP1817767B1 (en) 2004-11-30 2015-11-11 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
KR100682904B1 (ko) 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
KR100657916B1 (ko) 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
EP2138999A1 (en) * 2004-12-28 2009-12-30 Panasonic Corporation Audio encoding device and audio encoding method
JP4842147B2 (ja) * 2004-12-28 2011-12-21 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US9626973B2 (en) 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
EP1858006B1 (en) * 2005-03-25 2017-01-25 Panasonic Intellectual Property Corporation of America Sound encoding device and sound encoding method
MX2007011915A (es) 2005-03-30 2007-11-22 Koninkl Philips Electronics Nv Codificacion de audio multicanal.
PL1866911T3 (pl) * 2005-03-30 2010-12-31 Koninl Philips Electronics Nv Skalowalne, wielokanałowe kodowanie dźwięku
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
EP1881487B1 (en) 2005-05-13 2009-11-25 Panasonic Corporation Audio encoding apparatus and spectrum modifying method
CN101185118B (zh) * 2005-05-26 2013-01-16 Lg电子株式会社 解码音频信号的方法和装置
US8577686B2 (en) 2005-05-26 2013-11-05 Lg Electronics Inc. Method and apparatus for decoding an audio signal
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
AU2006255662B2 (en) * 2005-06-03 2012-08-23 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
RU2433489C2 (ru) * 2005-07-06 2011-11-10 Конинклейке Филипс Электроникс Н.В. Параметрическое многоканальное декодирование
US7411528B2 (en) 2005-07-11 2008-08-12 Lg Electronics Co., Ltd. Apparatus and method of processing an audio signal
KR101492826B1 (ko) * 2005-07-14 2015-02-13 코닌클리케 필립스 엔.브이. 다수의 출력 오디오 채널들을 생성하기 위한 장치 및 방법과, 그 장치를 포함하는 수신기 및 오디오 재생 디바이스, 데이터 스트림 수신 방법, 및 컴퓨터 판독가능 기록매체
US8626503B2 (en) 2005-07-14 2014-01-07 Erik Gosuinus Petrus Schuijers Audio encoding and decoding
KR100755471B1 (ko) * 2005-07-19 2007-09-05 한국전자통신연구원 가상음원위치정보에 기반한 채널간 크기 차이 양자화 및역양자화 방법
WO2007011157A1 (en) * 2005-07-19 2007-01-25 Electronics And Telecommunications Research Institute Virtual source location information based channel level difference quantization and dequantization method
PL1905006T3 (pl) * 2005-07-19 2014-02-28 Koninl Philips Electronics Nv Generowanie wielokanałowych sygnałów audio
JP5113049B2 (ja) 2005-07-29 2013-01-09 エルジー エレクトロニクス インコーポレイティド 符号化されたオーディオ信号の生成方法及びオーディオ信号の処理方法
WO2007013780A1 (en) * 2005-07-29 2007-02-01 Lg Electronics Inc. Method for signaling of splitting information
TWI396188B (zh) 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
KR20070025905A (ko) * 2005-08-30 2007-03-08 엘지전자 주식회사 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법
WO2007027055A1 (en) 2005-08-30 2007-03-08 Lg Electronics Inc. A method for decoding an audio signal
CN101253557B (zh) * 2005-08-31 2012-06-20 松下电器产业株式会社 立体声编码装置及立体声编码方法
KR101277041B1 (ko) * 2005-09-01 2013-06-24 파나소닉 주식회사 멀티 채널 음향 신호 처리 장치 및 방법
CN101454828B (zh) * 2005-09-14 2011-12-28 Lg电子株式会社 解码音频信号的方法和装置
WO2007032647A1 (en) 2005-09-14 2007-03-22 Lg Electronics Inc. Method and apparatus for decoding an audio signal
CN101427307B (zh) * 2005-09-27 2012-03-07 Lg电子株式会社 编码/解码多声道音频信号的方法和装置
JP2009518659A (ja) 2005-09-27 2009-05-07 エルジー エレクトロニクス インコーポレイティド マルチチャネルオーディオ信号の符号化/復号化方法及び装置
US8179977B2 (en) 2005-10-13 2012-05-15 Lg Electronics Inc. Method of apparatus for processing a signal
EP1946307A4 (en) * 2005-10-13 2010-01-06 Lg Electronics Inc METHOD AND DEVICE FOR SIGNAL PROCESSING
WO2007046660A1 (en) 2005-10-20 2007-04-26 Lg Electronics Inc. Method for encoding and decoding multi-channel audio signal and apparatus thereof
JP2009514008A (ja) * 2005-10-26 2009-04-02 エルジー エレクトロニクス インコーポレイティド マルチチャンネルオーディオ信号の符号化及び復号化方法とその装置
US7760886B2 (en) 2005-12-20 2010-07-20 Fraunhofer-Gesellschaft zur Foerderung der Angewandten Forscheng e.V. Apparatus and method for synthesizing three output channels using two input channels
EP1806593B1 (en) * 2006-01-09 2008-04-30 Honda Research Institute Europe GmbH Determination of the adequate measurement window for sound source localization in echoic environments
ATE476732T1 (de) * 2006-01-09 2010-08-15 Nokia Corp Steuerung der dekodierung binauraler audiosignale
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
WO2007083957A1 (en) 2006-01-19 2007-07-26 Lg Electronics Inc. Method and apparatus for decoding a signal
JPWO2007088853A1 (ja) * 2006-01-31 2009-06-25 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
EP1989704B1 (en) 2006-02-03 2013-10-16 Electronics and Telecommunications Research Institute Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue
CN101385077B (zh) * 2006-02-07 2012-04-11 Lg电子株式会社 用于编码/解码信号的装置和方法
KR100921453B1 (ko) 2006-02-07 2009-10-13 엘지전자 주식회사 부호화/복호화 장치 및 방법
EP1987595B1 (en) 2006-02-23 2012-08-15 LG Electronics Inc. Method and apparatus for processing an audio signal
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
TWI340600B (en) 2006-03-30 2011-04-11 Lg Electronics Inc Method for processing an audio signal, method of encoding an audio signal and apparatus thereof
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
RU2417514C2 (ru) 2006-04-27 2011-04-27 Долби Лэборетериз Лайсенсинг Корпорейшн Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий
ATE527833T1 (de) 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
EP1862813A1 (en) * 2006-05-31 2007-12-05 Honda Research Institute Europe GmbH A method for estimating the position of a sound source for online calibration of auditory cue to location transformations
WO2008016097A1 (fr) * 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
US20080235006A1 (en) 2006-08-18 2008-09-25 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
AU2007300810B2 (en) * 2006-09-29 2010-06-17 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN101479787B (zh) * 2006-09-29 2012-12-26 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
JP5232791B2 (ja) * 2006-10-12 2013-07-10 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びその方法
MY144271A (en) 2006-10-20 2011-08-29 Dolby Lab Licensing Corp Audio dynamics processing using a reset
EP2092516A4 (en) 2006-11-15 2010-01-13 Lg Electronics Inc METHOD AND APPARATUS FOR AUDIO SIGNAL DECODING
WO2008069594A1 (en) 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP5463143B2 (ja) 2006-12-07 2014-04-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及びその装置
WO2008096313A1 (en) * 2007-02-06 2008-08-14 Koninklijke Philips Electronics N.V. Low complexity parametric stereo decoder
US20100119073A1 (en) * 2007-02-13 2010-05-13 Lg Electronics, Inc. Method and an apparatus for processing an audio signal
CA2645915C (en) 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
JP4277234B2 (ja) * 2007-03-13 2009-06-10 ソニー株式会社 データ復元装置、データ復元方法及びデータ復元プログラム
EP2137824A4 (en) 2007-03-16 2012-04-04 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL
KR101453732B1 (ko) * 2007-04-16 2014-10-24 삼성전자주식회사 스테레오 신호 및 멀티 채널 신호 부호화 및 복호화 방법및 장치
CN103299363B (zh) 2007-06-08 2015-07-08 Lg电子株式会社 用于处理音频信号的方法和装置
KR20100024426A (ko) * 2007-06-27 2010-03-05 닛본 덴끼 가부시끼가이샤 신호 분석 장치와, 신호 제어 장치와, 그 시스템, 방법 및 프로그램
CN101802907B (zh) * 2007-09-19 2013-11-13 爱立信电话股份有限公司 多信道音频的联合增强
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
KR101464977B1 (ko) * 2007-10-01 2014-11-25 삼성전자주식회사 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
RU2452043C2 (ru) * 2007-10-17 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аудиокодирование с использованием понижающего микширования
CN102017402B (zh) 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
JP5309944B2 (ja) * 2008-12-11 2013-10-09 富士通株式会社 オーディオ復号装置、方法、及びプログラム
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
MX2011006248A (es) * 2009-04-08 2011-07-20 Fraunhofer Ges Forschung Aparato, metodo y programa de computacion para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavizacion de valor de fase.
KR101388901B1 (ko) 2009-06-24 2014-04-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호 디코더, 오디오 신호를 디코딩하는 방법 및 캐스케이드된 오디오 객체 처리 단계들을 이용한 컴퓨터 프로그램
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
TWI433137B (zh) 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
EP2489040A1 (fr) * 2009-10-16 2012-08-22 France Telecom Decodage parametrique stereo optimise
MY154641A (en) * 2009-11-20 2015-07-15 Fraunhofer Ges Forschung Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear cimbination parameter
US9042559B2 (en) 2010-01-06 2015-05-26 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
JP5333257B2 (ja) 2010-01-20 2013-11-06 富士通株式会社 符号化装置、符号化システムおよび符号化方法
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US9282417B2 (en) * 2010-02-02 2016-03-08 Koninklijke N.V. Spatial sound reproduction
CN102157152B (zh) 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
JP5508550B2 (ja) 2010-02-24 2014-06-04 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 拡張ダウンミックス信号を発生するための装置、拡張ダウンミックス信号を発生するための方法及びコンピュータプログラム
US9628930B2 (en) * 2010-04-08 2017-04-18 City University Of Hong Kong Audio spatial effect enhancement
US9378754B1 (en) 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
CN102314882B (zh) * 2010-06-30 2012-10-17 华为技术有限公司 声音信号通道间延时估计的方法及装置
EP2609590B1 (en) 2010-08-25 2015-05-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for decoding a signal comprising transients using a combining unit and a mixer
KR101697550B1 (ko) * 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
US9299355B2 (en) 2011-08-04 2016-03-29 Dolby International Ab FM stereo radio receiver by using parametric stereo
WO2013124445A2 (en) 2012-02-23 2013-08-29 Dolby International Ab Methods and systems for efficient recovery of high frequency audio content
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
EP2717262A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
US10219093B2 (en) * 2013-03-14 2019-02-26 Michael Luna Mono-spatial audio processing to provide spatial messaging
US9640163B2 (en) * 2013-03-15 2017-05-02 Dts, Inc. Automatic multi-channel music mix from multiple audio stems
KR20190134821A (ko) 2013-04-05 2019-12-04 돌비 인터네셔널 에이비 스테레오 오디오 인코더 및 디코더
WO2014170530A1 (en) * 2013-04-15 2014-10-23 Nokia Corporation Multiple channel audio signal encoder mode determiner
TWI579831B (zh) 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
ES2659019T3 (es) 2013-10-21 2018-03-13 Dolby International Ab Estructura de descorrelacionador para la reconstrucción paramétrica de señales de audio
EP2963649A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
WO2016025812A1 (en) * 2014-08-14 2016-02-18 Rensselaer Polytechnic Institute Binaurally integrated cross-correlation auto-correlation mechanism
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
US10224042B2 (en) 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
CN109215667B (zh) 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置
US11328735B2 (en) * 2017-11-10 2022-05-10 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8901032A (nl) * 1988-11-10 1990-06-01 Philips Nv Coder om extra informatie op te nemen in een digitaal audiosignaal met een tevoren bepaald formaat, een decoder om deze extra informatie uit dit digitale signaal af te leiden, een inrichting voor het opnemen van een digitaal signaal op een registratiedrager, voorzien van de coder, en een registratiedrager verkregen met deze inrichting.
JPH0454100A (ja) * 1990-06-22 1992-02-21 Clarion Co Ltd 音声信号補償回路
GB2252002B (en) * 1991-01-11 1995-01-04 Sony Broadcast & Communication Compression of video signals
NL9100173A (nl) * 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
GB2258781B (en) * 1991-08-13 1995-05-03 Sony Broadcast & Communication Data compression
FR2688371B1 (fr) * 1992-03-03 1997-05-23 France Telecom Procede et systeme de spatialisation artificielle de signaux audio-numeriques.
JPH09274500A (ja) * 1996-04-09 1997-10-21 Matsushita Electric Ind Co Ltd ディジタルオーディオ信号の符号化方法
DE19647399C1 (de) 1996-11-15 1998-07-02 Fraunhofer Ges Forschung Gehörangepaßte Qualitätsbeurteilung von Audiotestsignalen
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
GB9726338D0 (en) 1997-12-13 1998-02-11 Central Research Lab Ltd A method of processing an audio signal
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
GB2353926B (en) * 1999-09-04 2003-10-29 Central Research Lab Ltd Method and apparatus for generating a second audio signal from a first audio signal
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
JP4714416B2 (ja) * 2002-04-22 2011-06-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 空間的オーディオのパラメータ表示

Also Published As

Publication number Publication date
KR101016982B1 (ko) 2011-02-28
ATE385025T1 (de) 2008-02-15
JP5101579B2 (ja) 2012-12-19
BR0304540A (pt) 2004-07-20
WO2003090208A1 (en) 2003-10-30
CN1647155A (zh) 2005-07-27
ES2300567T3 (es) 2008-06-16
US9137603B2 (en) 2015-09-15
US20080170711A1 (en) 2008-07-17
DE60326782D1 (de) 2009-04-30
ES2323294T3 (es) 2009-07-10
EP1881486B1 (en) 2009-03-18
EP1500084A1 (en) 2005-01-26
JP4714416B2 (ja) 2011-06-29
JP5498525B2 (ja) 2014-05-21
EP1500084B1 (en) 2008-01-23
EP1881486A1 (en) 2008-01-23
KR100978018B1 (ko) 2010-08-25
KR20100039433A (ko) 2010-04-15
US8331572B2 (en) 2012-12-11
DE60318835D1 (de) 2008-03-13
DE60318835T2 (de) 2009-01-22
KR20040102164A (ko) 2004-12-03
US8340302B2 (en) 2012-12-25
JP2005523480A (ja) 2005-08-04
JP2009271554A (ja) 2009-11-19
ATE426235T1 (de) 2009-04-15
CN1307612C (zh) 2007-03-28
US20090287495A1 (en) 2009-11-19
JP2012161087A (ja) 2012-08-23
US20130094654A1 (en) 2013-04-18
AU2003219426A1 (en) 2003-11-03

Similar Documents

Publication Publication Date Title
BRPI0304540B1 (pt) Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign
ES2773794T3 (es) Aparato y procedimiento para estimar una diferencia de tiempos entre canales
Baumgarte et al. Binaural cue coding-Part I: Psychoacoustic fundamentals and design principles
US7542896B2 (en) Audio coding/decoding with spatial parameters and non-uniform segmentation for transients
KR101021076B1 (ko) 신호 합성
ES2682073T3 (es) Codificación conjunta paramétrica de fuentes de audio
JP4625084B2 (ja) バイノーラルキュー符号化方法等のための拡散音の整形
US8612237B2 (en) Method and apparatus for determining audio spatial quality
BRPI0605641B1 (pt) equipamento e método para a geração de sinal de controle sintetizador multicanais e equipamento e método para sintetizar multicanais
KR20150038156A (ko) 오브젝트-기반의 서라운드 코덱에 대한 피드백을 가진 스케일러블 다운믹스 설계
MX2012009785A (es) Aparato para generar señal de mezcla descendente mejorada, metodo para generar señal de mezcla descendente mejorada y programa de computadora.
BRPI0618002A2 (pt) método para uma melhor conformação temporal e espacial dos sinais de áudio multicanais
ES2808096T3 (es) Método y aparato para el control adaptativo de los filtros de decorrelación
BR112021007807A2 (pt) analisador, avaliador de similaridade, codificador e decodificador de áudio, conversor de formato, renderizador, métodos e representação de áudio
US7343281B2 (en) Processing of multi-channel signals
Briand et al. Parametric representation of multichannel audio based on principal component analysis
KR100891667B1 (ko) 믹스 신호의 처리 방법 및 장치
Jansson Stereo coding for the ITU-T G. 719 codec
Faller Spatial audio coding and MPEG surround