BRPI0712625A2 - codificador de áudio, decodificador de áudio, e processador de áudio tendo ema caractéristica de distorção ("warping") dinamicamente variável - Google Patents

codificador de áudio, decodificador de áudio, e processador de áudio tendo ema caractéristica de distorção ("warping") dinamicamente variável Download PDF

Info

Publication number
BRPI0712625A2
BRPI0712625A2 BRPI0712625-5A BRPI0712625A BRPI0712625A2 BR PI0712625 A2 BRPI0712625 A2 BR PI0712625A2 BR PI0712625 A BRPI0712625 A BR PI0712625A BR PI0712625 A2 BRPI0712625 A2 BR PI0712625A2
Authority
BR
Brazil
Prior art keywords
audio
filter
distortion
signal
coding
Prior art date
Application number
BRPI0712625-5A
Other languages
English (en)
Inventor
Juergen Herre
Bernhard Grill
Markus Multrus
Stefan Bayer
Ulrich Kraemer
Jens Hirschfeld
Stefan Wabnik
Gerald Schuller
Original Assignee
Fraunhofer Ges Ev
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/428,297 external-priority patent/US7873511B2/en
Priority claimed from EP06013604A external-priority patent/EP1873754B1/en
Application filed by Fraunhofer Ges Ev filed Critical Fraunhofer Ges Ev
Publication of BRPI0712625A2 publication Critical patent/BRPI0712625A2/pt
Publication of BRPI0712625B1 publication Critical patent/BRPI0712625B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Abstract

CODIFICADOR DE áUDIO, DECODIFICADOR DE áUDIO, E PROCESSADOR DE áUDIO TENDO UMA CARACTERìSTICA DE DISTORçãO ("WARPING") DINAMICAMENTE VARIáVEL. Codificador de áudio, decodificador de áudio ou processador de áudio que inlcui um filtro (12) para gerar um sinal de áudio filtrado, o filtro tendo uma característica de distorção variável, a característica sendo controlável em resposta a um sinal de controle de variação de tempo (16), o sinal de controle indicando uma característica de distorção pequena ou inexistente ou uma característica de distorção cmparativamente elevada. Adicionalmente, um controlador (18) é conectado para prover o sinal de controle de variação de tempo, que depende do sinal de áudio. O sinal de áudio filtrado pode ser introduzido a um processador de codificação (22) tendo algoritmos de codificação diferentes, um dos quais é um algoritmo de codificação adaptado a um padrão de sinal específico. Alternativamente, o filtro é um pós-filtro que recebe um sinal de áudio decodificado.

Description

"CODIFICADOR DE AUDIO, DECODIFICADOR DE AUDIO, E PROCESSADOR DE ÁUDIO TENDO UMA CARACTERÍSTICA DE DISTORÇÃO ("WARPING") DINAMICAMENTE VARIÁVEL"
Campo da Invenção
A presente invenção se refere a processamento de áudio usando filtros distorcidos e, especificamente, a codificação de áudio de objetivos múltiplos.
Histórico da Invenção e Estado da Técnica No contexto de áudio de taxa de bit baixa e tecnologia de codificação de voz, várias técnicas de codificação diferentes têm sido tradicionalmente empregadas de modo a atingir codificação de taxa de bit baixa destes sinais com a melhor qualidade subjetiva possível em uma taxa de bit dada. Codificadores para sinais de música / som gerais objetivam a otimização da qualidade subjetiva por formatação espectral (e temporal) do erro de quantização de acordo com uma curva do limite de máscara que é estimada do sinal de entrada por meio de um modelo perceptual ("codificação de áudio perceptual"). Por outro lado, a codificação de voz com taxas de bit muito baixas demonstrou ser muito eficiente quando ela é baseada em um modelo de produção de voz humana, isto é, empregando Codificação Preditiva Linear (Linear Predictive Coding) (LPC) ao modelo dos efeitos ressonantes do trato vocal humano, juntamente com uma codificação eficiente do sinal de excitação residual.
Como uma conseqüência destas duas abordagens diferentes, codificadores de áudio gerais (como MPEG-I Camada 3, ou Codificação de Áudio Avançada MPEG-2/4, AAC) usualmente não têm um bom desempenho com sinais de voz em taxas de dados muito baixas como os codificadores de voz baseados em LPC dedicados, devido à falta de exploração de um modelo de fonte de voz. Inversamente, codificadores de voz baseados em LPC usualmente não atingem resultados convincentes quando aplicados a sinais de música gerais devido a sua incapacidade para formatar flexivelmente o envelope espectral de distorção de codificação de acordo com uma curva de limite de máscara. A presente invenção objetiva prover um conceito que combine as vantagens de ambas, a codificação baseada em LPC e a codificação de áudio perceptual, em uma moldura única e, dessa maneira, descreve codificação de áudio unificada que seja eficiente tanto para áudio geral quanto para sinais de voz.
A seção a seguir descreve um conjunto de tecnologias relevantes que foram propostas para codificação eficiente de sinais de áudio e voz.
Codificação de áudio perceptual (Figura 9)
Tradicionalmente, os codificadores de áudio perceptuais usam uma abordagem baseada em banco de filtro para codificar eficientemente sinais de áudio e formatar a distorção de quantização de acordo com uma estimativa da curva de máscara.
A Figura 9 mostra o diagrama de bloco básico de um sistema de codificação perceptual monofônico. Um banco de filtro de análise é usado para mapear as amostras de domínio de tempo em componentes espectrais subamostrados.
Dependendo do número de componentes espectrais, o sistema é também referido como um codificador de sub-banda (pequeno número de sub-bandas, por exemplo, 32) ou um codificador baseado em banco de filtro (grande número de linhas de freqüência, por exemplo, 512). Um modelo perceptual ("psicoacústico") é usado para estimar o limite de máscara dependente de tempo real. Os componentes espectrais ("sub-banda" ou "domínio de freqüência") são quantificados e codificados de maneira que o ruído de quantização é escondido sob o sinal transmitido real e não é perceptível após decodificação. Isto é obtido pela variação da granularidade de quantização dos valores espectrais com o tempo e freqüência.
Como uma alternativa para o conceito de codificação perceptual inteiramente baseada em banco de filtro, codificação baseada na abordagem pré-/pós-filtragem foi proposta muito mais recentemente, conforme mostrado na Figura 10.
Em [EdlOO], um codificador de áudio perceptual foi proposto, o qual separa os aspectos de redução de irrelevância (isto é, formatação de ruído de acordo com critérios perceptuais) e redução de redundância (isto é, obtenção de uma representação matematicamente mais compacta de informação) pelo uso do assim denominado pré-filtro ao invés de uma quantização variável dos coeficientes espectrais em relação à freqüência. O princípio é ilustrado na figura a seguir. 0 sinal de entrada é analisado por um modelo perceptual para computar uma estimativa da curva de limite de máscara em relação à freqüência. 0 limite de máscara é convertido em um conjunto de coeficientes de pré-filtro, de modo que a magnitude de sua resposta de freqüência é inversamente proporcional ao limite de máscara. A operação de pré-filtro aplica este conjunto de coeficientes ao sinal de entrada que produz um sinal de saída onde todos os componentes de freqüência são representados de acordo com sua importância perceptual ("branqueamento perceptual"). Este sinal é subseqüentemente codificado por qualquer tipo de codificador de áudio que produza uma distorção de quantização "branca", isto é, não aplique qualquer formação de ruído perceptual. Dessa maneira, a transmissão / armazenagem do sinal de áudio inclui tanto corrente de bit do codificador quanto uma versão codificada dos coeficientes de pré-filtragem. No decodificador, a corrente de bits do codificador é decodificada em um sinal de áudio intermediário que é, então, submetido a uma operação de pós- filtragem de acordo com os coeficientes de filtro transmitidos. Visto que o pós-filtro executa o processo de filtragem inverso em relação ao pré-filtro, ele aplica uma pesagem espectral a este sinal de entrada de acordo com a curva de máscara. Desta maneira, o ruído de codificação espectralmente plano ("branco") aparece perceptualmente formatado na saída do decodificador, conforme pretendido.
Visto que neste esquema formatação de ruído perceptual é obtida por meio da etapa de pré-/pós filtragem ao invés de por meio de quantização dependente de freqüência de coeficientes espectrais, o conceito pode ser generalizado para incluir mecanismo de codificação não baseado em banco de filtro para representar o sinal de áudio pré-filtrado ao invés de um codificador de áudio baseado em banco de filtro. Em [Sch02] isto é mostrado para o kernel de codificação de domínio de tempo usando estágios de codificação preditivos e de entropia.
[EdlOO] B. Edler, G. Schuller: "Audio coding using a psychoacoustic pre- and post-fi1ter", XCASSP 2000, Volume .2, 5-9 de Junho de 2000 Página(s) :II881 - II884 vol. 2 [Sch02] G. Schuller, Β. Yu, D. Huang, e B. Edler, "Perceptual Audio Coding using Adaptive Pre- and Post-Filters and Lossless Compression", IEEE Transactions on Speech and Audio Processing, Setembro de 2002, páginas 379-390
De modo a permitir formatação de ruído espectral apropriada pelo uso de técnicas de pré-/pós-filtragem, é importante adaptar a resolução de freqüência do pré-/pós-filtro àquela do sistema auditivo humano. Idealmente, a resolução de freqüência seguiria escalas bem conhecidas de freqüência perceptual, tais como a escala de freqüência BARK ou ERB [Zwi] . Isto é especificamente desejável de modo a minimizar a ordem do modelo pré-/pós-filtro e, dessa maneira, a complexidade computacional associada e a taxa de transmissão de informação de lado.
A adaptação da resolução de freqüência de pré- /pós-filtro pode ser atingida pelo conceito de distorção de freqüência bem conhecido [KHL97]. Essencialmente, os atrasos de unidade dentro de uma estrutura de filtro são substituídos por filtros de passagem total (primeira ordem ou de ordem mais elevada), que conduzem a uma deformação não uniforme ("distorção") da resposta de freqüência do filtro. Foi demonstrado que mesmo com o uso de um filtro de passagem total de primeira-ordem (por exemplo,
<formula>formula see original document page 6</formula>, uma aproximação bastante precisa de escalas de freqüência perceptual é possível por meio de uma escolha apropriada dos coeficientes de passagem total [SA99]. Dessa maneira, sistemas mais conhecidos não fazem uso de filtros de passagem total de ordem mais elevada para distorção de freqüência. Visto que um filtro de passagem total de primeira ordem é totalmente determinado por um parâmetro de escala único (que será referido como o "fator de distorção" -l</t<l), que determina a deformação da escala de freqüência. Por exemplo, para um fator de distorção de A=Oj nenhuma deformação é efetiva, isto é, o filtro opera na escala de freqüência regular. Quanto maior for o fator de distorção escolhido, mais resolução de freqüência estará focada na parte de freqüência menor do espectro (como é necessário para aproximar uma escala de freqüência perceptual), e distanciada da parte de freqüência mais elevada do espectro. Isto é mostrado na Figura 5 tanto para coeficientes de distorção positivos quanto negativos:
Usando um pré-/pós-filtro distorcido,
codificadores de áudio tipicamente usam uma ordem de filtro entre8 e 20 em taxas de amostragem comuns como 48kHz ou 44.1kHz [WSKH05].
Várias outras aplicações de filtragem distorcida foram descritas, por exemplo, modelagem de respostas de impulso de sala [HKS00] e modelagem paramétrica de um componente de ruído no sinal de áudio (sob o nome equivalente de filtragem Laguerre / Kauz) [SOB03 ]
[Zwi] Zwicker, E. e H. Fastl, "Psychoacoustics, Facts and Models", Springer Verlag, Berlin. [KHL97] M. Karjalainen, A. Hârmá, U.K. Laine,
"Realizable warped IIR filters and their properties", IEEE ICASSP1997, páginas 2205 - 2208, vol.3. [SA99] J.O. Smi th, J.S. Abel, nBARK and ERB Bilinear Transforms", IEEE Transactions on Speech and Audio Processing, Volume 7, Edição 6, Nov. 1999, páginas 697 - 708.
[HKSO0] Hármá, Aki; Karjalainen, Matti; Savioja, Lauri; Válimáki, Vesa; Laine, Unto K.; Huopaniemi, Jyri, "Frequency-Warped Signal Processing for Audio Applications", Journal of the AES, Volume 48 Número 11 pãg. 1011-1031; Novembro de 2000.
[SOB03] E. Schuijers, W. Oomen, B. den Brinker, J. Breebaart, nAdvances in Parametric Coding for High-Quality Audio", 114th Convention, Amsterdam, The Netherlands 2003, pré- impressão 5852.
[WSKH05] S. Wabnik, G. Schuller, U. Kramer, J. Hirschfeld, "Frequency Warping in Low Delay Audio Coding", IEEE International Conference on Acoustics, Speech, and Signal Processing, 18-23 de Março, 2005, Philadelphia, PA, EUA.
Codificação de Voz Baseada em LPC
Tradicionalmente, codificação de voz eficiente foi baseada em Codificação Preditiva Linear (LPC) para modelar os efeitos ressonantes do trato vocal humano juntamente com uma codificação eficiente do sinal de excitação residual [VM06]. Ambos os parâmetros LPC e de excitação são transmitidos do codificador para o decodificador. Este princípio é ilustrado na figura a seguir (codificador e decodificador).
Com o tempo, muitos métodos foram propostos com relação a uma representação eficiente e perceptualmente convincente do sinal residual (excitação), tal como Excitação de Pulsos Múltiplos (MPE), Excitação de Pulso Regular (RPE), e Previsão Linear Excitada por Código (CELP).
Codificação Preditiva Linear tendo produzir uma estimativa do valor de amostra atual de uma seqüência baseada na observação de certo número de valores passados como uma combinação linear das observações passadas. De modo a reduzir redundância no sinal de entrada, o filtro LPC do codificador "embranquece" o sinal de entrada em seu envelope espectral, isto é, sua resposta de freqüência é um modelo do inverso do envelope espectral do sinal. Inversamente, a resposta de freqüência do filtro LPC do decodificador é um modelo do envelope espectral do sinal. Especificamente, a análise preditiva linear auto-regressiva (AR) bem conhecida é conhecida por modelar o envelope espectral do sinal por meio de uma aproximação de pólo total.
Tipicamente, codificadores de voz de banda estreita (isto é, codificadores de voz com uma taxa de amostragem de 8kHz) empregam um filtro LPC com uma ordem entre 8 e 12. Devido à natureza do filtro LPC, uma resolução de freqüência uniforme é efetiva através da faixa inteira de freqüência. Isto não corresponde a uma escala de freqüência perceptual.
Codificação LPC Distorcida
Observando que uma sensibilidade de freqüência não uniforme, como ela é oferecida por técnicas de distorção, pode oferecer vantagens também para codificação de voz, foram apresentadas propostas para substituir a análise LPC regular por análise preditiva distorcida. Especificamente, [TML94] propõe um codificador de voz que modela o envelope espectral de voz por coeficientes cepstrais c(m) que são atualizados amostra por amostra de acordo com o sinal de entrada de variação de tempo. A escala de freqüência do modelo é adaptada para aproximar a escala MEL perceptual [Zwi] pelo uso de um filtro de passagem total de primeira ordem ao invés do atraso de unidade usual. Um valor fixo de 0,31 para o coeficiente de distorção é usado na taxa de amostragem do codificador de 8kHz. A abordagem foi desenvolvida adicionalmente para incluir um núcleo de codificação CELP para representar o sinal de excitação em [KTK95], novamente usando um valor fixo de 0,31 para o coeficiente de distorção na taxa de amostragem do codificador de 8kHz.
Embora os autores reivindiquem bom desempenho do esquema proposto, a codificação do estado da técnica não adota as técnicas de codificação preditiva distorcidas.
Outras combinações de codificação LPC e CELP distorcidas são conhecidas, por exemplo, [HLM99] para as quais um fator de distorção de 0,723 é usado em uma taxa de amostragem de .44,1 kHz.
[TMK94] K. Tokuda, H. Matsumura, T. Kobayashi e S. Imai, "Speech coding based on adaptive mel-cepstral analysis," Proc. IEEE ICASSP'94, pág.197-200, Abril de 1994.
[KTK95] K. Koishida, K. Tokuda, T. Kobayashi e S. Imai, "CELP coding based on mel-cepstral analysis," Proc. IEEE ICASSP'95, pág.33-36, 1995.
[HLM99] Aki Hármá, Unto K. Laine, Matti Karjalainen, "Warped low-delay CELP for wideband áudio coding", 17th International AES Conference, Florença, Itália, 1999 [VM06] Peter Vary, Rainer Martin, "Digital Speech Transmission: Enhancement, Coding and Error Concealment", publicado por John Wiley & Sons, LTD, 2006, ISBN 0-471-56018-9
Codificação LPC Distorcida Generalizada
A idéia de executar codificação de voz em uma escala de freqüência distorcida foi desenvolvida adicionalmente nos anos seguintes. Especificamente, foi observado que uma distorção convencional total da análise espectral de acordo com uma escala de freqüência perceptual pode não ser apropriada para atingir a melhor qualidade possível para codificação de sinais de voz. Portanto, uma análise Mel-cepstral generalizada foi proposta em [KTK96] que permite atenuar as características do modelo espectral entre aquele da análise mel-cepstral previamente proposta (com uma escala de freqüência totalmente distorcida e uma análise cepstral), e as características de um modelo LPC tradicional (com uma escala de freqüência uniforme e um modelo de todos os pólos ("all-pole model") do envelope espectral do sinal). Especificamente, a análise generalizada proposta possui dois parâmetros que controlam estas características:
• 0 parâmetro γ,-ls/sO continuamente é atenuado entre um tipo cepstral e um tipo LPC de análise, onde γ= 0 corresponde a uma análise tipo cepstral e γ =-1 corresponde a uma análise tipo LPC.
• 0 parâmetro α,|α;|<1 é o fator de distorção. Um valor de a=0 corresponde a uma escala de freqüência totalmente uniforme (como no padrão LPC), e um valor de a=0,31 corresponde a uma distorção de freqüência perceptual total. O mesmo conceito foi aplicado à codificação de voz de banda larga (em uma taxa de amostragem de 16kHz) no [KHT98] . Deve ser observado que o ponto de operação (γ; α) para esta análise generalizada é escolhido previamente e não varia com o tempo.
[KTK96] K. Koishida, K. Tokuda, T. Kobayashi e S. Imai, "CELP coding system based on mel-generalized cepstral analysis, " Proc. ICSLP'96, pág. 318-321, 1996.
[KHT98] K. Koishida, G. Hirabayashi, K. Tokuda, e T. Kobayashi, "A wideband CELP speech coder at 16 kbit/s based on mel-generalized cepstral analysis," Proc. IEEE ICASSP'98, pág. 161 - 164, 1998.
Uma estrutura compreendendo tanto um filtro de codificação quanto dois kernels de codificação alternados foi descrita previamente na literatura ("WB-AMR+ Coder" [BLS05]). Não existe qualquer noção de uso de um filtro distorcido, ou mesmo de um filtro com característica de distorção de variação de tempo.
[BLS05] B. Bessette, R. Lefebvre, R. Salami, "UNIVERSAL SPEECH/AUDIO CODING USING HYBRID ACELP/TCX TECHNIQUES," Proc. IEEE ICASSP 2005, pág. 301 - 304, 2005.
A desvantagem de todas aquelas técnicas existentes é que elas todas são dedicadas a um algoritmo de codificação de áudio específico. Qualquer codificador de voz usando filtros de distorção é idealmente adaptado para sinais de voz, mas fica comprometido quando é aplicado a sinais de áudio gerais tais como sinais de música.
Por outro lado, codificadores de áudio gerais são otimizados para esconder perfeitamente o ruído de quantização abaixo do limite de máscara, isto é, são idealmente adaptados para executar uma redução de irrelevância. Para este fim, eles têm uma funcionalidade para responder pela resolução de freqüência não uniforme do mecanismo auditivo humano. Entretanto, devido ao fato de que eles são codificadores de áudio gerais, eles não podem especificamente usar qualquer conhecimento prévio em um tipo específico de padrões de sinal que são a razão para obter as taxas de bits muito baixas conhecidas, por exemplo, dos codificadores de voz.
Adicionalmente, muitos codificadores de voz são codificadores de domínio de tempo usando livros de código fixos e variáveis, enquanto a maioria dos codificadores de áudio gerais são, devido ao limite de máscara, que é uma medição de freqüência, codificadores baseados em banco de filtro de modo que é altamente problemático introduzir ambos os codificadores em uma moldura única de codificação/decodificação de uma maneira eficiente, embora existam também codificadores de áudio geral baseados em domínio de tempo.
Sumário da Invenção
É objetivo da presente invenção prover um conceito de codificação de uso geral melhorado que proveja alta qualidade e taxa de bits baixa não apenas para padrões de sinal específico, mas também para sinais de áudio geral.
De acordo com o primeiro aspecto da presente invenção, este objetivo é atingido por um codificador de áudio para codificação de um sinal de áudio, compreendendo um pré-filtro para gerar um sinal de áudio pré-filtrado, o pré-filtro tendo uma característica de distorção variável, a característica de distorção sendo controlável em resposta a um sinal de controle de variação de tempo, o sinal de controle indicando uma característica de distorção pequena ou inexistente ou uma característica de distorção comparativamente elevada; um controlador para prover o sinal de controle de variação de tempo, o sinal de controle de variação de tempo dependendo do sinal de áudio; e um processador de codificação controlável para processamento do sinal de áudio pré-filtrado para obter um sinal de áudio codificado, onde o processador de codificação é adaptado para processar o sinal de áudio pré-filtrado de acordo com um primeiro algoritmo de codificação adaptado para um padrão de sinal específico, ou de acordo com um segundo algoritmo de codificação diferente adequado para codificar um sinal de áudio geral.
Preferivelmente, o processador de codificação é adaptado para ser controlado pelo controlador, de modo que uma porção do sinal de áudio, que é filtrada por meio do uso da característica de distorção comparativamente elevada, é processada usando o segundo algoritmo de codificação para obter o sinal codificado e um sinal de áudio sendo filtrado usando a característica de distorção pequena ou inexistente é processado usando o primeiro algoritmo de codificação.
De acordo com um aspecto adicional da presente invenção, este objetivo é atingido por um decodificador de áudio para decodificar um sinal de áudio codificado, o sinal de áudio codificado tendo uma primeira porção codificada de acordo com um primeiro algoritmo de codificação adaptado a um padrão de sinal específico, e tendo uma segunda porção codificada de acordo com um segundo algoritmo de codificação diferente adequado para codificar um sinal de áudio geral, compreendendo: um detector para detectar um algoritmo de codificação subjacente à primeira porção ou à segunda porção; um processador de decodificação para decodificar, em resposta ao detector, a primeira porção usando o primeiro algoritmo de codificação para obter uma primeira porção de tempo decodificada e para decodificar a segunda porção usando o segundo algoritmo de codificação para obter uma segunda porção de tempo decodificada; e um pós-filtro tendo uma característica de distorção variável sendo controlável entre um primeiro estado tendo uma característica de distorção pequena ou inexistente e um segundo estado tendo uma característica de distorção comparativamente elevada.
Preferivelmente, o pós-filtro é controlado de modo que a primeira porção de tempo decodificada seja filtrada usando a característica de distorção pequena ou inexistente e a segunda porção de tempo decodificada seja filtrada usando uma característica de distorção comparativamente elevada.
De acordo com um aspecto adicional da presente invenção, este objetivo é atingido por um processador de áudio para processamento de um sinal de áudio, compreendendo: um filtro para gerar um sinal de áudio filtrado, o filtro tendo uma característica de distorção variável, a característica de distorção sendo controlável em resposta a um sinal de controle de variação de tempo, o sinal de controle indicando uma característica de distorção pequena ou inexistente ou uma característica de distorção comparativamente elevada; e um controlador para prover o sinal de controle de variação de tempo, o sinal de controle de variação de tempo dependendo do sinal de áudio.
Aspectos adicionais da presente invenção se referem a métodos correspondentes de codificação, decodificação e processamento de áudio, assim como programas de computador e o sinal de áudio codificado associados.
A presente invenção é baseada na descoberta de que um pré-filtro tendo uma característica de distorção variável no lado do codificador de áudio é a característica principal para integrar algoritmos de codificação diferentes a uma moldura de codificação única. Estes dois algoritmos de codificação diferentes são diferentes entre si. 0 primeiro algoritmo de codificação é adaptado a um padrão de sinal específico tal como sinais de voz, mas também quaisquer outros padrões especificamente harmônicos, padrões de altura ou padrões transientes são uma opção, enquanto o segundo algoritmo de codificação é adequado para codificação de um sinal de áudio geral. O pré-filtro no lado do codificador ou, o pós-filtro no lado do decodificador tornam possível integrar o módulo de codificação específico a sinal e o módulo de codificação geral dentro de uma moldura única de codificador/decodificador.
De forma geral, a entrada para o módulo de codificador de áudio geral ou módulo de codificador específico a sinal pode ser distorcida em um grau maior ou menor ou em nenhum grau. Isto depende do sinal específico e da implementação dos módulos de codificador. Dessa maneira, a inter-relação de qual característica de filtro de distorção pertence a qual módulo de codificação, pode ser sinalizada. Em vários casos o resultado pode ser que a característica de distorção mais forte pertence ao codificador de áudio geral e a característica de distorção mais leve ou inexistente pertence ao módulo específico de sinal. Esta situação pode ser - em algumas configurações -fixamente definida ou pode ser o resultado de sinalização dinâmica do módulo do codificador para certa porção do sinal.
Embora o algoritmo de codificação adaptado para padrões de sinal específico normalmente não se baseie grandemente no uso de limite de máscara para redução de irrelevância, este algoritmo de codificação não necessita necessariamente de qualquer pré-processamento de distorção ou apenas de um pré-processamento de distorção "suave" . Isto significa que o primeiro algoritmo de codificação adaptado para um padrão de sinal específico vantajosamente usa um conhecimento prévio do padrão do sinal específico, mas não se baseia muito no limite de máscara e, portanto, não necessita se aproximar da resolução de freqüência não uniforme do mecanismo auditivo humano. A resolução de freqüência não uniforme do mecanismo auditivo humano é refletida por bandas de fator de escala tendo larguras de bandas diferentes ao longo da escala de freqüência. Esta escala de freqüência não uniforme é também conhecida como a escala BARK ou ERB.
Processamento e formatação de ruído usando uma resolução de freqüência não uniforme são necessários apenas quando o algoritmo de codificação se baseia grandemente na redução de irrelevância pela utilização do conceito de um limite de máscara, mas não são requeridos para um algoritmo de codificação específico que é adaptado a um padrão de sinal específico e usa um conhecimento prévio para processar eficientemente este padrão de sinal específico. Na verdade, qualquer processamento de distorção de freqüência não uniforme pode ser danoso para a eficiência deste algoritmo de codificação adaptado a padrão de sinal específico, visto que esta distorção influenciará o padrão de sinal específico que, devido ao fato do primeiro algoritmo de codificação ser grandemente otimizado para um padrão de sinal específico, pode degradar grandemente a eficiência de codificação do primeiro algoritmo de codificação.
Contrariamente, o segundo algoritmo de codificação pode produzir apenas uma taxa de bits de saída aceitável juntamente com uma qualidade de áudio aceitável, quando qualquer medida for tomada que justifique a resolução de freqüência não uniforme do mecanismo auditivo humano, de modo que benefícios ótimos podem ser extraídos do limite de máscara.
Visto que o sinal de áudio pode incluir padrões de sinal específico seguido por áudio geral, isto é, um sinal que não tenha este padrão de sinal específico ou que tenha apenas este padrão de sinal específico em uma pequena extensão, o pré-filtro da invenção apenas distorce em um grau elevado quando existe uma porção do sinal que não tem um padrão de sinal específico, enquanto para um sinal que não tenha o padrão de sinal específico, nenhuma distorção ou apenas em uma pequena característica de distorção é aplicada.
Especificamente para o caso onde o primeiro algoritmo de codificação é qualquer algoritmo de codificação baseado em codificação preditiva linear, e onde o segundo algoritmo de codificação é um codificador de áudio geral baseado em uma arquitetura de pré-filtro/pós-filtro, o pré-filtro pode executar tarefas diferentes usando o mesmo filtro. Quando o sinal de áudio tem o padrão de sinal específico, o pré-filtro opera como um filtro de análise LPC de modo que o primeiro algoritmo de codificação está relacionado apenas à codificação do sinal residual ou ao sinal de excitação LPC.
Quando existe uma porção de sinal que não tem o padrão de sinal específico, o pré-filtro é controlado para ter uma característica de distorção forte e, preferivelmente, para executar filtragem de LPC baseada no limite de máscara psicoacústico, de modo que o sinal de saída pré-filtrado seja filtrado pelo filtro de freqüência distorcida e seja tal que porções espectrais psicoacusticamente mais importantes sejam amplificadas com relação a porções espectrais psicoacusticamente menos importantes. Então, um quantizador direto pode ser usado, ou, conforme declarado de forma geral, quantização durante codificação pode ocorrer sem ter que distribuir o ruído de forma não uniforme sobre a faixa de freqüência na saída do filtro distorcido. A formatação de ruído do ruído de quantização ocorrerá automaticamente pela ação de pós-filtragem obtida pelo filtro distorcido de variação de tempo no lado do decodificador, que é - com relação à característica de distorção - idêntico ao pré-filtro do lado do codificador, devido ao fato deste filtro ser inverso ao pré-filtro no lado do decodificador, produz automaticamente a formatação de ruído para obter uma redução de irrelevância máxima enquanto mantém uma alta qualidade de áudio.
Breve Descrição dos Desenhos
Configurações preferidas da presente invenção são subseqüentemente explicadas com referência às Figuras em anexo, nas quais: A Figura 1 é um diagrama de bloco de um codificador de áudio preferido;
A Figura 2 é um diagrama de bloco de um decodificador de áudio preferido;
A Figura 3a é uma representação esquematizada do sinal de áudio codificado;
A Figura 3b é uma representação esquematizada da informação de lado para a primeira e/ou segunda porção de tempo da Figura 3a;
A Figura 4 é uma representação de um pré-filtro ou pós-filtro FIR do estado da técnica, que é adequado para uso na presente invenção;
A Figura 5 ilustra a característica de distorção de um filtro dependente do fator de distorção;
A Figura 6 ilustra um processador de áudio inventivo tendo um filtro linear que tem característica de distorção de variação de tempo e um controlador;
A Figura 7 ilustra uma configuração preferida do codificador de áudio inventivo;
A Figura 8 ilustra uma configuração preferida para um decodificador de áudio inventivo;
A Figura 9 ilustra um algoritmo de codificação baseado em banco de filtro do estado da técnica tendo um codificador e um decodificador;
A Figura 10 ilustra um algoritmo de codificação de áudio baseado em pré-/pós-filtro do estado da técnica tendo um codificador e um decodificador; e A Figura 11 ilustra um algoritmo de codificação LPC do estado da técnica tendo um codificador e um decodificador.
Descrição Detalhada das Configurações Preferidas Configurações preferidas da presente invenção provêem um método uniforme que permite codificação de ambos, sinais de áudio geral e sinais de voz, com um desempenho de codificação que - pelo menos - corresponde ao desempenho dos melhores esquemas de codificação conhecidos para ambos os tipos de sinais. Ele é baseado nas seguintes considerações: · Para codificação de sinais de áudio geral, é essencial formatar o envelope espectral de ruído de codificação de acordo com uma curva de limite de máscara (de acordo com a idéia de "codificação de áudio perceptual"), e dessa maneira uma escala de freqüência distorcida perceptualmente é desejável. No entanto, podem existir certos sinais de áudio (por exemplo, harmônicos) onde uma resolução de freqüência uniforme teria melhor desempenho do que uma perceptualmente distorcida devido à anterior poder resolver melhor sua estrutura fina espectral individual.
• Para a codificação de sinais de voz, o desempenho de codificação do estado da técnica pode ser atingido por meio de previsão linear regular (não distorcida) . Podem existir certos sinais de voz para os quais alguma quantidade de distorção melhora o desempenho da codificação.
De acordo com a idéia inventiva, este dilema é solucionado por um sistema de codificação que inclui um filtro de codificador que pode atenuar suavemente suas características entre uma operação totalmente distorcida, como é geralmente preferível para codificação de sinais de música, e uma operação não distorcida, como é geralmente preferível para codificação de sinais de voz. Especificamente, a abordagem inventiva proposta inclui um filtro linear com um fator de distorção de variação de tempo. Este filtro é controlado por uma entrada extra que recebe o fator de distorção desejado e modifica a operação de filtro correspondentemente.
Uma operação deste filtro permite que o filtro aja tanto como um modelo da curva de máscara (pós-filtro para codificação de música, com distorção, λ = λ0), e como um modelo do envelope espectral do sinal (filtro LPC inverso para codificação de voz, com ausência de distorção, /1=0), dependendo da entrada de controle. Se o filtro inventivo for equipado para tratar também de uma série de fatores de distorção intermediários Os λ <, λ0 então, adicionalmente, também características suaves intermediárias são possíveis.
Naturalmente, o mecanismo de filtragem do decodificador inverso é similarmente equipado, isto é, um filtro de decodif icador linear com um fator de distorção de variação de tempo e pode agir como um pré-filtro perceptual assim como um filtro LPC.
De modo a gerar sinal filtrado com comportamento adequado a ser codificado posteriormente, é desejável não mudar instantaneamente entre dois valores diferentes do fator de distorção, mas aplicar uma transição suave do fator de distorção com o tempo. Como um exemplo, uma transição de 128 amostras entre operação não distorcida e totalmente distorcida perceptualmente evita descontinuidade indesejável no sinal de saída. Usando este filtro com distorção variável, é possível construir um codificador de voz / áudio combinado que atinja tanto qualidade ideal de codificação de voz quanto de áudio da seguinte maneira (vide Figura 7 ou 8):
• A decisão sobre o modo de codificação a ser usado ("Modo de Voz" ou "Modo de Música") é executada em um módulo separado pela execução de uma análise do sinal de entrada, e pode ser baseada em técnicas conhecidas para discriminar sinais de voz de música. Como um resultado, o módulo de decisão produz uma decisão sobre o modo de codificação / e um fator de distorção ideal associado para o filtro. Além do mais, dependendo desta decisão, ela determina um conjunto de coeficientes de filtro adequados que são apropriados para o sinal de entrada no modo de codificação escolhido, isto é, para codificação de voz, uma análise LPC é executada (sem distorção, ou com um fator de distorção baixo) enquanto para codificação de música, uma curva de máscara é estimada e seu inverso é convertido em coeficientes espectrais distorcidos.
• 0 filtro com as características de distorção de variação de tempo é usado como um filtro de codificador / decodificador comum e é aplicado ao sinal dependendo da decisão do modo de codificação / fator de distorção e do conjunto de coeficientes de filtro produzido pelo módulo de decisão.
• 0 sinal de saída do estágio de filtragem é codificado tanto por um kernel de codificação de voz (por exemplo, codificador CELP) ou um kernel de codificador de áudio genérico (por exemplo, um codificador de banco de filtro/sub-banda, ou um codificador de áudio preditivo) , ou ambos, dependendo do modo de codificação.
• A informação a ser transmitida / armazenada compreende a decisão do modo de codificação (ou uma indicação do fator de distorção), dos coeficientes de filtro em alguma forma codificada, e da informação enviada pela voz / excitação, e do codificador de áudio genérico.
O decodificador correspondente opera correspondentemente: Recebe a informação transmitida, decodifica as partes de voz e de áudio genérico de acordo com a informação de modo de codificação, combina os mesmos em um sinal intermediário único (por exemplo, adicionando os mesmos) , e filtra este sinal intermediário usando o modo de codificação / fator de distorção e coeficientes de filtro para formar o sinal de saída final.
Subseqüentemente, uma configuração preferida do codificador de áudio inventivo será discutida em conexão com a Figura 1. 0 codificador de áudio da Figura 1 é operacional para codificação de uma entrada de sinal de áudio na linha 10. O sinal de áudio é inserido no pré-filtro 12 para gerar um sinal de áudio pré-filtrado que aparece na linha 14. O pré-filtro tem uma característica de distorção variável, a característica de distorção sendo controlável em resposta a um sinal de controle de variação de tempo na linha 16. O sinal de controle indica uma característica de distorção pequena ou inexistente ou uma característica de distorção comparativamente elevada. Dessa maneira, o sinal de controle de distorção de variação de tempo pode ser um sinal tendo dois estados diferentes tais como "1" para uma distorção forte ou um "0" para ausência de distorção. 0 objetivo pretendido pela aplicação de distorção é obter uma resolução de freqüência do pré-filtro similar à escala BARK. Entretanto, também definição de estados diferentes do sinal / característica de distorção é possível.
Além do mais, o codificador de áudio inventivo inclui um controlador 18 para prover o sinal de controle de variação de tempo, onde o sinal de controle de variação de tempo depende do sinal de áudio conforme mostrado pela linha 20 na Figura 1. Além do mais, o codificador de áudio inventivo inclui um processador de codificação controlável 22 para processamento do sinal de áudio pré-filtrado para obter uma saída de sinal de áudio codificada na linha 24. Especificamente, o processador de codificação 22 é adaptado para processar o sinal de áudio pré- filtrado de acordo com um primeiro algoritmo de codificação adaptado a um padrão de sinal específico, ou de acordo com um segundo algoritmo de codificação diferente adequado para codificação de um sinal de áudio geral. Especificamente, o processador de codificação 22 é adaptado para ser controlado pelo controlador 18, preferivelmente por meio de um sinal de controle de codificador separado na linha 26, de modo que uma porção do sinal de áudio sendo filtrada usando o fator de distorção comparativamente elevado é processada usando o segundo algoritmo de codificação para obter o sinal codificado para esta porção do sinal de áudio, de modo que uma porção do sinal de áudio sendo filtrada usando apenas uma pequena característica de distorção ou nenhuma característica de distorção é processada usando o primeiro algoritmo de codificação. Dessa maneira, como é mostrado na tabela de controle 28 para o sinal na linha de controle 26, em algumas situações de processamento de um sinal áudio, nenhuma ou apenas uma pequena distorção é executada pelo filtro para um sinal sendo filtrado de acordo com o primeiro algoritmo de codificação, enquanto, quando uma distorção de escala total forte e preferivelmente perceptual é aplicada pelo pré-filtro, a porção de tempo é processada usando o segundo algoritmo de codificação para sinais de áudio geral, que é preferivelmente baseado em ruído de quantização escondido abaixo de um limite de máscara psicoacústico. Naturalmente, a invenção também abrange o caso em que para uma porção adicional do sinal de áudio, que tem o padrão de sinal específico, uma característica de distorção elevada é aplicada enquanto para uma porção adicional que não tem o padrão de sinal específico, uma característica de distorção pequena ou inexistente é usada. Isto pode, por exemplo, ser determinado por uma análise por decisão do codificador de síntese ou por quaisquer outros algoritmos conhecidos na técnica. Entretanto, o controle do módulo do codificador pode também ser fixamente definido dependendo do fator de distorção transmitido ou o fator de distorção pode ser derivado de uma indicação de módulo de codificador transmitida. Além do mais, ambos os itens de informação podem ser transmitidos como informação de lado, isto, o módulo do codificador e o fator de distorção.
A Figura 2 ilustra o decodificador da invenção para decodificação de uma entrada de sinal de áudio codificado na linha 30. 0 sinal de áudio codificado tem uma primeira porção codificada de acordo com um primeiro algoritmo de codificação adaptado a um padrão de sinal específico, e tem uma segunda porção codificada de acordo com um segundo algoritmo de codificação diferente adequado para codificação de um sinal de áudio geral. Especificamente, o decodificador inventivo compreende um detector .32 para detectar um algoritmo de codificação subjacente à primeira ou segunda porção. Esta detecção pode ocorrer pela extração de informação de lado do sinal de áudio codificado conforme ilustrado pela linha pontilhada 34, e/ou pode ocorrer pelo exame da corrente de bits que entra no processador de decodificação 36 conforme ilustrado pela linha pontilhada 38. 0 processador de decodificação .36 é para decodificação em resposta ao detector conforme ilustrado pela linha de controle 40, de modo que para ambas, a primeira porção e a segunda porção, o algoritmo de codificação correto seja selecionado.
Preferivelmente, o processador de decodificação é operacional para usar o primeiro algoritmo de codificação para decodificação da primeira porção de tempo e para usar o segundo algoritmo de codificação para decodificação da segunda porção de tempo, de modo que a primeira porção e a segunda porção de tempo decodificadas são enviadas na linha 42. A linha 42 carrega a entrada para um pós-filtro 44 que tem uma característica de distorção variável. Especificamente, o pós-filtro 44 é controlável usando um sinal de controle de distorção com variação de tempo na linha 46, de modo que este pós-filtro tem apenas pequena ou nenhuma característica de distorção em um primeiro estado e tem uma característica de distorção elevada em um segundo estado.
Preferivelmente, o pós-filtro 44 é controlado de modo que a primeira porção de tempo decodificada usando o primeiro algoritmo de codificação é filtrada usando a característica de distorção pequena ou inexistente e a segunda porção de tempo do sinal de áudio decodificado é filtrada usando a característica de distorção comparativamente elevada, de modo que um sinal de saída de decodificador de áudio seja obtido na linha 48.
Ao observar as Figuras 1 e 2, o primeiro algoritmo de codificação determina as etapas relacionadas ao codificador a serem executadas no processador de codificação 22 e as etapas relacionadas ao decodificador correspondentes a serem implementadas no processador de decodificação 36. Além do mais, o segundo algoritmo de codificação determina as etapas do segundo algoritmo de codificação relacionado com o codificador a serem usadas no processador de codificação e etapas de decodificação correspondentes relacionadas ao segundo algoritmo de codificação a serem usadas no processador de decodificação 36.
Além do mais, o pré-filtro 12 e o pós-filtro 44 são, de forma geral, inversos entre si. As características de distorção daqueles filtros são controladas de modo que o pós- filtro tenha a mesma característica de distorção que o pré-filtro ou pelo menos uma característica de distorção similar dentro de uma faixa de tolerância de 10 por cento.
Naturalmente, quando o pré-filtro não é distorcido devido ao fato de existir, por exemplo, um sinal tendo o padrão de sinal específico, então o pós-filtro também não tem que ser um filtro distorcido.
No entanto, o pré-filtro 12, assim como o pós- filtro 44, pode implementar quaisquer outras operações de pré- filtro ou pós-filtro requeridas em conexão com o primeiro algoritmo de codificação ou com o segundo algoritmo de codificação, como será descrito posteriormente.
A Figura 3a ilustra um exemplo de um sinal de áudio codificado conforme obtido na linha 24 na Figura 1 e como pode ser encontrado na linha 30 da Figura 2. Especificamente, o sinal de áudio codificado inclui uma primeira porção de tempo na forma codificada, que foi gerada pelo primeiro algoritmo de codificação conforme descrito em 50 e informação de lado correspondente 52 para a primeira porção. Além do mais, a corrente de bits inclui uma segunda porção de tempo na forma codificada conforme mostrado em 54 e informação de lado 56 para a segunda porção de tempo. Deve ser observado aqui que a ordem dos itens na Figura 3a pode variar. Além do mais, a informação de lado não tem, necessariamente, que ser multiplexada entre a informação principal .50 e 54. Aqueles sinais podem ainda vir de fontes separadas conforme determinado por requisitos externos ou de implementações.
A Figura 3b ilustra a informação de lado para a configuração de sinalização explícita da presente invenção para sinalizar explicitamente o fator de distorção e modo do codificador, que pode ser usada em 52 e 56 da Figura 3a. Isto é indicado abaixo da corrente de informação de lado da Figura 3b. Assim, a informação de lado pode incluir uma indicação de modo de codificação sinalizando explicitamente o primeiro ou segundo algoritmo de codificação subjacente a esta porção à qual a informação de lado pertence.
Além do mais, um fator de distorção pode ser sinalizado. A sinalização do fator de distorção não é necessária, quando o sistema inteiro pode usar apenas duas características de distorção diferentes, isto é, característica de distorção inexistente como a primeira possibilidade e uma característica de distorção de escala total perceptual como a segunda possibilidade. Neste caso, um fator de distorção pode ser fixado e não tem, necessariamente, que ser transmitido.
No entanto, nas configurações preferidas, o fator de distorção pode ter mais que estes dois valores extremos, de modo que é usada uma sinalização do fator de distorção tal como por valores absolutos ou por valores codificados diferencialmente.
Além disso, é preferido que o pré-filtro não apenas implemente (SIC) seja distorcido, mas também implemente tarefas ditadas pelo primeiro algoritmo de codificação e pelo segundo algoritmo de codificação, que conduz a uma funcionalidade mais eficiente dos primeiro e do segundo algoritmo de codificação.
Quando o primeiro algoritmo de codificação for um algoritmo de codificação baseado em LPC, então o pré-filtro também executa a funcionalidade do filtro de análise LPC e o pós-filtro no lado do decodificador executa a funcionalidade de um filtro de síntese de LPC.
Quando o segundo algoritmo de codificação é um codificador de áudio geral não tendo uma funcionalidade de formatação de ruído específico, o pré-filtro é preferivelmente um filtro de LPC, que pré-filtra o sinal de áudio de modo que, após a pré-filtragem, porções psicoacusticamente mais importantes são amplificadas com relação às porções psicoacusticamente menos importantes. No lado do decodificador, o pós-filtro é implementado como um filtro para regenerar uma situação similar a uma situação anterior à pré-filtragem, isto é, um filtro inverso que amplifica porções menos importantes com relação a porções mais importantes, de modo que o sinal após pós-f iltragem é - exceto erros de codificação - similar à entrada de sinal de áudio original em um codificador.
Os coeficientes de filtro para o pré-filtro descrito acima são, preferivelmente, transmitidos também por meio de informação de lado do codificador para o decodificador.
Tipicamente, o pré-filtro, assim como o pós- filtro, será implementado como um filtro FIR distorcido, uma estrutura do qual é ilustrada na Figura 4, ou como um filtro digital IIR distorcido. 0 filtro da Figura 4 é descrito em detalhe no [KHL 97] . Exemplos para filtros IIR distorcidos são também mostrados no [KHL 97] . Todos aqueles filtros digitais têm, em comum, que eles têm elementos de atraso distorcidos 60 e coeficientes de pesagem ou elementos de pesagem indicados por βο, βι, β2 /··· Uma estrutura de filtro é transformada em um filtro distorcido, quando um elemento de atraso em uma estrutura de filtro não distorcido (não mostrado aqui) é substituída por um filtro de passagem total, tal como um filtro de passagem total de primeira ordem D(z), conforme ilustrado em ambos os lados das estruturas de filtro na Figura 4. Uma implementação computacionalmente eficiente da estrutura esquerda é mostrada na direita da Figura 4, onde o uso explícito do fator de distorção λ e a implementação do mesmo são mostrados. Dessa maneira, a estrutura de filtro à direita da
Figura 4 pode ser implementada facilmente dentro do pré-filtro, assim como dentro do pós-filtro, onde o fator de distorção é controlado pelo parâmetro λ, enquanto a característica de filtro, isto é, os coeficientes de filtro da análise/síntese LPC ou pré- filtragem ou pós-filtragem para amplificação/abafamento de porções psicoacusticamente mais importantes, é controlada pela definição dos parâmetros de pesagem β0, βι, β2, —, como valores apropriados.
A Figura 5 ilustra a dependência da característica de freqüência-distorção no fator de distorção λ para Xs entre -0,8 e +0,8. Nenhuma distorção será obtida, quando λ é definido como 0,0. Uma distorção de escala total psicoacusticamente é obtida pela definição de λ entre 0,3 e 0,4. De forma geral, o fator de distorção ideal depende da taxa de amostragem escolhida e tem um valor entre aproximadamente 0,3 e .0,4 para taxas de amostragem entre 32 e 48 kHz. A resolução de freqüência não uniforme então obtida pelo uso do filtro distorcido é similar à escala BARK ou ERB. Características de distorção substancialmente mais fortes podem ser implementadas, mas são apenas úteis em certas situações, que podem ocorrer quando o controlador determina que aqueles fatores de distorção mais elevados são úteis.
Dessa maneira, o pré-filtro no lado do codificador terá, preferivelmente, fatores de distorção positivos λ para aumentar a resolução de freqüência na faixa de baixa freqüência e para diminuir a resolução de freqüência na faixa de alta freqüência. Assim, o pós-filtro no lado do decodificador terá, também, fatores de distorção positivos. Dessa maneira, um filtro de distorção de variação de tempo inventivo preferido é mostrado na Figura 6 em 70, como parte do processador de áudio. 0 filtro inventivo é, preferivelmente, um filtro linear, que é implementado como um pré-filtro ou um pós-filtro para filtragem de modo a amplificar ou abafar porções mais/menos importantes psicoacusticamente, ou que é implementado como um filtro de análise/síntese de LPC dependendo do sinal de controle do sistema. Deve ser observado neste ponto que o filtro distorcido é um filtro linear e não altera a freqüência de um componente tal como uma entrada de onda sinusoidal no filtro. Entretanto, quando é presumido que o filtro antes da distorção é um filtro da passagem baixa, o diagrama da Figura 5 tem que ser interpretado conforme definido abaixo.
Quando a onda sinusoidal exemplificativa tem uma freqüência original normalizada de 0,6, então o filtro aplicaria - para uma fator de distorção de 0,0 - a pesagem de fase e amplitude definida pela resposta de impulso de filtro deste filtro não distorcido.
Quando um fator de distorção de 0,8 é definido para este filtro de passagem baixa (agora o filtro se torna um filtro distorcido), a onda sinusoidal, tendo uma freqüência normalizada de 0,6, será filtrada de modo que a saída é pesada pela pesagem de fase e amplitude que o filtro não distorcido tem para uma freqüência normalizada de 0,97 na Figura 5. Visto que este filtro é um filtro linear, a freqüência da onda sinusoidal não é alterada.
Dependendo da situação, quando o filtro 7 0 é apenas distorcido, enquanto um fator de distorção ou, de forma geral, o controle de distorção 16, ou 46, tem que ser aplicado. Os coeficientes βι do filtro são derivados do limite de máscara. Estes coeficientes de filtro podem ser coeficientes de pré- ou pós- filtro, ou coeficientes de filtro de análise/síntese de LPC ou quaisquer outros coeficientes de filtro úteis em conexão com qualquer primeiro ou segundo algoritmos de codificação.
Dessa maneira, um processador de áudio de acordo com a presente invenção inclui, em adição ao filtro tendo características de distorção com variação de tempo, o controlador 18 da Figura 1 ou o controlador implementado como o detector de algoritmo de codificação 32 da Figura 2, ou um analisador de sinal de entrada de áudio geral procurando por um padrão de sinal específico na entrada de áudio 10/42, de modo que certa característica de distorção pode ser definida, a qual se ajusta ao padrão de sinal específico para que uma distorção variável adaptada ao tempo da entrada de áudio em uma entrada de áudio codificada ou decodificada possa ser obtida. Preferivelmente, os coeficientes de pré-filtro e os coeficientes de pós-filtro são idênticos.
A saída do processador de áudio ilustrada na Figura 6, que consiste do filtro 70 e do controlador 74, pode, então, ser armazenada para quaisquer objetivos ou pode ser processada pelo processador de codificação 22, ou por um dispositivo de reprodução de áudio quando o processador de áudio está no lado de decodif icador, ou pode ser processada por quaisquer outros algoritmos de processamento de sinal.
Subseqüentemente, as Figuras 7 e 8 serão discutidas, as quais mostram configurações preferidas do codificador inventivo (Figura 7) e do decodificador inventivo (Figura 8) . As funcionalidades dos dispositivos são similares àquelas dos dispositivos da Figura 1 e Figura 2. Especificamente, a Figura 7 ilustra a configuração, onde o primeiro algoritmo de codificação é um algoritmo de codificação do tipo codificador de voz, onde o padrão de sinal específico é um padrão de voz na entrada de áudio 10. 0 segundo algoritmo de codificação 22b é um codificador de áudio genérico tal como o codificador de áudio baseado em banco de filtro direto conforme ilustrado e discutido em conexão com a Figura 9, ou o algoritmo de codificação de áudio de pré-filtro/pós-filtro conforme ilustrado na Figura 10.
0 primeiro algoritmo de codificação corresponde ao sistema de codificação de voz da Figura 11, que, em adição a um filtro de análise/síntese LPC 1100 e 1102 também inclui um codificador residual/de excitação 1104, e um decodificador de excitação correspondente 1106. Nesta configuração, o filtro distorcido de variação de tempo 12 na Figura 7 tem a mesma funcionalidade que o filtro LPC 1100, e a análise de LPC implementada no bloco 1108 na Figura 11 é implementada no controlador 18.
0 codificador residual/de excitação 1104 corresponde ao kernel do codificador residual/de excitação 22a na Figura 7. Similarmente, o decodificador de excitação 1106 corresponde ao decodificador residual/de excitação 36a da Figura .8, e o filtro distorcido de variação de tempo 44 tem a funcionalidade do filtro LPC inverso 1102 para uma primeira porção de tempo sendo codificada de acordo com o primeiro algoritmo de codificação.
Os coeficientes de filtro LPC gerados pelo bloco de análise LPC 1108 correspondem aos coeficientes de filtro mostrados em 90 na Figura 7 para a primeira porção de tempo e a entrada dos coeficientes de filtro LPC no bloco 1102 na Figura 11 corresponde aos coeficientes de filtro na linha 92 da Figura 8. Além do mais, o codificador da Figura 7 inclui uma interface de saída de codificador 94, que pode ser implementada como um multiplexador de corrente de bits, mas que pode também ser implementada como qualquer outro dispositivo que produz uma corrente de dados adequada para transmissão e/ou armazenagem. Correspondentemente, o decodificador da Figura 8 inclui uma interface de entrada 96, que pode ser implementada como um desmultiplexador de corrente de bits para desmultiplexar a informação da porção de tempo específica conforme discutido em conexão com a Figura 3a e, também, para extrair a informação de lado requerida conforme ilustrado na Figura 3b.
Na configuração da Figura 7, ambos os kernels de codificação 22a, 22b, têm uma entrada comum 96, e são controlados pelo controlador 18 por meio das linhas 97a e 97b. Este controle garante que, em certo momento no tempo, apenas um dentre os dois kernels 22a, 22b, envia informação principal e de lado para a interface de saída. Alternativamente, ambos os kernels de codificação poderiam operar totalmente paralelos, e o controlador do codificador 18 poderia garantir que apenas a saída do kernel de codificação seja inserida na corrente de bits, que é indicada pela informação de modo de codificação enquanto a saída do outro codificador é descartada.
Novamente alternativamente, ambos os decodificadores podem operar em paralelo e saídas dos mesmos podem ser adicionadas. Nesta situação, é preferido usar uma característica de distorção do meio para o pré-filtro do lado do codificador e para o pós-filtro do lado do decodif icador. Além do mais, esta configuração processa, por exemplo, uma porção de voz de um sinal tal como certa faixa de freqüência ou - de forma geral - porção de sinal pelo primeiro algoritmo de codificação e o restante do sinal pelo segundo algoritmo de codificação geral. Então, saídas de ambos os codificadores são transmitidas do codificador para o lado do decodificador. A combinação do lado do decodificador garante que o sinal seja reunido antes de ser pós- filtrado.
Quaisquer tipos de controles específicos podem ser implementados, contanto que eles garantam que o sinal de áudio codificado de saída 24 tenha uma seqüência de primeira e segunda porções conforme ilustrado na Figura 3 ou uma combinação correta de porções de sinal tal como uma porção de voz e uma porção de áudio geral.
No lado do decodificador, a informação de modo de codificação é usada para decodificar a porção de tempo usando o algoritmo de decodif icação correto, de modo que um padrão com estágios de tempo de primeiras porções e segundas porções obtidas nas saídas dos kernels do decodif icador 3 6a, e 3 6b, que são, então, multiplexadas em um sinal de domínio de tempo único, que é ilustrado de forma esquematizada usando o símbolo de adição 36c. Então, na saída do elemento 3 6c, existe um sinal de áudio de domínio de tempo, que apenas tem que ser pós-filtrado de modo que o sinal de áudio decodificado seja obtido. Conforme discutido anteriormente no sumário após a seção "Breve Descrição dos Desenhos", ambos o codificador na Figura 7 e o decodif icador na Figura 8, podem incluir um interpolador 100 ou 102 de modo que uma transição suave por meio de certa porção de tempo, que pelo menos inclui duas amostras, mas que, preferivelmente, inclui mais que 50 amostras e ainda mais que 100 amostras, é implementável. Isto garante que artefatos de codificação sejam evitados, o que poderia ser causado por alterações rápidas do fator de distorção e dos coeficientes de filtro. Visto que, entretanto, o pós-filtro, assim como o pré- filtro, opera totalmente no domínio de tempo, não existem problemas relacionados com implementações específicas baseadas em bloco. Dessa maneira, é possível mudar, quando a Figura 4 é novamente considerada, os valores para β0, βι, β2, ...e λ de amostra para amostra, de modo que uma atenuação de, por exemplo, um estado totalmente distorcido para um outro estado sem distorção, é possível. Embora seja possível transmitir parâmetros interpolados, que salvariam o interpolador no lado do decodificador, é preferido não transmitir os valores interpolados mas transmitir os valores antes da interpolação, visto que menos bits de informação de lado são requeridos para a última opção.
Além do mais, conforme já indicado acima, o kernel do codificador de áudio genérico 22b, conforme ilustrado na Figura 7, pode ser idêntico ao codificador 1000 na Figura 10. Neste contexto, o pré-filtro 12 executará também a funcionalidade do pré-filtro 1002 na Figura 10. O modelo perceptual 1004 na Figura 10 será, então, implementado dentro do controlador 18 da Figura 7. Os coeficientes de filtro gerados pelo modelo perceptual 1004 correspondem aos coeficientes de filtro na linha 90 na Figura 7 para uma porção de tempo, para a qual o segundo algoritmo de codificação está ativo. Analogamente, o decodificador 1006 na Figura 10 é implementado pelo kernel do decodificador de áudio genérico 36b na Figura 8, e o pós-filtro 1008 é implementado pelo filtro distorcido de variação de tempo 44 na Figura 8. Os coeficientes de filtro codificados preferivelmente gerados pelo modelo perceptual são recebidos, no lado do decodif icador, na linha 92, de modo que uma linha intitulada "coeficientes de filtro" entrando no pós- filtro 1008 na Figura 10 corresponde à linha 92 na Figura 8 para a porção de tempo do segundo algoritmo de codificação.
Entretanto, comparado a dois codificadores de operação paralela de acordo com as Figuras 10 e 11, que são ambos imperfeitos devido a qualidade de áudio e taxa de bits, os dispositivos do codificador inventivo e os dispositivos do decodificador inventivo usam apenas um filtro único, mas controlável, e executam uma discriminação no sinal de áudio de entrada para descobrir se a porção de tempo· do sinal de áudio tem o padrão específico ou é apenas um sinal de áudio geral.
Com referência ao analisador de áudio dentro do controlador 18, uma variedade de implementações diferentes pode ser usada para determinação, se uma porção de um sinal de áudio é uma porção tendo o padrão de sinal específico ou se esta porção não tem este padrão de sinal específico, e, portanto, tem que ser processada usando o algoritmo de codificação de áudio geral. Embora configurações preferidas tenham sido discutidas, onde o padrão de sinal específico é um sinal de voz, outros padrões de sinal específico podem ser determinados e podem ser codificados usando estes primeiros algoritmos de codificação específicos ao sinal tais como algoritmo de codificação para sinais harmônicos, para sinais de ruído, para sinais de tom, para sinais de pulso tipo trem, etc.
Detectores diretos são detectores de análise por síntese, que, por exemplo, tentam algoritmos de codificação diferentes, juntamente com detectores de distorção diferentes para descobrir o melhor fator de distorção juntamente com os melhores coeficientes de filtro e o melhor algoritmo de codificação. Estes detectores de análise por síntese são, em alguns casos, de alto custo do ponto vista computacional. Isto não importa em uma situação onde existe um pequeno número de codificadores e um número elevado de decodificadores, visto que o decodificador pode ser muito simples neste caso. Isto se deve ao fato de que apenas o codificador executa esta tarefa computacional complexa, enquanto o decodificador pode simplesmente usar a informação de lado transmitida.
Outros detectores de sinal são baseados em algoritmos de análise de padrão direta, que buscam um padrão de sinal específico dentro do sinal de áudio e sinalizam um resultado positivo, quando um grau de correspondência excede certo limite. Maiores informações são providas no [BLS05].
Além do mais, dependendo de certos requisitos de implementação dos métodos inventivos, os métodos inventivos podem ser implementados em hardware ou em software. A implementação pode ser executada usando um meio de armazenagem digital, em especial um disco ou um CD tendo sinais de controle eletronicamente legíveis armazenados no mesmo, que podem cooperar com um sistema de computador programável, de modo que os métodos inventivos sejam executados. De forma geral, a presente invenção é, portanto, um produto de programa de computador com um código de programa armazenado em uma mídia legível por um computador, o código de programa sendo configurado para executar pelo menos um dos métodos inventivos, quando os produtos de programa de computador operam em um computador. Em outras palavras, os métodos inventivos são, portanto, um programa de computador tendo um código de programa para executar os métodos inventivos, quando o programa de computador é operado em um computador.
As configurações descritas acima são meramente ilustrativas dos princípios da presente invenção. É compreendido que modificações e variações dos arranjos e dos detalhes descritos aqui ficarão aparentes para pessoas especializadas na técnica. É objetivo, portanto, que estejam limitados apenas pelo escopo das reivindicações de patentes presentes e não pelos detalhes específicos apresentados de forma descritiva e explanatória nas configurações apresentadas aqui.

Claims (49)

1. Codificador de áudio para codificar um sinal de áudio, caracterizado pelo fato de que compreende: um pré-filtro para gerar um sinal de áudio pré-filtrado, o pré-filtro tendo uma característica de distorção variável, a característica de distorção sendo controlável em resposta a um sinal de controle de variação de tempo, o sinal de controle indicando uma característica de distorção pequena ou inexistente ou uma característica de distorção comparativamente elevada; um controlador para prover um sinal de controle de variação de tempo, o sinal de controle de variação de tempo dependendo do sinal de áudio, e um processador de codificação controlável para processamento do sinal de áudio pré-filtrado para obter um sinal de áudio codificado, onde o processador de codificação é adaptado para processar o sinal de áudio pré-filtrado de acordo com um primeiro algoritmo de codificação adaptado a um padrão de sinal específico, ou de acordo com um segundo algoritmo de codificação diferente adequado para codificar um sinal de áudio geral.
2. Codificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que o processador de codificação é adaptado para usar pelo menos parte de um algoritmo de codificação de voz como o primeiro algoritmo de codificação.
3. Codificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que o processador de codificação é adaptado para usar um algoritmo de codificação residual/de excitação como uma porção do primeiro algoritmo de codificação, o algoritmo de codificação residual/de excitação incluindo um algoritmo de codificação preditiva linear excitado por código (CELP), um algoritmo de codificação de excitação de pulsos múltiplos (MPE) , ou um algoritmo de codificação de excitação de pulso regular (RPE).
4. Codificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que o processador de codificação é adaptado para usar um algoritmo de codificação baseado em banco de filtro, ou baseado em domínio de tempo como o segundo algoritmo de codificação.
5. Codificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda um módulo psicoacústico para prover informação sobre um limite de máscara, e onde o pré-filtro é operacional para executar uma operação de filtro baseada no limite de máscara, de modo que no sinal de áudio pré-filtrado, porções psicoacusticamente mais importantes são amplificadas com relação a porções psicoacusticamente menos importantes.
6. Codificador de áudio, de acordo com a reivindicação 5, caracterizado pelo fato de que o pré-filtro é um filtro linear tendo um fator de distorção controlável, o fator de distorção controlável sendo determinado pelo sinal de controle de variação de tempo, e nde os coeficientes de filtro são determinados por uma análise baseada no limite de máscara.
7. Codificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que o primeiro algoritmo de codificação inclui uma etapa de codificação residual ou de excitação e o segundo algoritmo de codificação inclui uma etapa de codificação de áudio geral.
8. Codificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que o processador de codificação inclui: um primeiro kernel de codificação para aplicação do primeiro algoritmo de codificação ao sinal de áudio; um segundo kernel de codificação para aplicação do segundo algoritmo de codificação ao sinal de áudio, onde ambos os kernels de codificação têm uma entrada comum conectada a uma saída do pré- filtro, onde ambos os kernels de codificação têm saídas separadas, onde o codificador de áudio compreende ainda um estágio de saída para enviar o sinal codificado, e onde o controlador é operacional apenas para conectar uma saída do kernel de codificação indicada pelo controlador como ativa durante uma porção de tempo para o estágio de saída.
9. Codificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que o processador de codificação inclui: um primeiro kernel de codificação para aplicar o primeiro algoritmo de codificação ao sinal de áudio; um segundo kernel de codificação para aplicar o segundo algoritmo de codificação ao sinal de áudio; onde ambos os kernels de codificação têm uma entrada comum conectada a uma saída do pré- filtro, onde ambos os kernels de codificação têm uma saída separada, e onde o controlador é operacional para ativar o kernel de codificação selecionado por uma indicação do modo de codificação, e para desativar o kernel de codificação não selecionado pela indicação do modo de codificação ou para ativar ambos os kernels de codificação para partes diferentes da mesma porção de tempo do sinal de áudio.
10. Codificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda um estágio de saída para enviar o sinal de controle de variação de tempo ou um sinal derivado do sinal de controle de variação de tempo por quantização ou codificação como informação de lado para o sinal codificado.
11. Codificador de áudio, de acordo com a reivindicação 6, caracterizado pelo fato de que compreende ainda um estágio de saída para enviar informação sobre o limite de máscara como informação de lado para o sinal de áudio codificado.
12. Codificador de áudio, de acordo com a reivindicação 6, caracterizado pelo fato de que o processador de codificação é, na aplicação do segundo algoritmo de codificação, operacional para a quantização do sinal de áudio pré-filtrado usando um quantizador tendo uma característica de quantização que introduz um ruído de quantização tendo uma distribuição espectral plana.
13. Codificador de áudio, de acordo com a reivindicação 12, caracterizado pelo fato de que o processador de codificação é, na aplicação de um segundo algoritmo de codificação, operacional para a quantização de amostras de domínio de tempo pré-filtradas, ou amostras de sub-bandas, coeficientes de freqüência, ou amostras residuais derivadas do sinal de áudio pré- filtrado .
14. Codificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que o controlador é operacional para prover o sinal de controle de variação de tempo de modo que uma operação de distorção aumenta uma resolução de freqüência em uma faixa de freqüência baixa e diminui a resolução de freqüência em uma faixa de freqüência alta para a característica de distorção comparativamente elevada do pré- filtro, comparado com a característica de distorção pequena ou inexistente do pré-filtro.
15. Codificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que o controlador inclui um analisador de sinal de áudio para analisar o sinal de áudio e determinar o sinal de controle de variação de tempo.
16. Codificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que o controlador é operacional para gerar um sinal de controle de variação de tempo tendo, em adição a um primeiro estado extremo indicando característica de distorção inexistente ou apenas pequena, e um segundo estado extremo indicando a característica de distorção máxima, zero, um ou mais estados intermediários indicando uma característica de distorção entre os estados extremos.
17. Codificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda um interpolador, onde o interpolador é operacional para controle do pré-filtro de modo que a característica de distorção é atenuada entre dois estados de distorção sinalizados pelo sinal de controle de variação de tempo sobre um período de tempo de atenuação tendo pelo menos duas amostras de domínio de tempo.
18. Codificador de áudio, de acordo com a reivindicação 17, caracterizado pelo fato de que o período de tempo de atenuação inclui pelo menos 50 amostras de domínio de tempo entre uma característica de filtro que causa pequena ou nenhuma distorção e uma característica de filtro que causa uma distorção comparativamente elevada resultando em uma resolução de freqüência distorcida similar a uma escala BARK ou ERP.
19. Codificador de áudio, de acordo com a reivindicação 17, caracterizado pelo fato de que o interpolador é operacional para usar um fator de distorção resultando em uma característica de distorção entre duas características de distorção indicadas pelo sinal de controle de variação de tempo no período de tempo de atenuação.
20. Codificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que o pré-filtro é um filtro digital tendo uma estrutura de FIR distorcida ou IIR distorcida, a estrutura incluindo elementos de atraso, um elemento de atraso sendo formado de modo que o elemento de atraso tem uma característica de filtros de passagem total de primeira ordem ou de uma ordem mais elevada.
21. Codificador de áudio, de acordo com a reivindicação 20, caracterizado pelo fato de que a característica de filtro de passagem total é baseada na característica de filtro a seguir: (ζ-χ-λ )/(1-λ ζ"1) , onde ζ"1 indica um atraso no domínio de tempo discreto, e onde λ é um fator de distorção que indica uma característica de distorção mais forte para magnitudes de fator de distorção próximas de "1" e indica uma característica de distorção menor para magnitudes de fator de distorção próximas de "0".
22. Codificador de áudio, de acordo com a reivindicação 20, caracterizado pelo fato de que a estrutura FIR ou IIR compreende ainda elementos de pesagem, cada elemento de pesagem tendo um fator de peso associado, onde os fatores de peso são determinados pelos coeficientes de filtro para o pré-filtro, os coeficientes de filtro incluindo coeficientes de filtros de análise ou síntese LPC, ou coeficientes de filtros de análise ou síntese determinados por limite de máscara.
23. Codificador de áudio, de acordo com a reivindicação 20, caracterizado pelo fato de que o pré-filtro tem uma ordem de filtro entre 6 e 30.
24. Codificador de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que o processador de codificação é adaptado para ser controlado pelo controlador, de modo que uma porção do sinal de áudio sendo filtrada usando a característica de distorção comparativamente elevada é processada usando o segundo algoritmo de codificação para obter o sinal codificado e um sinal de áudio sendo filtrado usando a característica de distorção pequena ou inexistente é processado usando o primeiro algoritmo de codificação.
25. Decodificador de áudio para decodificar um sinal de áudio codificado, o sinal de áudio codificado é caracterizado pelo fato de que tem uma primeira porção codificada de acordo com um primeiro algoritmo de codificação adaptado a um padrão de sinal específico e tendo uma segunda porção codificada de acordo com um segundo algoritmo de codificação diferente adequado para codificação de um sinal de áudio geral, compreendendo: um detector para detectar um algoritmo de codificação subjacente à primeira porção ou à segunda porção; um processador de decodificação para decodificar, em resposta ao detector, a primeira porção usando o primeiro algoritmo de codificação para obter uma primeira porção de tempo decodificada e para decodificar a segunda porção usando o segundo algoritmo de codificação para obter uma segunda porção de tempo decodificada; e um pós-filtro tendo uma característica de distorção variável sendo controlável entre um primeiro estado tendo uma característica de distorção pequena ou inexistente e um segundo estado tendo uma característica de distorção comparativamente elevada.
26. Decodificador de áudio, de acordo com a reivindicação 25, caracterizado pelo fato de que o pós-filtro é definido de modo que a característica de distorção durante pós- filtragem seja similar a uma característica de distorção usada durante pré-filtragem dentro de uma faixa de tolerância de 10 por cento com relação a uma força de distorção.
27. Decodificador de áudio, de acordo com a reivindicação 25, caracterizado pelo fato de que o sinal de áudio codificado inclui um indicador de modo de codificação ou informação de fator de distorção, onde o detector é operacional para extrair informação sobre o modo de codificação ou um fator de distorção do sinal de áudio codificado, e onde o processador de decodificação ou o pós-filtro estão operacionais para serem controlados usando a informação extraída.
28. Decodificador de áudio, de acordo com a reivindicação 27, caracterizado pelo fato de que um fator de distorção derivado da informação extraída e usado para controlar o pós-filtro tem um sinal positivo.
29. Decodificador de áudio, de acordo com a reivindicação 25, caracterizado pelo fato de que o sinal codificado compreende ainda informação sobre coeficientes de filtro dependendo de um limite de máscara de um sinal original subjacente ao sinal codificado, e onde o detector é operacional para extrair a informação sobre os coeficientes de filtro a partir do sinal de áudio codificado, e onde o pós-filtro é adaptado para ser controlado baseado na informação extraída sobre os coeficientes de filtro, de modo que um sinal pós-filtrado seja mais similar a um sinal original que o sinal antes da pós- filtragem.
30. Decodificador de áudio, de acordo com a reivindicação 25, caracterizado pelo fato de que o processador de decodificação é adaptado para usar um algoritmo de codificação de voz como o primeiro algoritmo de codificação.
31. Decodificador de áudio, de acordo com a reivindicação 25, caracterizado pelo fato de que o processador de decodificação é adaptado para usar um algoritmo de decodificação residual/de excitação como o primeiro algoritmo de codificação.
32. Decodificador de áudio, de acordo com a reivindicação 25, caracterizado pelo fato de que o algoritmo de decodificação residual/de excitação inclui, como uma porção do primeiro algoritmo de codificação, o algoritmo de codificação residual/de excitação incluindo um algoritmo de codificação preditiva linear excitado por código (CELP), um algoritmo de codificação de excitação de pulsos múltiplos (MPE), ou um algoritmo de codificação de excitação de pulso regular (RPE).
33. Decodificador de áudio, de acordo com a reivindicação 25, caracterizado pelo fato de que o processador de decodificação é adaptado para usar algoritmos de decodificação baseados em banco de filtro ou baseados em transformadas ou baseados em domínio de tempo como um segundo algoritmo de codificação.
34. Decodificador de áudio, de acordo com a reivindicação 25, caracterizado pelo fato de que o processador de decodificação inclui um primeiro kernel de codificação para aplicação do primeiro algoritmo de codificação ao sinal de áudio codificado; um segundo kernel de codificação para aplicação de um segundo algori tmo de codificação ao sinal de áudio codificado onde ambos os kernels de codificação têm uma saída, cada saída sendo conectada a um combinador, o combinador tendo uma saída conectada a uma entrada do pós-filtro, onde os kernels de codificação sao controlados de modo que apenas uma saída de porção de tempo decodificada por um algoritmo de codificação selecionado é enviada para o combinador e o pós-filtro ou partes diferentes da mesma porção de tempo do sinal de áudio são processados por kernels de codificação diferentes e o combinador sendo operacional para combinar representações decodificadas das partes diferentes.
35. Decodificador de áudio, de acordo com a reivindicação 25, caracterizado pelo fato de que o processador de decodificação é, na aplicação do segundo algoritmo de codificação, operacional para desquantizar um sinal de áudio, que foi quantizado usando um quantizador tendo uma característica de quantização que introduz um ruído de quantização tendo uma distribuição espectral plana.
36. Decodificador de áudio, de acordo com a reivindicação 25, caracterizado pelo fato de que o processador de codificação é, na aplicação do segundo algoritmo de codificação, operacional para desquantizar amostras de domínio de tempo quantizadas, amostras de sub-bandas quantizadas, coeficientes de freqüência quantizados ou amostras residuais quantizadas.
37. Decodificador de áudio, de acordo com a reivindicação 25, caracterizado pelo fato de que o detector é operacional para prover um sinal de controle de pós-filtro de variação de tempo, de modo que um sinal de saída de filtro distorcido tem uma resolução de freqüência diminuída em uma faixa de alta freqüência e uma resolução de freqüência aumentada em uma faixa de baixa freqüência para a característica de distorção comparativamente elevada do pós-filtro, comparado com um sinal de saída de filtro de um pós-filtro tendo uma característica de distorção pequena ou inexistente.
38. Decodificador de áudio, de acordo com a reivindicação 25, caracterizado pelo fato de que compreende ainda um interpolador para controlar o pós-filtro, de modo que a característica de distorção é atenuada entre dois estados de distorção durante um período de tempo de atenuação tendo pelo menos duas amostras de domínio de tempo.
39. Decodifieador de áudio, de acordo com a reivindicação 25, caracterizado pelo fato de que o pós-filtro é um filtro digital tendo uma estrutura de FIR distorcida ou IIR distorcida, a estrutura incluindo elementos de atraso, um elemento de atraso sendo formado de modo que o elemento de atraso tem uma característica de filtro de passagem total de primeira ordem ou de ordem mais elevada.
40. Decodificador de áudio, de acordo com a reivindicação 25, caracterizado pelo fato de que a característica de filtro de passagem total é baseada na característica de filtro a seguir: <formula>formula see original document page 53</formula> onde z-1 indica um atraso no domínio de tempo discreto, e onde λ é um fator de distorção indicando uma característica de distorção mais forte para magnitudes de fator de distorção próximas de "1" e indicando uma característica de distorção menor para magnitudes de fator de distorção próximas de " 0" .
41. Decodificador de áudio, de acordo com a reivindicação 25, caracterizado pelo fato de que a estrutura FIR distorcida ou IIR distorcida compreende ainda elementos de pesagem, cada elemento de pesagem tendo um fator de pesagem associado, onde os fatores de pesagem são determinados pelos coeficientes de filtro para o pré-filtro, os coeficientes de filtro incluindo coeficientes de filtros de análise ou síntese de LPC, ou coeficientes de filtros de análise ou síntese determinadoa pelo limite de máscara.
42. Decodificador de áudio, de acordo com a reivindicação 25, caracterizado pelo fato de que o pós-filtro é controlado de modo que a primeira porção de tempo decodificada é filtrada usando a característica de distorção pequena ou inexistente e a segunda porção de tempo decodificada é filtrada usando uma característica de distorção comparativamente elevada.
43. Sinal de áudio codificado caracterizado pelo fato de que tem uma primeira porção de tempo codificada de acordo com um primeiro algoritmo de codificação adaptado a um padrão de sinal específico, e tendo uma segunda porção de tempo codificada de acordo com um segundo algoritmo de codificação diferente adequado para codificar um sinal de áudio geral.
44. Sinal de áudio codificado, de acordo com a reivindicação 43, caracterizado pelo fato de que compreende ainda, como informação de lado, um indicador de modo de codificação que indica se o primeiro ou o segundo algoritmo de codificação está subjacente à primeira ou segunda porção, ou um fator de distorção que indica uma força de distorção subjacente à primeira ou segunda porção do sinal de áudio codificado ou informação de coeficiente de filtro que indica um pré-filtro usado para decodificação do sinal de áudio ou indica um pós-filtro a ser usado para decodificar o sinal de áudio.
45. Método de codificação de um sinal de áudio, caracterizado pelo fato de que compreende: gerar um sinal de áudio pré-filtrado, o pré-filtro tendo uma característica de distorção variável, a característica de distorção sendo controlável em resposta a um sinal de controle de variação de tempo, o sinal de controle indicando uma característica de distorção pequena ou inexistente ou uma característica de distorção comparativamente elevada; prover um sinal de controle de variação de tempo, o sinal de controle de variação de tempo dependendo do sinal de áudio; e processar o sinal de áudio pré-filtrado para obter um sinal de áudio codificado, de acordo com um primeiro algoritmo de codificação adaptado a um padrão de sinal específico, ou de acordo com um segundo algoritmo de codificação diferente adequado para codificar um sinal de áudio geral.
46. Método de decodif icação de um sinal de áudio codificado, o sinal de áudio codificado caracterizado pelo fato de que tem uma primeira porção codificada de acordo com um primeiro algoritmo de codificação adaptado a um padrão de sinal específico, e tendo uma segunda porção codificada de acordo com um segundo algoritmo de codificação diferente adequado para codificação de um sinal de áudio geral, compreendendo: detectar um algoritmo de codificação subjacente à primeira porção ou à segunda porção; decodificar, em resposta à etapa de detecção, a primeira porção usando o primeiro algoritmo de codificação para obter uma primeira porção de tempo decodificada e decodificar a segunda porção usando o segundo algoritmo de codificação para obter uma segunda porção de tempo decodificada; e pós-filtrar usando uma característica de distorção variável sendo controlável entre um primeiro estado tendo uma característica de distorção pequena ou inexistente e um segundo estado tendo uma característica de distorção comparativamente elevada.
47. Processador de áudio para processamento de um sinal de áudio, caracterizado pelo fato de que compreende: um filtro para gerar um sinal de áudio filtrado, o filtro tendo uma característica de distorção variável, a característica de distorção sendo controlável em resposta a um sinal de controle de variação de tempo, o sinal de controle indicando uma característica de distorção pequena ou inexistente ou uma característica de distorção comparativamente elevada; e um controlador para prover o sinal de controle de variação de tempo, o sinal de controle de variação de tempo dependendo do sinal de áudio.
48. Método de processamento de um sinal de áudio, caracterizado pelo fato de que compreende: gerar um sinal de áudio filtrado usando um filtro, o filtro tendo uma característica de distorção variável, a característica de distorção sendo controlável em resposta a um sinal de controle de variação de tempo, o sinal de controle indicando uma característica de distorção pequena ou inexistente ou uma característica de distorção comparativamente elevada; e prover o sinal de controle de variação de tempo, o sinal de controle de variação de tempo dependendo do sinal de áudio.
49. Programa de computador caracterizado pelo fato de que tem um código de programa para executar o método da reivindicação 45, 46 ou 48, quando operando em um computador.
BRPI0712625-5A 2006-06-30 2007-05-16 Codificador de áudio, decodificador de áudio, e processador de áudio tendo uma caractéristica de distorção ("warping") dinamicamente variável BRPI0712625B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US11/428,297 US7873511B2 (en) 2006-06-30 2006-06-30 Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US11/428,297 2006-06-30
EP06013604.1 2006-06-30
EP06013604A EP1873754B1 (en) 2006-06-30 2006-06-30 Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
PCT/EP2007/004401 WO2008000316A1 (en) 2006-06-30 2007-05-16 Audio encoder, audio decoder and audio processor having a dynamically variable harping characteristic

Publications (2)

Publication Number Publication Date
BRPI0712625A2 true BRPI0712625A2 (pt) 2012-10-16
BRPI0712625B1 BRPI0712625B1 (pt) 2023-10-10

Family

ID=38509999

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0712625-5A BRPI0712625B1 (pt) 2006-06-30 2007-05-16 Codificador de áudio, decodificador de áudio, e processador de áudio tendo uma caractéristica de distorção ("warping") dinamicamente variável

Country Status (17)

Country Link
EP (1) EP2038879B1 (pt)
JP (1) JP5205373B2 (pt)
KR (1) KR101145578B1 (pt)
AR (1) AR061696A1 (pt)
AU (2) AU2007264175B2 (pt)
BR (1) BRPI0712625B1 (pt)
CA (1) CA2656423C (pt)
ES (1) ES2559307T3 (pt)
HK (1) HK1128811A1 (pt)
IL (1) IL195983A (pt)
MX (1) MX2008016163A (pt)
MY (1) MY142675A (pt)
NO (1) NO340436B1 (pt)
PL (1) PL2038879T3 (pt)
RU (1) RU2418322C2 (pt)
TW (1) TWI348683B (pt)
WO (1) WO2008000316A1 (pt)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
ATE539433T1 (de) 2008-07-11 2012-01-15 Fraunhofer Ges Forschung Bereitstellen eines zeitverzerrungsaktivierungssignals und codierung eines audiosignals damit
FR2949582B1 (fr) * 2009-09-02 2011-08-26 Alcatel Lucent Procede pour rendre un signal musical compatible avec un codec a transmission discontinue ; et dispositif pour la mise en ?uvre de ce procede
JP5992427B2 (ja) * 2010-11-10 2016-09-14 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 信号におけるピッチおよび/または基本周波数に関するパターンを推定する方法および装置
MY158977A (en) * 2010-12-03 2016-11-30 ERICSSON TELEFON AB L M (publ) Source signal adaptive frame aggregation
TWI800092B (zh) * 2010-12-03 2023-04-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
WO2013183928A1 (ko) * 2012-06-04 2013-12-12 삼성전자 주식회사 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
TWI517142B (zh) * 2012-07-02 2016-01-11 Sony Corp Audio decoding apparatus and method, audio coding apparatus and method, and program
US9548056B2 (en) 2012-12-19 2017-01-17 Dolby International Ab Signal adaptive FIR/IIR predictors for minimizing entropy
EP2992605B1 (en) * 2013-04-29 2017-06-07 Dolby Laboratories Licensing Corporation Frequency band compression with dynamic thresholds
CN104934034B (zh) 2014-03-19 2016-11-16 华为技术有限公司 用于信号处理的方法和装置
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
RU2628459C1 (ru) * 2016-10-13 2017-08-17 Общество с ограниченной ответственностью "Силовая электроника" Способ декодирования LDPC-кодов и устройство для его осуществления
US10694298B2 (en) * 2018-10-22 2020-06-23 Zeev Neumeier Hearing aid

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
JP2000322095A (ja) * 1999-05-13 2000-11-24 Mitsubishi Electric Corp 音声復号装置
US7110953B1 (en) * 2000-06-02 2006-09-19 Agere Systems Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7587254B2 (en) 2004-04-23 2009-09-08 Nokia Corporation Dynamic range control and equalization of digital audio using warped processing

Also Published As

Publication number Publication date
CA2656423C (en) 2013-12-17
IL195983A0 (en) 2009-09-01
HK1128811A1 (zh) 2009-11-06
AU2011200461B2 (en) 2011-11-10
AU2011200461A1 (en) 2011-02-24
KR101145578B1 (ko) 2012-05-16
MX2008016163A (es) 2009-02-04
IL195983A (en) 2012-01-31
TWI348683B (en) 2011-09-11
CA2656423A1 (en) 2008-01-03
NO340436B1 (no) 2017-04-24
ES2559307T3 (es) 2016-02-11
AU2007264175B2 (en) 2011-03-03
WO2008000316A8 (en) 2009-02-26
JP2009541802A (ja) 2009-11-26
RU2009103010A (ru) 2010-08-10
MY142675A (en) 2010-12-15
EP2038879B1 (en) 2015-11-04
EP2038879A1 (en) 2009-03-25
JP5205373B2 (ja) 2013-06-05
BRPI0712625B1 (pt) 2023-10-10
PL2038879T3 (pl) 2016-04-29
AU2007264175A1 (en) 2008-01-03
AR061696A1 (es) 2008-09-17
KR20090025304A (ko) 2009-03-10
RU2418322C2 (ru) 2011-05-10
WO2008000316A1 (en) 2008-01-03
NO20090400L (no) 2009-01-27
TW200809771A (en) 2008-02-16

Similar Documents

Publication Publication Date Title
US7873511B2 (en) Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8682652B2 (en) Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
BRPI0712625A2 (pt) codificador de áudio, decodificador de áudio, e processador de áudio tendo ema caractéristica de distorção (&#34;warping&#34;) dinamicamente variável
JP6556815B2 (ja) オーディオデコーダ及び復号方法
JP5628163B2 (ja) 帯域幅拡張出力データを生成するための装置および方法
CA2691993C (en) Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
KR101224560B1 (ko) 인코드된 오디오 신호를 디코딩하는 장치 및 방법
EP1873754B1 (en) Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
AU2016204672B2 (en) Audio encoder and decoder with multiple coding modes
AU2017276206B2 (en) Pitch Filter for Audio Signals and Method for Filtering an Audio Signal with a Pitch Filter
AU2015200065B2 (en) Post filter, decoder system and method of decoding

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06T Formal requirements before examination [chapter 6.20 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: A CLASSIFICACAO ANTERIOR ERA: G10L 19/00

Ipc: G10L 19/20 (2013.01), G10L 19/26 (2013.01)

B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09B Patent application refused [chapter 9.2 patent gazette]
B12B Appeal against refusal [chapter 12.2 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 16/05/2007, OBSERVADAS AS CONDICOES LEGAIS. PATENTE CONCEDIDA CONFORME ADI 5.529/DF, QUE DETERMINA A ALTERACAO DO PRAZO DE CONCESSAO.