BR112013020699B1 - Aparelho e método para codificar e decodificar um sinal de áudio utilizando uma parte antecipada alinhada - Google Patents

Aparelho e método para codificar e decodificar um sinal de áudio utilizando uma parte antecipada alinhada Download PDF

Info

Publication number
BR112013020699B1
BR112013020699B1 BR112013020699-3A BR112013020699A BR112013020699B1 BR 112013020699 B1 BR112013020699 B1 BR 112013020699B1 BR 112013020699 A BR112013020699 A BR 112013020699A BR 112013020699 B1 BR112013020699 B1 BR 112013020699B1
Authority
BR
Brazil
Prior art keywords
window
data
transform
encoding
predictive
Prior art date
Application number
BR112013020699-3A
Other languages
English (en)
Other versions
BR112013020699A2 (pt
Inventor
Ravelli Emmanuel
Geiger Ralf
Schnell Markus
Fuchs Guillaume
Ruoppila Vesa
Bäckström Tom
Grill Bernhard
Helmrich Christian
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V.
Publication of BR112013020699A2 publication Critical patent/BR112013020699A2/pt
Publication of BR112013020699B1 publication Critical patent/BR112013020699B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/13Residual excited linear prediction [RELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Processing (AREA)

Abstract

aparelho e método para codificar e decodificar um sinal de áudio utilizando uma parte antecipada alinhada um aparelho para codificar um sinal de áudio tendo um fluxo de amostras de áudio 100 compreende: um janelador [windower] 102 para aplicar uma janela de análise da codificação de previsão 200 ao fluxo de amostras de áudio para obter dados em janela para uma análise de previsão e para aplicar uma janela de análise de codificação por transformada 204 ao fluxo de amostras de áudio para obter dados em janela para uma análise de transformada, caracterizado pela janela de análise de codificação por transformada estar associada às amostras de áudio dentro de uma estrutura atual de amostras de áudio e às amostras de áudio de uma parte predefinida de uma estrutura futura de amostras de áudio sendo uma parte antecipada de codificação por transformada 206, em que a janela de análise da codificação de previsão está associada, pelo menos, à parte das amostras de áudio da estrutura atual e às amostras de áudio de uma parte predefinida da estrutura futura sendo uma parte antecipada de codificação por previsão 208, em que a parte antecipada de codificação por transformada 206 e a parte antecipada de codificação por previsão 208 são idênticas entre si ou são diferentes entre si por menos do que 20% da parte antecipada de codificação por previsão 208 ou menos do que 20% da parte antecipada de codificação por transformada 206.

Description

Campo da Invenção
A presente invenção está relacionada à codificação de áudio e, em particular, à codificação de áudio que depende de codificadores de áudio comutados e de decodificadores de áudio correspondentemente controlados, particularmente adequados para aplicações de baixo atraso.
Vários conceitos de codificação de áudio dependentes dos codecs comutados são conhecidos. Um conceito bem conhecido da codificação de áudio é o chamado codec de Banda Larga de Multitaxa Adaptativa Estendida (AMR-WB+ | Extended Adaptive Multi-Rate-Wideband') , conforme descrito em 3GPP TS 26.290 BIO.O.O (2011-03) . O codec de áudio AMR-WB+ contém todos os modos do codec de fala AMR-WB 1 a 9 e AMR-WB VAD e DTX. O AMR-WB+ estende o codec AMR-WB adicionando TCX, extensão da largura de banda e estéreo.
O codec de áudio AMR-WB+ processa as estruturas de entrada iguais a 2048 amostras em uma frequência de amostragem interna Fs. A frequência de amostragem interna é limitada à faixa de 12800 a 38400 Hz. As 2048 estruturas de amostra são divididas em duas bandas de frequência iguais criticamente testadas. Isso resulta em duas superestruturas de 1024 amostras correspondentes às bandas de baixa frequência (LF | Low Frequency)e alta frequência (HF | High Frequency) . Cada superestrutura é dividida em quatro estruturas de 256 amostras. A amostragem na taxa de amostragem interna é obtida utilizando um esquema de conversão de amostragem variável, que testa novamente o sinal de entrada. utilizando duas diferentes abordagens: a LF é codificada e decodificada utilizando o codificador/decodificador "principal" com base na ACELP comutada e na excitação codificada por transformada (TCX | Transform Coded Excitation') . No modo ACELP, o codec padrão AMR-WB é utilizado. O sinal HF é codificado com relativamente poucos bits (16 bits/estrutura) utilizando um método de extensão da largura de banda (BWE | Bandwidth Extension) . Os parâmetros transmitidos do codificador ao decodificador são os bits de seleção do modo, os parâmetros LF e os parâmetros HF. Os parâmetros para cada superestrutura de 1024 amostras são decompostos em quatro pacotes de tamanho idêntico. Quando o sinal de entrada for estéreo, os canais esquerdo e direito são combinados em um sinal mono para codificação ACELP/TCX, em que a codificação estéreo recebe ambos os canais de entrada. No lado do decodificador, as bandas LF e HF são decodificadas separadamente após serem combinadas em um banco de filtro de síntese. Se a saída for restrita ao mono apenas, os parâmetros estéreos são omitidos e o decodificador opera em um modo mono. O codec AMR-WB+ aplica a análise LP tanto para o modo ACELP quanto para o modo TCX ao codificar o sinal LF. Os coeficientes LP são interpolados linearmente a cada subestrutura de 64 amostras. A janela de análise LP é um meio cosseno de extensão de 384 amostras. Para codificar o sinal mono central, uma codificação ACELP ou TCX é utilizada para cada estrutura. O modo de codificação é selecionado com base em um método de análise por síntese de circuito fechado. Apenas as estruturas de 256 amostras são consideradas para estruturas ACELP, em que estruturas de 256, 512 ou 1024 amostras são possíveis no modo TCX. A janela utilizada para a análise LPC em AMR-WB+ é ilustrada na Figura 5b. Uma janela de análise LPC simétrica com antecipação de 20 ms é utilizada. A antecipação indica que, conforme ilustrado na Figura 5b, a janela de análise LPC para a estrutura atual ilustrada em 500 não apenas se estende dentro da estrutura atual indicada entre 0 e 20 ms na Figura 5b ilustrada por 502, mas se estende na estrutura futura entre 20 e 40 ms. Isso significa que, ao utilizar esta janela de análise LPC, um atraso adicional de ms, ou seja, toda a estrutura futura, é necessário. Assim, a parte antecipada indicada em 504 na Figura 5b contribui para o atraso sistemático associado com o codificador AMR-WB+. Em outras palavras, uma estrutura futura deve estar completamente disponível de modo que os coeficientes de análise LPC para a estrutura atual 502 possam ser calculados.
A Figura 5a ilustra outro codificador, o chamado codificador AMR-WB e, particularmente, a janela de análise LPC utilizada para calcular os coeficientes de análise para a estrutura atual. Mais uma vez, a estrutura atual se estende entre 0 e 20 ms e a estrutura futura se estende entre 20 e 40 ms. Em contraste à Figura 5b, a janela de análise LPC de AMR-WB indicada em 506 tem uma parte antecipada 508 de 5 ms apenas, ou seja, a distância de tempo entre 20 ms e 25 ms. Assim, o atraso introduzido pela análise LPC é reduzido substancialmente com relação à Figura 5a. Por outro lado, foi observado que uma parte antecipada maior para determinar os coeficientes LPC, ou seja, uma parte antecipada maior para a janela de análise LPC, resulta em melhores coeficientes LPC e, assim, uma energia menor no sinal residual e, assim, uma taxa de bit menor, já que a previsão de LPC se encaixa melhor ao sinal original.
Enquanto as Figuras 5a e 5b se referem aos codificadores tendo apenas uma única janela de análise para determinar os coeficientes LPC para um quadro, a Figura 5c ilustra a situação para o codificador de fala G.718. A especificação G718 (06-2008) está relacionada aos sistemas de transmissão e sistemas da mídia digital e redes e, particularmente, descreve o equipamento terminal digital e, particularmente, uma codificação de voz e sinais de áudio para tal equipamento. Particularmente, este padrão está relacionado à banda estreita robusta e codificação da taxa de bit variável embutida na banda larga de fala e áudio de 8-32 kbit/s conforme definido na recomendação ITU- T G718. O sinal de entrada é processado utilizando 20 ms quadros. O atraso do codec depende da taxa da amostragem de entrada e saída. Para uma entrada de banda larga e uma saída de banda larga, todo o atraso algorítmico desta codificação é 42.875 ms. Consiste em um quadro de 20-ms, atraso de 1,875 ms dos filtros de reamostragem de entrada e saída, 10 ms para a antecipação do codificador, um ms de atraso de pós-filtração e 10 ms no decodificador para permitir a operação de adição por sobreposição da codificação por transformada de camada mais alta. Para uma entrada de banda estreita e uma saída de banda estreita, camadas mais altas não são usadas, mas o atraso de 10 ms do decodificador é utilizado para melhorar o desempenho da codificação na presença de retificações do quadro e para sinais de música. Se a saída está limitada a camada 2, o atraso do codec pode ser reduzido por 10 ms. A descrição do codificador é como segue. As duas camadas inferiores são aplicadas em um sinal pré-enfatizado amostrado em 12,8 kHz, e as três camadas superiores operam no domínio do sinal de entrada amostrado em 16 kHz. A camada central é baseada na tecnologia da previsão linear excitada por código (CELP | CodeExcited Linear Prediction) , onde o sinal de fala é modelado por um sinal de excitação que passou através de um filtro de sintese de previsão linear (LP | Linear Prediction)que representa o envelope espectral. O filtro LP é quantizado no dominio de frequência espectral de emitância (ISF | Immittance Spectral Frequency) utilizando uma abordagem previsível comutada e a quantização do vetor multiestágio. A análise de nivel com circuito aberto é realizada por um algoritmo de rastreamento por nivel para garantir um contorno de nivel leve. Dois contornos de evolução de nivel concomitantes são comparados e a pista que produz o contorno mais leve é selecionada para tornar a estimativa de nivel mais robusta. O pré-processamento do nivel do quadro compreende uma filtração passa alto, uma conversão de amostragem em 12800 amostras por segundo, uma pré-ênfase, uma análise espectral, uma detecção das entradas de banda estreita, uma detecção da atividade de ruido, uma estimativa de ruido, redução de ruido, análise de previsão linear, uma LP na conversão ISF, e uma interpolação, um cálculo de um sinal de fala ponderado, uma análise do nivel com circuito aberto, uma atualização do ruido de fundo, uma classificação do sinal para uma seleção do modo de codificação e ocultação da retificação do quadro. A camada 1 que codifica utilizando o tipo de codificação selecionada compreende um modo de codificação sem voz, um modo de codificação com voz, um modo de codificação de transição, um modo de codificação genérico e uma transmissão descontinua e geração de ruido de conforto (DTX/CNG | Discontinuous Transmission And Comfort Noise Generation) .
Uma análise de previsão linear (LP) ou em longo prazo utilizando a abordagem de autocorreção determina os coeficientes do filtro de sintese do modelo CELP. Em CELP, entretanto, a previsão em longo prazo é geralmente, o "codebook [livro de registro] adaptativo" e, assim, é diferente da previsão linear. A previsão linear pode, entretanto, estar mais relacionada a uma previsão em curto prazo. A autocorrelação da fala em janela é convertida em coeficientes LP utilizando o algoritmo Levinson- Durbin. Então, os coeficientes LPC são transformados nos pares espectrais de imitância (ISP) e consequentemente nas frequências espectrais de imitância (ISF) para finalidades de quantização e interpolação. Os coeficientes interpolados quantizados e não quantizados são convertidos de volta ao dominio LP para construir os filtros de ponderação e sintese para cada subestrutura. No caso para codificação de uma estrutura de sinal ativo, dois conjuntos de coeficientes LP são estimados em cada estrutura utilizando as duas janelas de análises LPC indicadas em 510 e 512 na Figura 5c. A janela 512 é chamada de "janela LPC de estrutura média", e a janela 510 é chamada de "janela LPC de estrutura final". A parte antecipada 514 de 10 ms é utilizada para o cálculo de autocorrelação da estrutura final. A estrutura é ilustrada em Figura 5c. A estrutura é dividida em quatro subestruturas, cada subestrutura tendo uma extensão de 5 ms correspondente a 64 amostras em uma taxa da amostragem de 12,8 kHz. As janelas para a análise da estrutura final e para a análise da estrutura média são centralizadas na quarta subestrutura e a segunda subestrutura, respectivamente conforme ilustrado na Figura 5c. Uma janela janelamento. Os coeficientes são definidos em G.718, Seção 6.4.1. 0 cálculo de autocorrelação é descrito na Seção 6.4.2. O algoritmo Levinson-Durbin é descrito em Seção 6.4.3, a conversão de LP em ISP é descrita na Seção 6.4.4, e a conversão ISP em LP é descrita na Seção 6.4.5.
Os parâmetros de codificação de fala como atraso e ganho do codebookadaptativo, indice e ganho do codebook algébrico são pesquisados reduzindo o erro entre o sinal de entrada e o sinal sintetizado no dominio perceptualmente ponderado. Ponderar perceptualmente é realizar a filtração do sinal através de um filtro de ponderação perceptual derivado dos coeficientes do filtro LP. O sinal perceptualmente ponderado também é utilizado em uma análise de nivel de circuito aberto.
O codificador G.718 é um codificador de fala pura tendo o modo de codificação de fala única. Entretanto, o codificador G.718 não é um codificador comutado e, entretanto, este codificador é desvantajoso, pois fornece apenas um modo de codificação de fala única dentro da camada central. Assim, os problemas de qualidade ocorrerão quando este codificador é aplicado em outros sinais do que nos sinais de fala, ou seja, nos sinais de áudio gerais, nos quais o modelo atrás da codificação CELP não é apropriado.
Um codec comutado adicional é o chamado codec USAC, ou seja, a fala unificada e codec de áudio conforme definido em ISO/IEC CD 23003-3 com data de 24 de setembro de 2010. A janela de análise LPC utilizada para este codec comutado é indicada na Figura 5d em 516. Novamente, uma estrutura atual que se estende entre 0 e 20 ms é assumida e, entretanto, parece que a parte antecipada 618 deste codec é 20 ms, ou seja, é significativamente mais alta do que a parte antecipada de G.718. Assim, embora o codificador USAC forneça uma boa qualidade de áudio devido a sua natureza comutada, o atraso é considerável devido à parte antecipada LPC da janela de análise 518 na Figura 5d. A estrutura geral de USAC é como segue. Primeiro, há um pré/pós-processamento comum que consiste em uma unidade funcional de MPEG surround (MPEGS) para gerenciar o processamento estéreo ou multicanal e uma unidade SBR (eSBR) melhorada que gerencia a representação paramétrica da frequência de áudio mais alta no sinal de entrada. Então, há duas ramificações, uma que consiste em um caminho da ferramenta de codificação de áudio avançada (AAC | Advanced Audio Coding)modificada e a outra consistindo em um caminho com base na codificação por previsão linear (dominio LP ou LPC | Linear Prediction Coding), que por sua vez caracteriza tanto uma representação de dominio de frequência ou uma representação de dominio de tempo do LPC residual. Todos os espectros transmitidos para ambos, AAC e LPC, são representados no dominio MDCT seguindo a quantização e codificação aritmética. A representação de dominio de tempo usa um esquema de codificação de excitação ACELP. A ferramenta ACELP fornece uma forma de representar eficientemente um sinal de excitação de dominio de tempo combinando um previsor em longo prazo (chave adaptativa) com uma sequência do tipo pulso (chave de inovação). A excitação reconstruída é enviada através de um filtro de síntese LP para formar um sinal de domínio de tempo. A entrada na ferramenta ACELP compreende os índices do codebook adaptativo e de inovação, valores de ganho dos códigos adaptativos e de inovação, outros dados de controle e coeficientes do filtro LPC inversamente quantizados e interpolados. A saida da ferramenta ACELP é o sinal de áudio reconstruído de dominio de tempo.
A ferramenta de decodif icação TCX com base em MDCT é utilizada para girar a representação residual LP ponderada de urn dominio MDCT de volta em um sinal de dominio de tempo e emite o sinal de dominio de tempo ponderado incluindo a filtragem de sintese LP ponderada. A IMDCT pode ser configurada para suportar 256, 512 ou 1024 coeficientes espectrais. A entrada à ferramenta TCX compreende os espectros MDCT (inversamente quantizados), e coeficientes do filtro LPC inversamente quantizados e interpolados. A saida da ferramenta TCX é o sinal de áudio reconstruído de dominio de tempo.
A Figura 6 ilustra uma situação em USAC, onde as janelas de análise LPC 516 para a estrutura atual e 520 para a última estrutura são desenhadas, e onde, além disso, uma janela TCX 522 seja ilustrada. A janela TCX 522 é centralizada no centro da estrutura atual que se estende entre 0 e 20 ms e se estende 10 ms à última estrutura e 10 ms à futura estrutura se estendendo entre 20 e 40 ms. Assim, a janela de análise LPC 516 requer uma parte antecipada LPC entre 20 e 40 ms, ou seja, 20 ms, enquanto a janela TCX de análise adicionalmente tem uma parte antecipada que se estende entre 20 e 30 ms na futura estrutura. Isso significa que o atraso introduzido pela janela de análise USAC 516 é 20 ms, enquanto o atraso introduzido ao codificador pela janela TCX é 10 ms. Assim. Torna-se claro que as partes antecipadas de ambos os tipos de janelas não são alinhados entre si. Entretanto, embora a janela TCX 522 apenas introduza um atraso de 10 ms, todo o atraso do codificador é todavia 20 ms devido à janela de análise LPC 516.
Entretanto, embora haja uma parte antecipada muito pequena para a janela TCX, isso não reduz todo o atraso algorítmico do codificador, visto que o atraso total é determinado pela contribuição mais alta, ou seja, é igual a 20 ms devido à janela de análise LPC 516 que se estende 20 ms à futura estrutura, ou seja, não apenas cobrindo a estrutura atual, mas adicionalmente cobrindo a futura estrutura.
É um objetivo da presente invenção fornecer um conceito melhorado de codificação para codificação ou decodificação de áudio que, por um lado, forneça uma áudio com boa qualidade e que, por outro lado, resulte em um atraso reduzido.
Este objetivo é obtido por um aparelho para codificar um sinal de áudio, de acordo com a reivindicação 1, um método para codificar um sinal de áudio, de acordo com a reivindicação 15, um decodificador de áudio, de acordo com a reivindicação 16, um método de decodificação de áudio, de acordo com a reivindicação 24 ou um programa de computador, de acordo com a reivindicação 25.
De acordo com a presente invenção, um esquema de codec de áudio comutado é aplicado tendo uma ramificação da codificação por transformada e uma ramificação da codificação de previsão. De forma importante, os dois tipos de janelas, ou seja, a janela da análise da codificação por previsão por um lado e a janela de análise de codificação por transformada por outro lado são alinhadas com relação a sua parte antecipada de modo que a parte antecipada de codificação por transformada e a parte antecipada de codificação por previsão sejam idênticas ou sejam diferentes entre si por menos do que 20% da parte antecipada de codificação por previsão ou menor do que 20% da parte antecipada de codificação por transformada. Deve ser observado que a janela da análise de previsão é utilizada não apenas na ramificação da codificação de previsão, mas é de fato utilizada em ambas as ramificações. A análise LPC também é utilizada para formar o ruido no dominio por transformada. Entretanto, em outras palavras, as partes antecipadas são idênticas ou quase próximas entre si. Isso garante que o ótimo compromisso seja obtido e que nenhuma qualidade do áudio ou características de atraso sejam definidas de forma subótima. Assim, para a codificação por previsão na janela de análise foi observado que a análise LPC é a melhor quanto mais alta for a antecipação, mas, por outro lado, o atraso aumenta com uma parte antecipada mais alta. Por outro lado, o mesmo é verdadeiro para a janela TCX. Quanto mais alta a parte antecipada da janela TCX for, a taxa de bit TCX pode ser mais reduzida, visto que as janelas TCX não resultem em taxas de bit inferiores no geral. Entretanto, de acordo com a presente invenção, as partes antecipadas são idênticas ou muito próximas entre si e, particularmente, menores do que 20% diferentes entre si. Entretanto, a parte antecipada, que não e desejada devido ao atraso é, por outro lado, otimamente utilizada por ambas, as ramificações de codificação/decodificação.
Em vista disso, a presente invenção fornece um conceito melhorado de codificação com, por um lado, um baixo atraso quando a parte antecipada para ambas as janelas de análise for definida baixa e fornece, por outro lado, um conceito de codificação/decodificação com boas características devido ao fato de que o atraso que tem que ser introduzido por razões de qualidade do áudio ou por razões da taxa de bit é otimamente utilizado tanto pelas ramificações de codificação e não apenas por uma única ramificação de codificação.
Um aparelho para codificar um sinal de áudio tendo um fluxo de amostras de áudio compreende um janelador [wíndower] para aplicar uma janela da análise da codificação por previsão em um fluxo de amostras de áudio para obter dados em janela para uma análise de previsão e para aplicar uma janela de análise de codificação por transformada ao fluxo de amostras de áudio para obter dados em janela para uma análise de transformada. A janela de análise de codificação por transformada está associada com as amostras de áudio de uma estrutura atual de amostras de áudio de uma parte antecipada predefinida de uma futura estrutura de amostras de áudio sendo uma parte antecipada de codificação por transformada.
Além disso, a janela da análise da codificação por previsão está associada com pelo menos uma parte das amostras de áudio da estrutura atual e com amostras de áudio de uma parte predefinida da futura estrutura sendo uma parte antecipada de codificação por previsão.
A parte antecipada de codificação por transformada e a parte antecipada de codificação por previsão são idênticas entre si ou são diferentes entre si por menos do que 20 % da parte antecipada de codificação por previsão ou menor do que 20 % da parte antecipada de codificação por transformada e são, entretanto, bem próximas entre si. O aparelho adicionalmente compreende um processador de codificação para gerar dados codificados de previsão para a estrutura atual utilizando os dados em janela para a análise de previsão ou para gerar dados codificados por transformada para a estrutura atual utilizando os dados da janela para a análise de transformada.
Um decodificador de áudio para decodificar um sinal de áudio decodificado compreende um decodificador do parâmetro de previsão para realizar uma decodificação de dados para uma estrutura codificada de previsão do sinal de áudio decodificado e, para a segunda ramificação, um decodificador do parâmetro por transformada para realizar uma decodificação de dados para uma estrutura codificada por transformada do sinal de áudio decodificado.
O decodificador do parâmetro por transformada é configurado para realizar uma transformada de tempo espectral que é preferivelmente uma transformada afetada por sobreposição como uma MDCT ou MDST ou qualquer outra transformada, e para aplicar uma janela de sintese aos dados transformados para obter um dado para a estrutura atual e a futura estrutura. A janela de sintese aplicada pelo decodif icador de áudio é de modo que tenha uma primeira parte sobreposta, uma segunda parte não sobreposta adjacente e uma terceira parte sobreposta adjacente, em que a terceira parte sobreposta está associada com as amostras de áudio para a futura estrutura e a parte não sobreposta está associada com os dados da estrutura atual. Adicionalmente, para ter uma boa qualidade de áudio no lado do decodificador, um somador por sobreposição é aplicado para sobreposição e adição das amostras da síntese em janela associadas com a terceira parte sobreposta de uma janela de síntese para a estrutura atual e amostras da síntese em janela associadas com a primeira parte sobreposta de uma janela de síntese para a futura estrutura obter uma primeira parte das amostras de áudio para a futura estrutura, em que um resto das amostras de áudio para a futura estrutura são amostras da síntese em janela associadas com a segunda parte não sobreposta da janela de síntese para a futura estrutura obtida sem adição por sobreposição, quando a estrutura atual e a futura estrutura compreenderem os dados codificados por transformada.
As aplicações preferidas da presente invenção têm a característica que a mesma antecipação para a ramificação da codificação por transformada como a ramificação TCX e a ramificação da codificação por previsão como a ramificação ACELP são idênticas entre si de modo que ambos os modos de codificação têm a antecipação máxima disponível nas restrições de atraso. Além disso, é preferido que a sobreposição da janela TCX seja restrita à parte antecipada de modo que uma comutação do modo de codificação por transformada ao modo de codificação por previsão de uma estrutura à próxima estrutura seja facilmente possível sem quaisquer questões de direcionamento de sobreposição.
Outra razão para restringir a sobreposição à antecipação é para não introduzir um atraso no lado do decodificador. Se um tiver uma janela TCX com 10ms de antecipação, e, por exemplo, 20ms de sobreposição, introduziria lOms de mais atraso no decodificador. Quando um tem uma janela TCX com lOms de antecipação e lOms de sobreposição, um não tem qualquer atraso adicional no lado do decodif icador. A comutação mais fácil é uma boa consequência disso.
Entretanto, é preferido que a segunda parte não sobreposta da janela de análise e certamente a janela de síntese se estenda até que a extremidade da estrutura atual e a terceira parte sobreposta apenas comecem com relação à futura estrutura. Além disso, a parte não zero da janela TCX ou da janela de sintese/análise da codificação por transformada é alinhada com o começo da estrutura de modo que, novamente, uma comutação mais fácil e com baixa eficiência sobre um modo ao outro modo esteja disponivel.
Além disso, é preferido que toda a estrutura consistindo de uma pluralidade de subestruturas, como quatro subestruturas, possa ser completamente codificada no modo de codificação por transformada (como modo TCX) ou completamente codificada no modo de codificação por previsão (como o modo ACELP).
Além disso, é preferido não utilizar apenas uma única janela de análise LPC, mas duas janelas de análise LPC diferentes, onde uma janela de análise LPC é alinhada com o centro da quarta subestrutura e é uma janela de análise da estrutura final enquanto a outra janela de análise é alinhada com o centro da segunda subestrutura e é uma janela de análise da estrutura média. Se o codificador for comutado na codificação por transformada, então é preferido transmitir apenas um único dado do coeficiente LPC definido apenas derivado da análise LPC com base na janela de análise da estrutura final LPC. Além disso, no lado do codificador, é preferido não utilizar este dado LPC diretamente para sintese da codificação por transformada, e particularmente uma ponderação espectral de coeficientes TCX. Ainda, é preferido interpolar os dados TCX obtidos da janela de análise da estrutura final LPC da estrutura atual com os dados obtidos pela janela de análise da estrutura final LPC a última estrutura, ou seja, a estrutura imediatamente anterior no tempo da estrutura atual. Transmitir apenas um único conjunto de coeficientes LPC para toda uma estrutura no modo TCX, outra redução da taxa de bit pode ser obtida comparada à transmissão de dois conjuntos de dados do coeficiente LPC para análise da estrutura média e análise da estrutura final. Quando, entretanto, o codificador é comutado ao modo ACELP, então ambos os conjuntos de coeficientes LPC são transmitidos do codificador ao decodificador.
Além disso, é preferido que a janela LPC da estrutura média de análise termine imediatamente na última borda da estrutura da estrutura atual e adicionalmente se estenda à última estrutura. Isso não introduz qualquer atraso, visto que a última estrutura já está disponível e pode ser utilizada sem qualquer atraso.
Por outro lado, é preferido que a janela de análise da estrutura final comece em algum lugar dentro da estrutura atual e não no começo da estrutura atual. Isso, entretanto, não é problemático, para a formação da ponderação TCX, uma média dos dados da estrutura LPC final definida para a última estrutura e os dados da estrutura LPC final definido para a estrutura atual são usados de modo que, no final, todos os dados estejam em um sentido utilizado para calcular os coeficientes LPC. Assim, o começo da janela de análise da estrutura final está preferivelmente dentro da parte antecipada da janela de análise da estrutura final da última estrutura.
No lado do codificador, uma sobrecarga significativamente reduzida para comutar de um modo a outro modo é obtida. A razão é que a parte não sobreposta da janela de sintese, que é preferivelmente simétrica dentro de si, não está associada às amostras da estrutura atual, mas está associada com as amostras de uma futura estrutura, e, assim, apenas se estende dentro da parte antecipada, ou seja, na futura estrutura apenas. Assim, a janela de sintese é de modo que apenas a primeira parte sobreposta preferivelmente começando no inicio imediato da estrutura atual esteja dentro da estrutura atual e a segunda parte não sobreposta se estende do final da primeira parte sobreposta à extremidade da estrutura atual e, assim, a segunda parte sobreposta coincida com a parte antecipada. Entretanto, quando há uma transição de TCX para ACELP, os dados obtidos devido à parte sobreposta da janela de sintese são simplesmente descartados e são substituídos por dados da codificação por previsão que são disponíveis desde o inicio da futura estrutura até a ramificação ACELP.
Por outro lado, quando há uma comutação de ACELP para TCX, uma janela de transição especifica é aplicada começando imediatamente no inicio da estrutura atual, ou seja, a estrutura imediatamente após a comutação, com uma parte não sobreposta de modo que quaisquer dados não têm que ser reconstruídos para encontrar os "parceiros" de sobreposição. Ainda, a parte não sobreposta da janela de sintese fornece dados corretos sem qualquer sobreposição e sem quaisquer procedimentos de adição por sobreposição, necessários no decodificador. Apenas para as partes sobrepostas, ou seja, a terceira parte da janela para a estrutura atual e a primeira parte da janela para a próxima estrutura, um procedimento de adição por sobreposição é útil e realizado para ter, como em um MDCT simples, um fade in / fade outcontinuo de um bloco a outro para finalmente obter uma boa qualidade de áudio sem ter que aumentar a taxa de bit devido á natureza criticamente testada de MDCT também conhecido na técnica sob o termo "cancelamento de aliasing[serrilhado] do dominio de tempo" (TDAC I Time-Domain Aliasing Cancellation) .
Além disso, o decodificador é útil pelo fato de, para um modo de codificação ACELP, os dados LPC derivados da janela de estrutura média e da janela de estrutura final no codificador serem transmitidos enquanto que, para o modo de codificação TCX, apenas um único conjunto de dados LPC derivado da janela da estrutura final é usado. Para especificamente ponderar os dados decodificados TCX, entretanto, os dados LPC transmitidos não são usados como são, mas os dados são calculados com os dados correspondentes da janela da estrutura final de análise LPC obtida para a última estrutura.
Aplicações preferidas da presente invenção são subsequentemente descritas com relação aos desenhos anexos, em que:
A Figura la ilustra um diagrama em blocos de um codificador de áudio comutado;
A Figura 1b ilustra um diagrama em blocos de um decodificador comutado correspondente;
A Figura 1c ilustra mais detalhes sobre o decodificador do parâmetro por transformada ilustrado na Figura lb;
A Figura ld ilustra mais detalhes sobre o modo de codificação por transformada do decodificador da Figura la; o janelador aplicado no codificador para análise LPC por um lado e análise de codificação por transformada por outro lado, e é uma representação da janela de síntese utilizada no decodificador de codificação por transformada da Figura 1b;
A Figura 2b ilustra uma sequência da janela das janelas de análise LPC alinhadas e das janelas TCX para um espaço de tempo de mais do que duas estruturas;
A Figura 2c ilustra uma situação para uma transição de TCX em ACELP e uma janela de transição para uma transição de ACELP em TCX;
A Figura 3a ilustra mais detalhes do codificador da Figura la;
A Figura 3b ilustra um procedimento de análise por síntese para decidir sobre um modo de codificação para uma estrutura;
A Figura 3c ilustra outra aplicação para decidir entre os modos para cada estrutura;
A Figura 4a ilustra o cálculo e uso dos dados LPC derivados utilizando as duas janelas de análise LPC diferentes para uma estrutura atual;
A Figura 4b ilustra o uso de dados LPC obtidos por janela utilizando uma janela de análise LPC para a ramificação TCX do codificador;
A Figura 5a ilustra as janelas de análise LPC para AMR-WB;
A Figura 5d ilustra janelas simétricas para AMR- WB+ para a finalidade da análise LPC; um codificador G.718;
A Figura 5d ilustra janelas de análise LPC conforme utilizado em USAC; e
A Figura 6 ilustra uma janela TCX para uma estrutura atual com relação a uma janela de análise LPC para a estrutura atual.
A Figura la ilustra um aparelho para codificar um sinal de áudio tendo um fluxo de amostras de áudio. As amostras de áudio ou dados de áudio entram no codificador em 100. Os dados de áudio são introduzidos em um janelador 102 para aplicar uma janela da análise da codificação por previsão ao fluxo de amostras de áudio para obter dados em janela para uma análise de previsão. O janelador 102 é adicionalmente configurado para aplicar uma janela de análise de codificação por transformada ao fluxo de amostras de áudio para obter os dados em janela para uma análise de transformada. Dependendo da implementação, a janela LPC não é aplicada diretamente no sinal original, mas em um sinal "pré- enfatizado" (como em AMR-WB, AMR-WB+, G718 e USAC). Por outro lado a janela TCX é aplicada no sinal original diretamente (como em USAC). Entretanto, ambas as janelas também podem ser aplicadas aos mesmos sinais ou a janela TCX também pode ser aplicada a um sinal de áudio processado derivado do sinal original como pré- enfatizando ou qualquer outra ponderação utilizada para melhorar a qualidade ou eficiência de compressão.
A janela de análise de codificação por transformada está associada com as amostras de áudio em uma estrutura atual de amostras de áudio e com amostras de áudio de uma parte predefinida da futura estrutura de amostras de áudio sendo uma parte antecipada de codificação por transformada.
Além disso, a janela da análise da codificação por previsão está associada com pelo menos uma parte das amostras de áudio da estrutura atual e com amostras de áudio de uma parte predefinida da futura estrutura sendo uma parte antecipada de codificação por previsão.
Conforme descrito no bloco 102, a parte antecipada de codificação por transformada e a parte antecipada de codificação por previsão são alinhadas entre si, o que significa que estas partes são idênticas ou muito próximas entre si, como diferentes entre si por menos do que 20% da parte antecipada de codificação por previsão ou menos do que 20% da parte antecipada de codificação por transformada. Preferivelmente, as partes antecipadas são idênticas ou diferentes entre si ainda por menos do que 5% da parte antecipada de codificação por previsão ou menos do que 5% da parte antecipada de codificação por transformada.
O codificador adicionalmente compreende um processador de codificação 104 para gerar dados codificados de previsão para a estrutura atual utilizando os dados em janela para a análise de previsão ou para gerar dados codificados por transformada para a estrutura atual utilizando os dados em janela para a análise de transformada.
Além disso, o codificador preferivelmente compreende uma interface de entrada 106 para receber, para uma estrutura atual e, de fato, para cada estrutura, os dados LPC 108a e os dados codificados por transformada (como os dados TCX) ou os dados codificados de previsão (dados ACELP) sobre a linha 108b. O processador de codificação 104 fornece estes dois tipos de dados e recebe, como entrada, dados em janela para uma análise de previsão indicada em 110a e dados em janela para uma análise de transformada indicada em 110b. Além disso, o aparelho para codificar compreende um seletor do modo de codificação ou controlador 112 que recebe, como uma entrada, os dados de áudio 100 e que fornece, como uma saida, dados de controle ao processador de codificação 104 através das linhas de controle 114a, ou dados de controle à interface de entrada 106 através da linha de controle 114b.
A Figura 3a fornece detalhes adicionais sobre o processador de codificação 104 e o janelador 102. O janelador 102 preferivelmente compreende, como um primeiro módulo, o LPC ou janelador de análise da codificação por previsão 102a e, como um segundo componente ou módulo, o janelador da codificação por transformada (como janelador TCX) 102b. Conforme indicado pela seta 300, a janela de análise LPC e a janela TCX são alinhadas entre si de modo que as partes antecipadas de ambas as janelas sejam idênticas entre si, o que significa que ambas as partes antecipadas se estendem até o mesmo periodo em uma futura estrutura. A ramificação superior na Figura 3a do janelador LPC 102a adiante à direita é uma ramificação da codificação por previsão compreendendo um analisador LPC e interpolador 302, um filtro de ponderação perceptual ou um bloco de ponderação 304 e um calculador do parâmetro da codificação por previsão 306 como um calculador de parâmetro ACELP. Os dados de áudio 100 são fornecidos ao janelador LPC 102a e o bloco de ponderação perceptual 304. Adicionalmente, os dados de áudio são fornecidos ao janelador TCX, e a ramificação inferior da saida do janelador TCX à direita constitui uma ramificação da codificação por transformada. Esta ramificação da codificação por transformada compreende um bloco de conversão de frequência/tempo 310, um bloco espectral de ponderação 312 e um bloco de codificação de processamento/quantização 314. 0 bloco de conversão de frequência de tempo 310 é preferivelmente implementado como uma transformada induzida pela sobreposição como um MDCT, um MDST ou qualquer outra transformação que tem um número de valores de entrada sendo maior do que o número de valores de saida. A conversão de tempo/frequência tem, como uma entrada, os dados em janela emitidos por TCX ou, geralmente declarados, pelo janelador da codificação por transformada 102b.
Embora a Figura 3a indique, para a ramificação da codificação de previsão, um processamento de LPC com um algoritmo de codificação ACELP, outros codificadores de previsão como CELP ou quaisquer outros codificadores de dominio de tempo conhecidos na técnica podem ser aplicados também, embora o algoritmo ACELP seja preferido devido a sua qualidade por um lado e sua eficiência por outro lado.
Além disso, para a ramificação da codificação por transformada, um processamento de MDCT particularmente no bloco de conversão de frequência/tempo 310 é preferido, embora qualquer outra transformação de dominio espectral possa ser realizada também.
Além disso, a Figura 3a ilustra uma ponderação espectral 312 para transformar os valores espectrais emitidos pelo bloco 310 em um dominio LPC. Esta ponderação espectral 312 é realizada com os dados de ponderação derivados da dos dados LPC de análise gerados pelo bloco 302 na ramificação da codificação de previsão. De modo alternativo, entretanto, a transformação do dominio de tempo ao dominio LPC também poderia ser realizada no dominio de tempo. Neste caso, um filtro de análise LPC seria colocado antes do janelador TCX 102b para calcular os dados de dominio de tempo residual de previsão. Entretanto, foi observado que a transformação do dominio de tempo ao dominio LPC é preferivelmente realizada no dominio espectral pela ponderação espectral dos dados codificados por transformada utilizando dados LPC de análise transformados dos dados LPC em fatores de ponderação correspondentes no dominio espectral como o dominio MDCT.
A Figura 3b ilustra a visão geral para ilustrar uma análise por sintese ou determinação de "circuito fechado" do modo de codificação para cada estrutura. Para esta finalidade, codificador ilustrado na Figura 3c compreende um codificador completo de codificação por transformada e decodificador de codificação por transformada como é ilustrado em 104b e, adicionalmente, compreende um completo codificador de codificação por previsão e decodificador correspondente indicado em 104a na Figura 3c. Ambos os blocos 104a, 104b recebem, como uma entrada, os dados de áudio e realizam uma completa operação de codificação/decodificação. Então, os resultados da operação de codificação/decodificação para ambas as ramificações de codificação 104a, 104b são comparados com o sinal original e uma medição de qualidade é determinada para observar qual modo de codificação resultou em uma melhor qualidade. A medição de qualidade pode ser um valor SNR segmentado ou um SNR segmentado médio como, por exemplo, descrito na seção 5.2.3 de 3GPP TS 26.290. Entretanto, qualquer outra medição da qualidade pode ser aplicada também tipicamente dependendo de uma comparação do resultado da codificação/decodificação com o sinal original.
Com base na medição da qualidade que é fornecida de cada ramificação 104a, 104b ao decisor 112, o decisor decide se a estrutura atual examinada deve ser codificada utilizando ACELP ou TCX. Subsequente à decisão, há várias formas de realizar a seleção do modo de codificação. Uma forma é que o decisor 112 controla os blocos correspondentes do codificador/decodificador 104a, 104b, para simplesmente emitir o resultado da codificação a estrutura atual à interface de entrada 106, de modo que seja certo que, para uma determinada estrutura, apenas um único resultado de codificação é transmitido no sinal codificado emitido em 107.
De modo alternativo, ambos os dispositivos 104a, 104b poderiam encaminhar seu resultado de codificação já à interface de entrada 106, e ambos os resultados são armazenados na interface de entrada 106 até que o decisor controle a interface de entrada através da linha 105 à saída do resultado do bloco 104b ou do bloco 104a.
A Figura 3b ilustra mais detalhes sobre o conceito da Figura 3c. Particularmente, o bloco 104a compreende um codificador ACELP completo e um decodificador ACELP completo e um comparador 112a. O comparador 112a fornece uma medição da qualidade ao comparador 112c. O mesmo é verdadeiro para o comparador 112b, que tem uma medição da qualidade devido à comparação de um sinal TCX codificado e novamente decodificado como sinal de áudio original. Subsequentemente, ambos os comparadores 112a, 112b fornecem suas medições da qualidade ao comparador final 112c. Dependendo de qual medição da qualidade for melhor, o comparador decide sobre a decisão de CELP ou TCX. A decisão pode ser refinada introduzindo fatores adicionais à decisão.
De modo alternativo, um modo de circuito aberto para determinar o modo de codificação para uma estrutura atual com base na análise do sinal dos dados de áudio para a estrutura atual pode ser realizado. Neste caso, o decisor 112 da Figura 3c realizaria uma análise do sinal dos dados de áudio para a estrutura atual e então controlaria um codificador ACELP ou um codificador TCX para realmente codificar a estrutura de áudio atual. Nesta situação, o codificador não precisaria de um decodificador completo, mas uma implementação das etapas de codificação sozinhas dentro do codificador seriam suficientes. As classificações do sinal de circuito aberto e decisões do sinal são, por exemplo, também descritas em AMR-WB+ (3GPP TS 26.290).
A Figura 2a ilustra uma implementação preferidas do janelador 102 e, particularmente, as janelas fornecidas pelo janelador.
Preferivelmente, a janela da análise da codificação por previsão para a estrutura atual é centralizada no centro de uma quarta subestrutura e esta janela é indicada em 200. Além disso, é preferido utilizar uma janela de análise LPC adicional, ou seja, a janela LPC de estrutura média de análise indicada em 202 e centralizada no centro da segunda subestrutura da estrutura atual. Além disso, a janela de codificação por transformada como, por exemplo, a janela MDCT 204 é colocada com relação às duas janelas de análise LPC 200, 202 conforme ilustrado. Particularmente, a parte antecipada 206 da janela de análise tem a mesma extensão no tempo que a parte antecipada 208 da janela da análise da codificação de previsão. Ambas as partes antecipadas se estendem 10 ms à futura estrutura. Além disso, é preferido que a janela de análise de codificação por transformada não tenha apenas a parte sobreposta 206, mas tenha uma parte não sobreposta entre 10 e 20 ms 208 e a primeira parte sobreposta 210. As partes sobrepostas 206 e 210 são de modo que um somador por sobreposição em um decodificador realize um processamento de adição por sobreposição na parte sobreposta, mas um processamento de adição por sobreposição não é necessário para a parte não sobreposta.
Preferivelmente, a primeira parte sobreposta 210 começa no inicio da estrutura, ou seja, a zero ms e se estende até o centro da estrutura, ou seja, 10 ms. Além disso, a parte não sobreposta se estende do final da primeira parte da estrutura 210 até o final da estrutura a 20 ms de modo que a segunda parte sobreposta 206 coincida completamente com a parte antecipada. Isso tem vantagens devido à comutação de um modo a outro. De um ponto de vista do desempenho de TCX, seria melhor utilizar uma janela de seno com sobreposição completa (20 ms de sobreposição, como em USAC) . Entretanto, seria necessária uma tecnologia como o cancelamento de sobreposição de avanço para as transições entre TCX e ACELP. O cancelamento da sobreposição de avanço é utilizado em USAC para cancelar a sobreposição introduzida pelas próximas estruturas TCX perdidas (substituídas por ACELP). O cancelamento de sobreposição de avanço requer uma quantia significativa de bits e assim não é adequada para uma taxa de bit constante e, particularmente, o codec com baixa taxa de bit como uma aplicação preferida do codec descrito. Entretanto, de acordo com as aplicações da invenção, ao invés de utilizar FAC, a sobreposição da janela TCX é reduzida e a janela é comutada em direção ao futuro de modo que a parte sobreposta 206 completa seja colocada na futura estrutura. Além disso, a janela ilustrada na Figura 2a para codificação por transformada tem, todavia, uma sobreposição máxima para receber a reconstrução máxima na estrutura atual, quando a próxima estrutura for ACELP e sem utilizar o cancelamento de sobreposição de avanço. Esta sobreposição máxima é preferivelmente definida a 10 ms que é a antecipação disponivel no tempo, ou seja, 10 ms conforme se torna claro da Figura 2a.
Embora a Figura 2a foi descrita com relação a um codificador, onde a janela 204 para codificação por transformada é uma janela de análise, é observado que a janela 204 também representa uma janela de sintese para decodificação por transformada. Em uma aplicação preferida, a janela de análise é idêntica à janela de sintese, e ambas as janelas são simétricas. Isso significa que ambas as janelas são simétricas em uma linha central (horizontal). Em outras aplicações, entretanto, as janelas não simétricas podem ser usadas, onde a janela de análise é diferente na forma do que a janela de síntese.
A Figura 2b ilustra uma sequência de janelas sobre uma parte de uma última estrutura, uma estrutura atual subsequentemente, uma futura estrutura que é subsequentemente seguinte a estrutura atual e a próxima futura estrutura que é subsequentemente seguinte à futura estrutura.
Torna-se claro que a parte de adição por sobreposição processada por um processador de adição por sobreposição ilustrado em 250 se estende do inicio de cada estrutura até o meio de cada estrutura, ou seja, entre 20 e 30 ms para calcular os dados da futura estrutura entre 40 e 50 ms para calcular os dados TCX para a próxima futura estrutura ou entre zero e 10 ms para calcular dados para a estrutura atual. Entretanto, para calcular os dados na segunda metade de cada estrutura, nenhuma adição por sobreposição, e, entretanto, nenhuma técnica de cancelamento de sobreposição de avanço é necessária. Isso é devido ao fato de que a janela de sintese tem uma parte de não sobreposição na segunda metade de cada estrutura.
Tipicamente, a extensão de uma janela MDCT é duas vezes a extensão de uma estrutura. Este é o caso na presente invenção. Quando, novamente, a Figura 2a é considerada, entretanto, se torna claro que a janela de análise/sintese apenas se estende de zero a 30 ms, mas a extensão completa da janela é 40 ms. Esta extensão completa é significativa para fornecer dados de entrada para a operação de dobra ou desdobra correspondente do cálculo MDCT. Para estender a janela em uma extensão total de 14 ms, 5 ms valores zero são adicionados entre -5 e 0 ms e 5 segundos de valores zero de MDCT também são adicionados no final da estrutura entre 30 e 35 ms. Estas partes adicionais tendo zeros, entretanto, não desempenham qualquer parte quando se refere às considerações de atraso, visto que se sabe que o codificador ou decodificador que dura cinco ms da janela e os primeiros cinco ms da janela são zeros, de modo que estes dados já estejam presentes sem qualquer.
A Figura 2c ilustra as duas possiveis transições.
Para uma transição de TCX a ACELP, entretanto, nenhum cuidado especial deve ser considerado visto que, quando se assume com relação à Figura 2a que a futura estrutura é uma estrutura ACELP, então os dados obtidos pela decodificação TCX a última estrutura para a parte antecipada 206 pode simplesmente ser detectada, visto que a estrutura ACELP imediatamente começa no inicio da futura estrutura e, entretanto, nenhum poço dado existe. Os dados ACELP são independentes e, entretanto, um decodificador, quando tem uma comutação de TCX em ACELP usa os dados calculados de TCX para a estrutura atual, descarta os dados obtidos pelo processamento TCX para a futura estrutura e, ainda, usa os dados da futura estrutura da ramificação ACELP.
Quando, entretanto, uma transição de ACELP em TCX é realizada, então uma janela de transição especial conforme ilustrado na Figura 2c é usada. Esta janela começa no inicio da estrutura de zero a 1, tem uma parte não sobreposta 220 e tem uma parte sobreposta no final indicado em 222 que é idêntico à parte sobreposta 206 de uma MDCT janela reta.
Esta janela é, adicionalmente, preenchida com zeros entre -12,5 ms a zero no inicio da janela e entre 30 e 35,5 ms no final, ou seja, subsequente à parte antecipada 222. Isso resulta em uma extensão transformação elevada. A extensão tem 50 ms, mas a extensão da janela de análise/sintese reta tem apenas 40 ms. Isso, entretanto, não reduz a eficiência ou aumenta a taxa de bit, e essa transformação não é mais necessária quando uma comutação de ACELP em TCX ocorrer. A janela de transição utilizada no decodificador correspondente é idêntica à janela ilustrada na Figura 2c.
A seguir, o decodificador é discutido em mais detalhes. A Figura 1b ilustra um decodificador de áudio para decodificar um sinal de áudio decodificado. O decodificador de áudio compreende um decodificador do parâmetro de previsão 180, onde o decodificador do parâmetro de previsão é configurado para realizar uma decodificação de dados para uma estrutura codificada por previsão do sinal de áudio decodificado recebido em 181 e sendo inserido em uma interface 182. O decodificador adicionalmente compreende um decodificador do parâmetro por transformada 183 para realizar uma decodificação de dados para uma estrutura codificada por transformada do sinal de áudio decodificado em linha 181. O decodificador do parâmetro por transformada é configurado para realizar, preferivelmente, uma transformada afetada por sobreposição de tempo espectral e para aplicar uma janela de sintese aos dados transformados para obter dados para a estrutura atual e a futura estrutura. A janela de sintese tem uma primeira parte sobreposta, uma segunda parte não sobreposta adjacente, e uma terceira parte sobreposta adjacente conforme ilustrado na Figura 2a, em que a terceira parte sobreposta é apenas associada com as amostras de áudio para a futura estrutura e a parte não sobreposta é apenas associada com os dados da estrutura atual. Além disso, um somador por sobreposição 184 é fornecido para sobreposição e adição das amostras da janela de sintese associadas com a terceira parte sobreposta de uma janela de síntese para a estrutura atual e uma janela de síntese nas amostras associadas com a primeira parte sobreposta de uma janela de síntese para a futura estrutura para obter uma primeira parte de amostras de áudio para a futura estrutura. O resto das amostras de áudio para a futura estrutura são amostras da síntese em janela associadas com a segunda parte não sobreposta da janela de síntese para a futura estrutura obtida sem adição por sobreposição quando a estrutura atual e a futura estrutura compreendem os dados codificados por transformada. Quando, entretanto, uma comutação ocorrer de uma estrutura à próxima estrutura, um combinador 185 é útil tendo cuidado para uma boa comutação de um modo de codificação a outro modo de codificação para finalmente obter os dados de áudio decodificados na saída do combinador 185.
A Figura 1c ilustra mais detalhes sobre a construção do decodificador do parâmetro por transformada 183.
O decodificador compreende um estágio de processamento do decodificador 183a que é configurado para realizar todo o processamento necessário para decodificar os dados espectrais codificados como decodificação aritmética ou decodificação por Huffman ou geralmente, decodificação por entropia e uma subsequente de-quantização, preenchimento de ruído, etc. para obter os valores espectrais decodificados na saída do bloco 183. Estes valores espectrais são inseridos em um ponderador espectral 183b. O ponderador espectral 183b recebe os dados da ponderação espectral de um calculador de dados da ponderação LPC 183c, que é inserido pelos dados LPC gerados do bloco da análise de previsão no codificador e recebidos, no decodificador, através da interface de entrada 182. Então, uma transformação espectral inversa é realizada compreendendo, como um primeiro estágio, preferivelmente uma transformação inversa DCT-IV 183d e um desdobramento subsequente e processamento da janela de sintese 183e, antes dos dados para a futura estrutura, por exemplo, ser fornecidos ao somador por sobreposição 184. O somador por sobreposição pode realizar a operação de adição por sobreposição quando os dados para a próxima futura estrutura estiver disponíveis. Os blocos 183d e 183e juntos constituem a transformação espectral/tempo ou, na aplicação na Figura 1c, uma transformação inversa MDCT preferida (MDCT-1) .
Particularmente, o bloco 183d recebe dados para uma estrutura de 20 ms, e aumenta o volume de dados na etapa de desdobra do bloco 183e nos dados para 40 ms, ou seja, duas vezes a quantidade dos dados de antes e, subsequentemente, a janela de sintese tendo uma extensão de 40 ms (quando as partes zero no inicio e no final são adicionadas juntas) é aplicada a estes 40 ms de dados. Então, na saida do bloco 183e, os dados para o bloco atual e os dados dentro da parte antecipada para o futuro bloco estão disponíveis.
A Figura ld ilustra o processamento do lado do codificador correspondente. As características discutidas no contexto da Figura ld são implementadas no processador de codificação 104 ou pelos blocos correspondentes na Figura 3a. A conversão de frequência/tempo 310 na Figura 3a é preferivelmente implementada como uma MDCT e compreende um janelamento, estágio de dobra 310a, onde a operação de janelamento no bloco 310a é implementada pelo janelador TCX 103d. Assim, a primeira operação no bloco 310 na Figura 3a é a operação de dobre para retornar 40 ms dos dados de entrada em 20 ms dos dados da estrutura. Então, com os dados dobrados que agora receberam as contribuições de sobreposição, um DCT-IV é realizado como a ilustrado no bloco 310d. O bloco 302 (análise LPC) fornece os dados LPC derivados da análise utilizando a janela LPC da estrutura final em um bloco (LPC em MDCT) 302b, e o bloco 302d gera os fatores de ponderação para realizar a ponderação espectral pelo ponderador espectral 312. Preferivelmente, 16 coeficientes LPC para uma estrutura de 20 ms no modo de codificação TCX são transformados em 16 fatores de dominio MDCT de ponderação, preferivelmente utilizando um oDFT [odd Discrete Fourier Transform | Transformada de Fourier Discreta impar] . Para outros modos, como os modos NB tendo uma taxa da amostragem de 8 kHz, o número de coeficientes LPC pode ser menor que 10. Para outros modos com uma taxa da amostragem mais alta, pode haver mais do que 16 coeficientes LPC. O resultado desta oDFT são 16 valores de ponderação, e cada valor de ponderação está associado com uma banda de dados espectrais obtidos pelo bloco 310b. A ponderação espectral ocorre dividindo todos os valores espectrais MDCT por uma banda pelo mesmo valor de ponderação associado com esta banda para realizar de forma eficiente esta operação de ponderação espectral no bloco 312. Assim, 16 bandas de valores MDCT são divididos pelo fator de ponderação correspondente para emitir os valores espectralmente ponderados que são então processados pelo bloco 314 como conhecido na técnica, ou seja, por exemplo, codificação por quantização e entropia.
Por outro lado, no lado do codificador, a ponderação espectral correspondente ao bloco 312 na Figura ld será uma multiplicação realizada pelo ponderador espectral 183b ilustrado na Figura 1c.
A seguir, a Figura 4a e a Figura 4b são discutidas para descrever como os dados LPC gerados pela janela de análise LPC ou gerados pelas duas janelas de análise LPC ilustradas na Figura 2 são usadas tanto no modo ACELP quanto no modo TCX/MDCT.
Subsequente à aplicação da janela de análise LPC, o cálculo de autocorrelação é realizado com os dados LPC em janela. Então, um algoritmo Levinson Durbin é aplicado na função de autocorrelação. Então, os 16 coeficientes LP para cada análise LP, ou seja, 16 coeficientes para a janela de estrutura média e os 16 coeficientes para a janela da estrutura final são convertidos em valores ISP. Assim, as etapas do cálculo de autocorrelação na conversão ISP são, por exemplo, realizadas no bloco 400 da Figura 4a. Então, o cálculo continua, no lado do codificador por uma quantização dos coeficientes ISP. Então, os coeficientes ISP são novamente não quantizados e convertidos novamente ao dominio do coeficiente LP. Assim, os dados LPC ou, de forma diferente declarada, 16 coeficientes LPC levemente diferentes dos coeficientes LPC derivados no bloco 400 (devido à quantização e requantização) são obtidos podendo então ser diretamente usados para a quarta subestrutura conforme indicado na etapa 401. Para as outras subestruturas, entretanto, é preferido realizar várias interpolações como, por exemplo, as descritas na seção 6.8.3 de Rec. ITU-T G.718 (06/2008). Os dados LPC para a terceira subestrutura são calculados pela interpolação da estrutura final e os dados LPC da estrutura média ilustrados no bloco 402. A interpolação preferida é a que cada dado correspondente é dividido por dois e somados juntos, ou seja, uma média dos dados LPC da estrutura final e da estrutura média LPC. Para calcular os dados LPC para a segunda subestrutura conforme ilustrado no bloco 403, adicionalmente, uma interpolação é realizada. Particularmente, 10% dos valores dos dados LPC da estrutura final da última estrutura, 80% dos dados LPC de estrutura média para a estrutura atual e 10% dos valores dos dados LPC para a estrutura final da estrutura atual são usados para finalmente calcular os dados LPC para a segunda subestrutura.
Finalmente, os dados LPC para a primeira subestrutura são calculados, conforme indicado no bloco 404, formando uma média entre os dados LPC da estrutura final da última estrutura e os dados LPC de estrutura média da estrutura atual.
Para realizar a codificação ACELP, ambos os conjuntos do parâmetro LPC quantizado, ou seja, da análise de estrutura média e a análise da estrutura final são transmitidas em um decodificador.
Com base nos resultados para as subestruturas individuais calculadas pelos blocos 401 a 404, os cálculos ACELP são realizados conforme indicado no bloco 405 para obter os dados ACELP a ser transmitidos ao decodificador.
A seguir, a Figura 4b é descrita. Novamente, no bloco 400, os dados LPC da estrutura média e da estrutura final são calculados. Entretanto, visto que há o modo de codificação TCX, apenas os dados LPC da estrutura final são transmitidos ao decodificador e os dados LPC de estrutura média não são transmitidos ao decodificador. Particularmente, um não transmite os próprios coeficientes LPC ao decodificador, mas um transmite os valores obtidos após a quantização e a transformada ISP. Assim, é preferido que, como os dados LPC, os valores ISP quantizados dos coeficientes dos dados LPC da estrutura final são transmitidos ao decodificador.
No codificador, entretanto, os procedimentos nas etapas 406 a 408 devem, todavia, ser realizados para obter os fatores de ponderação para pesar os dados espectrais MDCT da estrutura atual. Para esta finalidade, os dados LPC da estrutura final da estrutura atual e os dados LPC da estrutura final da última estrutura são interpolados. Entretanto, é preferido não interpolar os próprios coeficientes dos dados LPC como diretamente derivados da análise LPC. Ainda, é preferido interpolar os valores ISP quantizados e novamente dequantizados derivados dos coeficientes LPC correspondentes. Assim, os dados LPC usados no bloco 406 bem como os dados LPC usados para outros cálculos no bloco 401 a 404 são sempre, preferivelmente, dados ISP quantizados e novamente dequantizados derivados dos 16 coeficientes LPC originais por janela de análise LPC.
A interpolação no bloco 406 é preferivelmente um cálculo puro, ou seja, os valores correspondentes são adicionados e divididos por dois. Então, no bloco 407, os dados espectrais MDCT da estrutura atual são ponderados utilizando os dados LPC interpolados e, no bloco 408, o outro processamento de dados espectrais ponderados é realizado para finalmente obter os dados espectrais codificados a ser transmitidos do codificador em um decodificador. Assim, os procedimentos realizados na etapa 407 correspondem ao bloco 312, e o procedimento realizado no bloco 408 na Figura 4d corresponde ao bloco 314 na Figura 4d. As operações correspondentes são realmente realizadas no lado do codificador.
Assim, as mesmas interpolações são necessárias no lado do codificador para calcular os fatores de ponderação espectral por um lado ou para calcular os coeficientes LPC para as subestruturas individuais por interpolação por outro lado. Entretanto, a Figura 4a e a Figura 4b são igualmente aplicáveis ao lado do codificador com relação aos procedimentos nos blocos 401 a 404 ou 406 da Figura 4b.
A presente invenção é particularmente útil para implementações de codec de baixo atraso. Isso significa que estes codecs são desenhados para ter um atraso algorítmico ou sistemático preferivelmente abaixo de 45 ms e, em alguns casos igual ou abaixo de 35 ms. Todavia, a parte antecipada para a análise LPC e análise TCX são necessárias para obter uma boa qualidade do áudio. Entretanto, um bom equilíbrio entre ambas as exigências contraditórias é necessário. Foi observado que o bom equilíbrio entre atraso por um lado e qualidade por outro lado pode ser obtido por um codificador de áudio comutado ou decodif icador tendo uma extensão da estrutura de 20 ms, mas foi observado que os valores para as extensões da estrutura entre 15 e 30 ms também fornecem resultados aceitáveis. Por outro lado, foi observado que uma parte antecipada de 10 ms é aceitável quando se trata de atraso, mas os valores entre 5 ms e 20 ms também são úteis dependendo da aplicação correspondente. Além disso, foi observado que a relação entre a parte antecipada e a extensão da estrutura é útil quando tem o valor de 0,5, mas outros valores entre 0,4 e 0,6 são úteis também. Além disso, embora a invenção foi descrita com ACELP por um lado e MDCT-TCX por outro lado, outros algoritmos operando no dominio de tempo como CELP ou qualquer outra previsão ou algoritmos de forma de onda também são úteis. Com relação a TCX/MDCT, outros algoritmos de codificação do dominio por transformada como uma MDST, ou qualquer outro algoritmo com base em transformada também pode ser aplicado.
O mesmo é verdadeiro para a implementação especifica da análise LPC e cálculo LPC. É preferido depender dos procedimentos descritos antes, mas outros procedimentos para cálculo/interpolação e análise podem ser usados também, desde que estes procedimentos dependam de uma janela de análise LPC.
Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos representam também uma descrição do método correspondente, onde um bloco ou um dispositivo corresponde a uma etapa do método ou de uma característica de uma etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou característica de um aparelho correspondente.
Dependendo dos requisitos de certas implementações, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio digital de armazenamento, por exemplo, um Disquete, um DVD, um CD, uma memória ROM, PROM, EPROM, EEPROM ou uma memória FLASH, possuindo sinais de controle eletronicamente legíveis nela armazenados, que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado.
Algumas aplicações de acordo com a invenção compreendem um suporte de dados não transitório com controle legíveis eletronicamente, os quais são capazes de cooperar com um sistema de computador programável, de tal forma que um dos métodos aqui descritos seja realizado.
De forma geral, as aplicações da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa sendo operativo para a realização de um dos métodos quando o produto de programa de computador operar em um computador. O código de programa pode, por exemplo, ser armazenado em um suporte mecanicamente legível.
Outras aplicações incluem o programa de computador para executar um dos métodos aqui descritos, armazenado em um suporte mecanicamente legível.
Em outras palavras, uma aplicação do método da invenção é, portanto, um programa de computador com um código de programa para realizar um dos métodos aqui descritos, quando o programa de computador for executado em um computador.
Uma aplicação adicional do método da invenção é, portanto, um suporte de dados (ou um meio de armazenamento digital ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para a realização de um dos métodos aqui descritos.
Uma aplicação adicional do método da invenção é, portanto, um fluxo de dados ou de uma sequência de sinais que representam o programa de computador para a realização de um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais podem, por exemplo, ser configurados para serem transferidos através de uma conexão para comunicação de dados, por exemplo, através da Internet.
Uma aplicação adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado para ou adaptado para executar um dos métodos aqui descritos.
Uma aplicação adicional compreende um computador, tendo instalado nele o programa de computador para a execução de um dos métodos aqui descritos.
Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arranjo de portas programáveis em campo) pode ser utilizado para executar uma parte ou todas as funcionalidades dos métodos aqui descritos. Em algumas aplicações, um arranjo de portas programáveis em campo pode cooperar com um microprocessador de modo a executar um dos métodos aqui descritos. De forma geral, os métodos são de preferência realizados por qualquer aparelho de hardware.
As aplicações acima descritas são meramente ilustrativas para os principios da presente invenção. Entende-se que modificações e variações dos arranjos e detalhes aqui descritos serão evidentes para outros especialistas na técnica. É intenção, portanto, ser limitada apenas pelo escopo das reivindicações de patente pendente e não pelos detalhes específicos apresentados a titulo de descrição e explicação das aplicações da presente invenção.

Claims (24)

1. Aparelho para codificar um sinal de áudio tendo um fluxo de amostras de áudio (100), compreendendo: um janelador [WINDOWER] (102) para aplicar uma janela de análise de codificação de previsão (200) ao fluxo de amostras de áudio para obter os dados em janela para uma análise de previsão e para aplicar uma janela de análise de codificação por transformada (204) ao fluxo de amostras de áudio para obter os dados em janela para uma análise de transformada, caracterizado por a janela de análise de codificação por transformada estar associada às amostras de áudio dentro de uma estrutura atual de amostras de áudio e às amostras de áudio de uma parte predefinida de uma estrutura futura de amostras de áudio sendo uma parte antecipada de codificação por transformada (206), em que a janela de análise de codificação de previsão está associada, pelo menos, à parte das amostras de áudio da estrutura atual e às amostras de áudio de uma parte predefinida da estrutura futura sendo uma parte antecipada de codificação por previsão (208), em que a parte antecipada de codificação por transformada (206) e a parte antecipada de codificação por previsão (208) são identicamente entre si ou são diferentes entre si por menos do que 20% da parte antecipada de codificação por previsão (208) ou menos do que 20% da parte antecipada de codificação por transformada (206); e um processador de codificação (104) para gerar dados codificados de previsão para a estrutura atual utilizando os dados em janela para a análise de previsão ou para gerar os dados codificados por transformada para a estrutura atual utilizando os dados em janela para a análise de transformada.
2. Aparelho de acordo com a reivindicação 1, caracterizado por a janela de análise de codificação por transformada (204) compreender uma parte não sobreposta que se estende na parte antecipada de codificação por transformada (206).
3. Aparelho de acordo com a reivindicação 1 ou 2, caracterizado por a janela de análise de codificação por transformada (204) compreender outra parte sobreposta (210) que começa no início da estrutura atual e termina no início da parte não sobreposta (208).
4. Aparelho de acordo com a reivindicação 1, caracterizado por a janelador (102) ser configurado para apenas utilizar uma janela inicial (220, 222) para a transição a partir da codificação de previsão para a codificação por transformada de uma estrutura à próxima estrutura, em que a janela inicial não é utilizada para uma transição da codificação por transformada para a codificação de previsão de uma estrutura à próxima estrutura.
5. Aparelho de acordo com uma das reivindicações anteriores, compreendendo, ainda: uma interface de entrada (106) para emitir um sinal codificado para a estrutura atual; e um seletor do modo de codificação (112) para controlar o processador de codificação (104) para emitir tanto os dados codificados de previsão quanto os dados codificados por transformada para a estrutura atual, caracterizado por o seletor do modo de codificação (112) ser configurado para apenas comutar entre a codificação de previsão ou a codificação por transformada para toda a estrutura, de modo que o sinal codificado para toda a estrutura contenha ou dados codificados de previsão ou dados codificados por transformada.
6. Aparelho de acordo com uma das reivindicações anteriores, caracterizado por o janelador (102) utilizar, além da janela de análise da codificação de previsão, outra janela de análise da codificação de previsão (202) sendo associada às amostras de áudio sendo colocadas no início da estrutura atual, e em que a janela de análise da codificação de previsão (200) não está associada às amostras de áudio sendo colocadas no início da estrutura atual.
7. Aparelho de acordo com uma das reivindicações anteriores, caracterizado por a estrutura compreender uma pluralidade de subestruturas, em que a janela de análise de previsão (200) é centralizada em um centro de uma subestrutura, e em que a janela de análise de codificação por transformada é centralizada em uma borda entre as duas subestruturas.
8. Aparelho de acordo com a reivindicação 7, caracterizado por a janela de análise de previsão (200) estar centralizada no centro da última subestrutura da estrutura, em que outra janela de análise (202) é centralizada em um centro da segunda subestrutura da estrutura atual, e em que a janela de análise de codificação por transformada é centralizada em uma borda entre a terceira e a quarta subestrutura da estrutura atual, em que a estrutura atual é subdividida em quatro subestruturas.
9. Aparelho de acordo com uma das reivindicações anteriores, caracterizado por uma janela adicional de análise da codificação de previsão (202) não ter uma parte antecipada na estrutura futura e estar associada às amostras da estrutura atual.
10. Aparelho de acordo com uma das reivindicações anteriores, caracterizado por a janela de análise de codificação por transformada adicionalmente compreender uma parte zero antes de um início da janela e uma parte zero subsequente a um final de janela, de modo que uma extensão total no tempo da janela de análise de codificação por transformada seja duas vezes a extensão no tempo da estrutura atual.
11. Aparelho de acordo com a reivindicação 10, caracterizado por, para uma transição de um modo de codificação de previsão para um modo de codificação por transformada de uma estrutura à próxima estrutura, uma janela de transição ser utilizada pelo janelador (102), em que a janela de transição compreende uma primeira parte não sobreposta que começa no início da estrutura e uma parte sobreposta que começa no final da parte não sobreposta e que se estende à estrutura futura, em que a parte sobreposta que se estende na estrutura futura tem uma extensão que é idêntica à extensão da parte antecipada de codificação por transformada da janela de análise.
12. Aparelho de acordo com uma das reivindicações anteriores, caracterizado por uma extensão no tempo da janela de análise de codificação por transformada ser maior do que uma extensão no tempo da janela de análise da codificação de previsão (200, 202).
13. Aparelho de acordo com uma das reivindicações anteriores, compreendendo, ainda: uma interface de entrada (106) para emitir um sinal codificado para a estrutura atual; e um seletor do modo de codificação (112) para controlar o processador de codificação (104) para emitir ou os dados codificados de previsão ou os dados codificados por transformada para a estrutura atual, caracterizado por a janela (102) ser configurada para utilizar outra janela da codificação de previsão localizada na estrutura atual antes da janela da codificação de previsão, e em que o seletor do modo de codificação (112) é configurado para controlar o processador de codificação (104) para apenas encaminhar os dados da análise da codificação de previsão derivados da janela da codificação de previsão, quando os dados codificados por transformada forem emitidos para a interface de entrada e não para encaminhar os dados da análise da codificação de previsão derivados de outra janela da codificação de previsão, e em que o seletor do modo de codificação (112) é configurado para controlar o processador de codificação (104) para encaminhar os dados da análise da codificação de previsão derivados da janela da codificação de previsão e para encaminhar os dados da análise da codificação de previsão derivados de outra janela da codificação de previsão, quando os dados codificados de previsão forem emitidos para a interface de entrada.
14. Aparelho de acordo com uma das reivindicações anteriores, caracterizado por o processador de codificação (104) compreender: um analisador da codificação de previsão (302) para derivar os dados da codificação de previsão para a estrutura atual dos dados em janela (100a) para uma análise de previsão; uma ramificação da codificação de previsão, compreendendo: um estágio do filtro (304) para calcular os dados do filtro das amostras de áudio para a estrutura atual utilizando os dados da codificação de previsão; e um calculador do parâmetro do codificador de previsão (306) para calcular os parâmetros da codificação de previsão para a estrutura atual; e uma ramificação da codificação por transformada, compreendendo: um conversor espectral por tempo (310) para converter os dados da janela para o algoritmo da codificação por transformada em uma representação espectral; um ponderador espectral (312) para ponderar os dados espectrais utilizando os dados de ponderação ponderados derivados dos dados da codificação de previsão para obter dados espectrais ponderados; e um processador dos dados espectrais (314) para processar os dados espectrais ponderados para obter os dados codificados por transformada para a estrutura atual.
15. Método para codificar um sinal de áudio tendo um fluxo de amostras de áudio (100), compreendendo: aplicar (102) uma janela de análise da codificação de previsão (200) ao fluxo de amostras de áudio para obter dados em janela para uma análise de previsão e aplicar uma janela de análise de codificação por transformada (204) ao fluxo de amostras de áudio para obter dados em janela para uma análise de transformada, caracterizado por a janela de análise de codificação por transformada estar associada às amostras de áudio dentro de uma estrutura atual de amostras de áudio e com amostras de áudio de uma parte predefinida de uma estrutura futura de amostras de áudio sendo uma parte antecipada de codificação por transformada (206), em que a janela de análise da codificação de previsão está associada com, pelo menos, a parte das amostras de áudio da estrutura atual e com amostras de áudio de uma parte predefinida da estrutura futura sendo uma parte antecipada de codificação por previsão (208), em que a parte antecipada de codificação por transformada (206) e a parte antecipada de codificação por previsão (208) são idênticas entre si ou são diferentes entre si por menos do que 20% da parte antecipada de codificação por previsão (208) ou menos do que 20% da parte antecipada de codificação por transformada (206); e gerar (104) dados codificados de previsão para a estrutura atual utilizando os dados em janela para a análise de previsão ou para gerar dados codificados por transformada para a estrutura atual utilizando os dados em janela para a análise de transformada.
16. Decodificador de áudio para decodificar um sinal de áudio codificado, compreendendo: um decodificador do parâmetro de previsão (180) para realizar uma decodificação de dados para uma estrutura codificada de previsão do sinal de áudio codificado; um decodificador do parâmetro por transformada (183) para realizar uma decodificação de dados para uma estrutura codificada por transformada do sinal de áudio codificado, caracterizado por o decodificador do parâmetro por transformada (183) ser configurado para realizar uma transformada de tempo espectral e para aplicar uma janela de síntese aos dados transformados para obter os dados para a estrutura atual e para uma estrutura futura, a janela de síntese tendo uma primeira parte sobreposta, uma segunda parte sobreposta adjacente e uma terceira parte sobreposta adjacente (206), a terceira parte sobreposta estando associada às amostras de áudio para a estrutura futura e a parte não sobreposta (208) estando associada com os dados da estrutura atual; e um adicionador de sobreposição (184) para sobrepor e adicionar as amostras de síntese em janela associadas com a terceira parte sobreposta de uma janela de síntese para a estrutura atual e amostras da síntese em janela associadas com a primeira parte sobreposta de uma janela de síntese para a estrutura futura para obter uma primeira parte de amostras de áudio para a estrutura futura, em que um resto das amostras de áudio para a estrutura futura são as amostras da síntese em janela associadas com a segunda parte não sobreposta da janela de síntese para a estrutura futura obtidas sem adição de sobreposição, quando a estrutura atual e a estrutura futura compreendem os dados codificados por transformada.
17. Decodificador de áudio de acordo com a reivindicação 16, caracterizado por a estrutura atual do sinal de áudio decodificado compreender dados codificados por transformada e a estrutura futura compreender dados codificados de previsão, em que o decodificador do parâmetro por transformada (183) é configurado para realizar um janelamento de síntese utilizando a janela de síntese para a estrutura atual para obter as amostras de áudio em janela associadas com a parte não sobreposta (208) da janela de síntese, em que as amostras de áudio de síntese em janela associadas à terceira parte sobreposta da janela de síntese para a estrutura atual são descartadas, e em que amostras de áudio para a estrutura futura são fornecidas pelo decodificador do parâmetro de previsão (180) sem dados do decodificador do parâmetro por transformada (183).
18. Decodificador de áudio de acordo com a reivindicação 16, caracterizado por a estrutura atual compreender dados da codificação de previsão e a estrutura futura compreender dados da codificação por transformada, em que o decodificador do parâmetro por transformada (183) é configurado para utilizar uma janela de transição sendo diferente da janela de síntese, em que a janela de transição (220, 222) compreende uma primeira parte não sobreposta (220) no começo da estrutura futura e uma parte sobreposta (222) que começa em um final da estrutura futura e que se estende na estrutura que segue a estrutura futura no tempo, e em que as amostras de áudio para a estrutura futura são geradas sem uma sobreposição e dados de áudio associados com a segunda parte sobreposta (222) da janela para a estrutura futura são calculados pelo adicionador de sobreposição (184) utilizando a primeira parte sobreposta da janela de síntese para a estrutura seguindo a estrutura futura.
19. Decodificador de áudio de acordo com uma das reivindicações de 16 a 18, caracterizado por o calculador do parâmetro por transformada (183) compreender: um ponderador espectral (183b) para ponderar os dados espectrais decodificados por transformada para a estrutura atual utilizando os dados da codificação de previsão; e um calculador de dados de ponderação da codificação de previsão (183c) para calcular os dados da codificação de previsão combinando uma soma ponderada de dados da codificação de previsão derivados de um última estrutura e dados da codificação de previsão derivados da estrutura atual para obter os dados interpolados da codificação de previsão.
20. Decodificador de áudio, de acordo com a reivindicação 19, caracterizado POR O calculador de dados de ponderação da codificação de previsão (183c) ser configurado para converter os dados da codificação de previsão em uma representação espectral tendo um valor de ponderação para cada banda de frequência, e em que o ponderador espectral (183b) é configurado para ponderar todos os valores espectrais em uma banda pelo mesmo valor de ponderação para esta banda.
21. Decodificador de áudio de acordo com qualquer uma das reivindicações de 16 a 19, caracterizado por a janela de síntese ser configurada para ter uma extensão do tempo total menor do que 50 ms e maior do que 25 ms, em que a primeira e a terceira partes sobrepostas têm a mesma extensão e em que a terceira parte sobreposta tem uma extensão menor do que 15 ms.
22. Decodificador de áudio de acordo com qualquer uma das reivindicações de 16 a 21, caracterizado por a janela de síntese ter uma extensão de 30 ms sem partes forradas zero, a primeira e a terceira partes sobrepostas tendo uma extensão de 10 ms e a parte não sobreposta tendo uma extensão de 10 ms.
23. Decodificador de áudio de acordo com qualquer uma das reivindicações de 16 a 22, caracterizado por o decodificador do parâmetro por transformada (183) ser configurado para aplicar, para a transformada de tempo espectral, uma transformada DCT (183d) tendo um número de amostras correspondente a uma extensão da estrutura, e uma operação de desdobra (183e) para gerar um número de valores de tempo sendo duas vezes o número de valores de tempo antes de DCT, e para aplicar (183e) a janela de síntese em um resultado da operação de desdobra, em que a janela de síntese compreende, antes da primeira parte sobreposta e subsequente às partes zero da terceira parte sobreposta, porções tendo uma extensão sendo metade da extensão da primeira e da terceira parte sobreposta.
24. Método para decodificar um sinal de áudio codificado, compreendendo: realizar (180) uma decodificação de dados para uma estrutura codificada de previsão a partir do sinal de áudio codificado, realizar (183) uma decodificação de dados para uma estrutura codificada por transformada a partir do sinal de áudio codificado, caracterizado por a etapa de realização (183) de uma decodificação de dados para uma estrutura codificada por transformada compreender realizar uma transformada de tempo espectral e aplicar uma janela de síntese aos dados transformados para obter dados para a estrutura atual e para uma estrutura futura, a janela de síntese tendo uma primeira parte sobreposta, uma segunda parte não sobreposta adjacente e uma terceira parte sobreposta adjacente (206), a terceira parte sobreposta estando associada às amostras de áudio para a estrutura futura e a parte não sobreposta (208) estando associada com os dados da estrutura atual; e sobreposição e adição (184) de amostras da síntese em janela associadas com a terceira parte sobreposta de uma janela de síntese para a estrutura atual e amostras da síntese em janela associadas com a primeira parte sobreposta de uma janela de síntese para a estrutura futura para obter uma primeira parte de amostras de áudio para a estrutura futura, em que um resto das amostras de áudio para a estrutura futura são amostras da síntese em janela associadas com a segunda parte não sobreposta da janela de síntese para a estrutura futura obtidas sem adição de sobreposição, quando a estrutura atual e a estrutura futura compreenderem os dados codificados por transformada.
BR112013020699-3A 2011-02-14 2012-02-14 Aparelho e método para codificar e decodificar um sinal de áudio utilizando uma parte antecipada alinhada BR112013020699B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161442632P 2011-02-14 2011-02-14
US61/442,632 2011-02-14
PCT/EP2012/052450 WO2012110473A1 (en) 2011-02-14 2012-02-14 Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion

Publications (2)

Publication Number Publication Date
BR112013020699A2 BR112013020699A2 (pt) 2016-10-25
BR112013020699B1 true BR112013020699B1 (pt) 2021-08-17

Family

ID=71943595

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112013020699-3A BR112013020699B1 (pt) 2011-02-14 2012-02-14 Aparelho e método para codificar e decodificar um sinal de áudio utilizando uma parte antecipada alinhada

Country Status (19)

Country Link
US (1) US9047859B2 (pt)
EP (3) EP3503098B1 (pt)
JP (1) JP6110314B2 (pt)
KR (2) KR101853352B1 (pt)
CN (2) CN105304090B (pt)
AR (3) AR085221A1 (pt)
AU (1) AU2012217153B2 (pt)
BR (1) BR112013020699B1 (pt)
CA (1) CA2827272C (pt)
ES (1) ES2725305T3 (pt)
MX (1) MX2013009306A (pt)
MY (1) MY160265A (pt)
PL (1) PL2676265T3 (pt)
PT (1) PT2676265T (pt)
SG (1) SG192721A1 (pt)
TR (1) TR201908598T4 (pt)
TW (2) TWI563498B (pt)
WO (1) WO2012110473A1 (pt)
ZA (1) ZA201306839B (pt)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9972325B2 (en) 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
JP5793636B2 (ja) 2012-09-11 2015-10-14 テレフオンアクチーボラゲット エル エム エリクソン(パブル) コンフォート・ノイズの生成
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
EP3000110B1 (en) * 2014-07-28 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
FR3024581A1 (fr) 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
KR102192678B1 (ko) 2015-10-16 2020-12-17 삼성전자주식회사 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치
CN107710323B (zh) 2016-01-22 2022-07-19 弗劳恩霍夫应用研究促进协会 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法
US10249307B2 (en) * 2016-06-27 2019-04-02 Qualcomm Incorporated Audio decoding using intermediate sampling rate
US11621011B2 (en) * 2018-10-29 2023-04-04 Dolby International Ab Methods and apparatus for rate quality scalable coding with generative models
US11955138B2 (en) * 2019-03-15 2024-04-09 Advanced Micro Devices, Inc. Detecting voice regions in a non-stationary noisy environment
EP3719799A1 (en) * 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation

Family Cites Families (126)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0588932B1 (en) 1991-06-11 2001-11-14 QUALCOMM Incorporated Variable rate vocoder
US5408580A (en) 1992-09-21 1995-04-18 Aware, Inc. Audio compression system employing multi-rate signal analysis
BE1007617A3 (nl) 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
CN1090409C (zh) 1994-10-06 2002-09-04 皇家菲利浦电子有限公司 采用不同编码原理的传送系统
US5537510A (en) 1994-12-30 1996-07-16 Daewoo Electronics Co., Ltd. Adaptive digital audio encoding apparatus and a bit allocation method thereof
SE506379C3 (sv) 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US5848391A (en) 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
JP3259759B2 (ja) 1996-07-22 2002-02-25 日本電気株式会社 音声信号伝送方法及び音声符号復号化システム
JPH10124092A (ja) 1996-10-23 1998-05-15 Sony Corp 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
US5960389A (en) 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
JPH10214100A (ja) 1997-01-31 1998-08-11 Sony Corp 音声合成方法
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
JPH10276095A (ja) * 1997-03-28 1998-10-13 Toshiba Corp 符号化器及び復号化器
JP3223966B2 (ja) 1997-07-25 2001-10-29 日本電気株式会社 音声符号化/復号化装置
US6070137A (en) 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
DE69926821T2 (de) * 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
GB9811019D0 (en) 1998-05-21 1998-07-22 Univ Surrey Speech coders
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6317117B1 (en) 1998-09-23 2001-11-13 Eugene Goff User interface for the control of an audio spectrum filter processor
US7124079B1 (en) 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
FI114833B (fi) * 1999-01-08 2004-12-31 Nokia Corp Menetelmä, puhekooderi ja matkaviestin puheenkoodauskehysten muodostamiseksi
CN1145928C (zh) 1999-06-07 2004-04-14 艾利森公司 用参数噪声模型统计量产生舒适噪声的方法及装置
JP4464484B2 (ja) 1999-06-15 2010-05-19 パナソニック株式会社 雑音信号符号化装置および音声信号符号化装置
US6236960B1 (en) 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
EP1259957B1 (en) 2000-02-29 2006-09-27 QUALCOMM Incorporated Closed-loop multimode mixed-domain speech coder
US6757654B1 (en) 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
JP2002118517A (ja) 2000-07-31 2002-04-19 Sony Corp 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
US6847929B2 (en) 2000-10-12 2005-01-25 Texas Instruments Incorporated Algebraic codebook system and method
CA2327041A1 (en) 2000-11-22 2002-05-22 Voiceage Corporation A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals
US20050130321A1 (en) 2001-04-23 2005-06-16 Nicholson Jeremy K. Methods for analysis of spectral data and their applications
US20020184009A1 (en) 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
US20030120484A1 (en) 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
US6879955B2 (en) 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
US6941263B2 (en) 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
KR100438175B1 (ko) 2001-10-23 2004-07-01 엘지전자 주식회사 코드북 검색방법
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
ES2259158T3 (es) 2002-09-19 2006-09-16 Matsushita Electric Industrial Co., Ltd. Metodo y aparato decodificador audio.
US7343283B2 (en) * 2002-10-23 2008-03-11 Motorola, Inc. Method and apparatus for coding a noise-suppressed audio signal
US7363218B2 (en) 2002-10-25 2008-04-22 Dilithium Networks Pty. Ltd. Method and apparatus for fast CELP parameter mapping
KR100465316B1 (ko) 2002-11-18 2005-01-13 한국전자통신연구원 음성 부호화기 및 이를 이용한 음성 부호화 방법
JP4191503B2 (ja) * 2003-02-13 2008-12-03 日本電信電話株式会社 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
US7318035B2 (en) 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US20050091044A1 (en) 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
RU2374703C2 (ru) 2003-10-30 2009-11-27 Конинклейке Филипс Электроникс Н.В. Кодирование или декодирование аудиосигнала
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
WO2005096274A1 (fr) 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Dispositif et procede de codage/decodage audio ameliores
GB0408856D0 (en) 2004-04-21 2004-05-26 Nokia Corp Signal encoding
DE602004025517D1 (de) 2004-05-17 2010-03-25 Nokia Corp Audiocodierung mit verschiedenen codierungsrahmenlängen
US7649988B2 (en) 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
US8160274B2 (en) 2006-02-07 2012-04-17 Bongiovi Acoustics Llc. System and method for digital signal processing
TWI253057B (en) 2004-12-27 2006-04-11 Quanta Comp Inc Search system and method thereof for searching code-vector of speech signal in speech encoder
US7519535B2 (en) 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
CA2596341C (en) 2005-01-31 2013-12-03 Sonorit Aps Method for concatenating frames in communication system
US20070147518A1 (en) 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
BRPI0607646B1 (pt) 2005-04-01 2021-05-25 Qualcomm Incorporated Método e equipamento para encodificação por divisão de banda de sinais de fala
WO2006126843A2 (en) 2005-05-26 2006-11-30 Lg Electronics Inc. Method and apparatus for decoding audio signal
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
WO2006136901A2 (en) 2005-06-18 2006-12-28 Nokia Corporation System and method for adaptive transmission of comfort noise parameters during discontinuous speech transmission
KR100851970B1 (ko) 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US7610197B2 (en) 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7536299B2 (en) 2005-12-19 2009-05-19 Dolby Laboratories Licensing Corporation Correlating and decorrelating transforms for multiple description coding systems
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
CN101371296B (zh) 2006-01-18 2012-08-29 Lg电子株式会社 用于编码和解码信号的设备和方法
TWI333643B (en) 2006-01-18 2010-11-21 Lg Electronics Inc Apparatus and method for encoding and decoding signal
US8032369B2 (en) 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
FR2897733A1 (fr) 2006-02-20 2007-08-24 France Telecom Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant
US20070253577A1 (en) 2006-05-01 2007-11-01 Himax Technologies Limited Equalizer bank with interference reduction
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
JP4810335B2 (ja) 2006-07-06 2011-11-09 株式会社東芝 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置
US7933770B2 (en) 2006-07-14 2011-04-26 Siemens Audiologische Technik Gmbh Method and device for coding audio data based on vector quantisation
CN102096937B (zh) 2006-07-24 2014-07-09 索尼株式会社 毛发运动合成器系统和用于毛发/皮毛流水线的优化技术
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
DE102006049154B4 (de) 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
ATE547898T1 (de) 2006-12-12 2012-03-15 Fraunhofer Ges Forschung Kodierer, dekodierer und verfahren zur kodierung und dekodierung von datensegmenten zur darstellung eines zeitdomänen-datenstroms
FR2911227A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard
KR101379263B1 (ko) 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
FR2911426A1 (fr) 2007-01-15 2008-07-18 France Telecom Modification d'un signal de parole
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
JP2008261904A (ja) 2007-04-10 2008-10-30 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置、符号化方法および復号化方法
US8630863B2 (en) * 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal
CN101388210B (zh) 2007-09-15 2012-03-07 华为技术有限公司 编解码方法及编解码器
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
KR101513028B1 (ko) * 2007-07-02 2015-04-17 엘지전자 주식회사 방송 수신기 및 방송신호 처리방법
US8185381B2 (en) 2007-07-19 2012-05-22 Qualcomm Incorporated Unified filter bank for performing signal conversions
CN101110214B (zh) 2007-08-10 2011-08-17 北京理工大学 一种基于多描述格型矢量量化技术的语音编码方法
MX2010001763A (es) 2007-08-27 2010-03-10 Ericsson Telefon Ab L M Analisis/sintesis espectral de baja complejidad utilizando la resolucion temporal seleccionable.
JP5264913B2 (ja) 2007-09-11 2013-08-14 ヴォイスエイジ・コーポレーション 話声およびオーディオの符号化における、代数符号帳の高速検索のための方法および装置
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
CN101425292B (zh) 2007-11-02 2013-01-02 华为技术有限公司 一种音频信号的解码方法及装置
DE102007055830A1 (de) 2007-12-17 2009-06-18 Zf Friedrichshafen Ag Verfahren und Vorrichtung zum Betrieb eines Hybridantriebes eines Fahrzeuges
CN101483043A (zh) 2008-01-07 2009-07-15 中兴通讯股份有限公司 基于分类和排列组合的码本索引编码方法
CN101488344B (zh) 2008-01-16 2011-09-21 华为技术有限公司 一种量化噪声泄漏控制方法及装置
US8000487B2 (en) 2008-03-06 2011-08-16 Starkey Laboratories, Inc. Frequency translation by high-frequency spectral envelope warping in hearing assistance devices
EP2107556A1 (en) 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
US8879643B2 (en) 2008-04-15 2014-11-04 Qualcomm Incorporated Data substitution scheme for oversampled data
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
CA2871252C (en) 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
CN103000178B (zh) 2008-07-11 2015-04-08 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
PL2311034T3 (pl) * 2008-07-11 2016-04-29 Fraunhofer Ges Forschung Koder i dekoder audio do kodowania ramek próbkowanego sygnału audio
ES2683077T3 (es) * 2008-07-11 2018-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
MY152252A (en) 2008-07-11 2014-09-15 Fraunhofer Ges Forschung Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
MY159110A (en) * 2008-07-11 2016-12-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
US8352279B2 (en) 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
US8577673B2 (en) 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
CN102177426B (zh) 2008-10-08 2014-11-05 弗兰霍菲尔运输应用研究公司 多分辨率切换音频编码/解码方案
CN101770775B (zh) 2008-12-31 2011-06-22 华为技术有限公司 信号处理方法及装置
KR101316979B1 (ko) * 2009-01-28 2013-10-11 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 코딩
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
EP2214165A3 (en) 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
EP2398017B1 (en) 2009-02-16 2014-04-23 Electronics and Telecommunications Research Institute Encoding/decoding method for audio signals using adaptive sinusoidal coding and apparatus thereof
PL2234103T3 (pl) 2009-03-26 2012-02-29 Fraunhofer Ges Forschung Urządzenie i sposób manipulacji sygnałem audio
CA2763793C (en) 2009-06-23 2017-05-09 Voiceage Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
CN101958119B (zh) 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
BR112012009490B1 (pt) 2009-10-20 2020-12-01 Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados
TWI435317B (zh) * 2009-10-20 2014-04-21 Fraunhofer Ges Forschung 音訊信號編碼器、音訊信號解碼器、用以提供音訊內容之編碼表示型態之方法、用以提供音訊內容之解碼表示型態之方法及使用於低延遲應用之電腦程式
CN102081927B (zh) 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
TW201214415A (en) 2010-05-28 2012-04-01 Fraunhofer Ges Forschung Low-delay unified speech and audio codec
EP4398248A3 (en) * 2010-07-08 2024-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder using forward aliasing cancellation

Also Published As

Publication number Publication date
CN103503062A (zh) 2014-01-08
CN105304090B (zh) 2019-04-09
US9047859B2 (en) 2015-06-02
CA2827272A1 (en) 2012-08-23
TWI479478B (zh) 2015-04-01
KR101853352B1 (ko) 2018-06-14
CA2827272C (en) 2016-09-06
ZA201306839B (en) 2014-05-28
WO2012110473A1 (en) 2012-08-23
EP3503098C0 (en) 2023-08-30
ES2725305T3 (es) 2019-09-23
EP3503098A1 (en) 2019-06-26
EP2676265B1 (en) 2019-04-10
US20130332148A1 (en) 2013-12-12
EP2676265A1 (en) 2013-12-25
CN105304090A (zh) 2016-02-03
CN103503062B (zh) 2016-08-10
TW201506907A (zh) 2015-02-16
TR201908598T4 (tr) 2019-07-22
EP4243017A2 (en) 2023-09-13
AR085221A1 (es) 2013-09-18
MX2013009306A (es) 2013-09-26
TW201301262A (zh) 2013-01-01
AU2012217153A1 (en) 2013-10-10
AU2012217153B2 (en) 2015-07-16
JP2014510305A (ja) 2014-04-24
RU2013141919A (ru) 2015-03-27
KR20130133846A (ko) 2013-12-09
PL2676265T3 (pl) 2019-09-30
KR20160039297A (ko) 2016-04-08
EP4243017A3 (en) 2023-11-08
TWI563498B (en) 2016-12-21
EP3503098B1 (en) 2023-08-30
KR101698905B1 (ko) 2017-01-23
JP6110314B2 (ja) 2017-04-05
AR098557A2 (es) 2016-06-01
BR112013020699A2 (pt) 2016-10-25
AR102602A2 (es) 2017-03-15
PT2676265T (pt) 2019-07-10
SG192721A1 (en) 2013-09-30
MY160265A (en) 2017-02-28

Similar Documents

Publication Publication Date Title
BR112013020699B1 (pt) Aparelho e método para codificar e decodificar um sinal de áudio utilizando uma parte antecipada alinhada
ES2683077T3 (es) Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
CN105793924B (zh) 使用错误隐藏提供经解码的音频信息的音频解码器及方法
US10319384B2 (en) Low bitrate audio encoding/decoding scheme having cascaded switches
US8804970B2 (en) Low bitrate audio encoding/decoding scheme with common preprocessing
ES2693229T3 (es) Codificación de señales de audio genérico a bajas tasas de bits y bajo retardo
BR112012009490B1 (pt) ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados
BRPI0914056B1 (pt) Esquema de codificação/decodificação de áudio comutado multi-resolução
PT2146344T (pt) Esquema de codificação/descodificação de áudio com uma derivação comutável
TR201802808T4 (tr) Bir zaman alan uyarma sinyalini baz alan bir hata gizleme kullanılarak kodu çözülmüş bir ses bilgisi sağlamak için ses dekoderi ve yöntem.
BR112012009447B1 (pt) Codificador de sinal de áudio, decodificador de stnai, de áudio, método para codificar ou decodificar um sinal de áudio usando um cancelamento de aliasing
BR112013020592B1 (pt) Codec de áudio utilizando síntese de ruído durante fases inativas
PT2676270T (pt) Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade
BR112013020589B1 (pt) Codec de áudio para suporte de modos de codificação de domínio de tempo e domínio de frequência
US9984696B2 (en) Transition from a transform coding/decoding to a predictive coding/decoding
ES2963367T3 (es) Aparato y procedimiento de decodificación de una señal de audio usando una parte de anticipación alineada
RU2574849C2 (ru) Устройство и способ для кодирования и декодирования аудиосигнала с использованием выровненной части опережающего просмотра
BRPI0910529B1 (pt) Esquema de codificação/decodificação de áudio de baixa taxa de bits queapresenta comutadores em cascata

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 14/02/2012, OBSERVADAS AS CONDICOES LEGAIS.