BR112013020699B1 - Aparelho e método para codificar e decodificar um sinal de áudio utilizando uma parte antecipada alinhada - Google Patents
Aparelho e método para codificar e decodificar um sinal de áudio utilizando uma parte antecipada alinhada Download PDFInfo
- Publication number
- BR112013020699B1 BR112013020699B1 BR112013020699-3A BR112013020699A BR112013020699B1 BR 112013020699 B1 BR112013020699 B1 BR 112013020699B1 BR 112013020699 A BR112013020699 A BR 112013020699A BR 112013020699 B1 BR112013020699 B1 BR 112013020699B1
- Authority
- BR
- Brazil
- Prior art keywords
- window
- data
- transform
- encoding
- predictive
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000005236 sound signal Effects 0.000 title claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 157
- 230000015572 biosynthetic process Effects 0.000 claims description 68
- 238000003786 synthesis reaction Methods 0.000 claims description 68
- 230000003595 spectral effect Effects 0.000 claims description 53
- 230000003466 anti-cipated effect Effects 0.000 claims description 29
- 230000007704 transition Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000000547 structure data Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 238000013139 quantization Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 238000005259 measurement Methods 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000005284 excitation Effects 0.000 description 6
- 239000010410 layer Substances 0.000 description 6
- 238000013459 approach Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 239000012792 core layer Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013102 re-test Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/13—Residual excited linear prediction [RELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
- G10L19/107—Sparse pulse excitation, e.g. by using algebraic codebook
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Processing (AREA)
Abstract
aparelho e método para codificar e decodificar um sinal de áudio utilizando uma parte antecipada alinhada um aparelho para codificar um sinal de áudio tendo um fluxo de amostras de áudio 100 compreende: um janelador [windower] 102 para aplicar uma janela de análise da codificação de previsão 200 ao fluxo de amostras de áudio para obter dados em janela para uma análise de previsão e para aplicar uma janela de análise de codificação por transformada 204 ao fluxo de amostras de áudio para obter dados em janela para uma análise de transformada, caracterizado pela janela de análise de codificação por transformada estar associada às amostras de áudio dentro de uma estrutura atual de amostras de áudio e às amostras de áudio de uma parte predefinida de uma estrutura futura de amostras de áudio sendo uma parte antecipada de codificação por transformada 206, em que a janela de análise da codificação de previsão está associada, pelo menos, à parte das amostras de áudio da estrutura atual e às amostras de áudio de uma parte predefinida da estrutura futura sendo uma parte antecipada de codificação por previsão 208, em que a parte antecipada de codificação por transformada 206 e a parte antecipada de codificação por previsão 208 são idênticas entre si ou são diferentes entre si por menos do que 20% da parte antecipada de codificação por previsão 208 ou menos do que 20% da parte antecipada de codificação por transformada 206.
Description
A presente invenção está relacionada à codificação de áudio e, em particular, à codificação de áudio que depende de codificadores de áudio comutados e de decodificadores de áudio correspondentemente controlados, particularmente adequados para aplicações de baixo atraso.
Vários conceitos de codificação de áudio dependentes dos codecs comutados são conhecidos. Um conceito bem conhecido da codificação de áudio é o chamado codec de Banda Larga de Multitaxa Adaptativa Estendida (AMR-WB+ | Extended Adaptive Multi-Rate-Wideband') , conforme descrito em 3GPP TS 26.290 BIO.O.O (2011-03) . O codec de áudio AMR-WB+ contém todos os modos do codec de fala AMR-WB 1 a 9 e AMR-WB VAD e DTX. O AMR-WB+ estende o codec AMR-WB adicionando TCX, extensão da largura de banda e estéreo.
O codec de áudio AMR-WB+ processa as estruturas de entrada iguais a 2048 amostras em uma frequência de amostragem interna Fs. A frequência de amostragem interna é limitada à faixa de 12800 a 38400 Hz. As 2048 estruturas de amostra são divididas em duas bandas de frequência iguais criticamente testadas. Isso resulta em duas superestruturas de 1024 amostras correspondentes às bandas de baixa frequência (LF | Low Frequency)e alta frequência (HF | High Frequency) . Cada superestrutura é dividida em quatro estruturas de 256 amostras. A amostragem na taxa de amostragem interna é obtida utilizando um esquema de conversão de amostragem variável, que testa novamente o sinal de entrada. utilizando duas diferentes abordagens: a LF é codificada e decodificada utilizando o codificador/decodificador "principal" com base na ACELP comutada e na excitação codificada por transformada (TCX | Transform Coded Excitation') . No modo ACELP, o codec padrão AMR-WB é utilizado. O sinal HF é codificado com relativamente poucos bits (16 bits/estrutura) utilizando um método de extensão da largura de banda (BWE | Bandwidth Extension) . Os parâmetros transmitidos do codificador ao decodificador são os bits de seleção do modo, os parâmetros LF e os parâmetros HF. Os parâmetros para cada superestrutura de 1024 amostras são decompostos em quatro pacotes de tamanho idêntico. Quando o sinal de entrada for estéreo, os canais esquerdo e direito são combinados em um sinal mono para codificação ACELP/TCX, em que a codificação estéreo recebe ambos os canais de entrada. No lado do decodificador, as bandas LF e HF são decodificadas separadamente após serem combinadas em um banco de filtro de síntese. Se a saída for restrita ao mono apenas, os parâmetros estéreos são omitidos e o decodificador opera em um modo mono. O codec AMR-WB+ aplica a análise LP tanto para o modo ACELP quanto para o modo TCX ao codificar o sinal LF. Os coeficientes LP são interpolados linearmente a cada subestrutura de 64 amostras. A janela de análise LP é um meio cosseno de extensão de 384 amostras. Para codificar o sinal mono central, uma codificação ACELP ou TCX é utilizada para cada estrutura. O modo de codificação é selecionado com base em um método de análise por síntese de circuito fechado. Apenas as estruturas de 256 amostras são consideradas para estruturas ACELP, em que estruturas de 256, 512 ou 1024 amostras são possíveis no modo TCX. A janela utilizada para a análise LPC em AMR-WB+ é ilustrada na Figura 5b. Uma janela de análise LPC simétrica com antecipação de 20 ms é utilizada. A antecipação indica que, conforme ilustrado na Figura 5b, a janela de análise LPC para a estrutura atual ilustrada em 500 não apenas se estende dentro da estrutura atual indicada entre 0 e 20 ms na Figura 5b ilustrada por 502, mas se estende na estrutura futura entre 20 e 40 ms. Isso significa que, ao utilizar esta janela de análise LPC, um atraso adicional de ms, ou seja, toda a estrutura futura, é necessário. Assim, a parte antecipada indicada em 504 na Figura 5b contribui para o atraso sistemático associado com o codificador AMR-WB+. Em outras palavras, uma estrutura futura deve estar completamente disponível de modo que os coeficientes de análise LPC para a estrutura atual 502 possam ser calculados.
A Figura 5a ilustra outro codificador, o chamado codificador AMR-WB e, particularmente, a janela de análise LPC utilizada para calcular os coeficientes de análise para a estrutura atual. Mais uma vez, a estrutura atual se estende entre 0 e 20 ms e a estrutura futura se estende entre 20 e 40 ms. Em contraste à Figura 5b, a janela de análise LPC de AMR-WB indicada em 506 tem uma parte antecipada 508 de 5 ms apenas, ou seja, a distância de tempo entre 20 ms e 25 ms. Assim, o atraso introduzido pela análise LPC é reduzido substancialmente com relação à Figura 5a. Por outro lado, foi observado que uma parte antecipada maior para determinar os coeficientes LPC, ou seja, uma parte antecipada maior para a janela de análise LPC, resulta em melhores coeficientes LPC e, assim, uma energia menor no sinal residual e, assim, uma taxa de bit menor, já que a previsão de LPC se encaixa melhor ao sinal original.
Enquanto as Figuras 5a e 5b se referem aos codificadores tendo apenas uma única janela de análise para determinar os coeficientes LPC para um quadro, a Figura 5c ilustra a situação para o codificador de fala G.718. A especificação G718 (06-2008) está relacionada aos sistemas de transmissão e sistemas da mídia digital e redes e, particularmente, descreve o equipamento terminal digital e, particularmente, uma codificação de voz e sinais de áudio para tal equipamento. Particularmente, este padrão está relacionado à banda estreita robusta e codificação da taxa de bit variável embutida na banda larga de fala e áudio de 8-32 kbit/s conforme definido na recomendação ITU- T G718. O sinal de entrada é processado utilizando 20 ms quadros. O atraso do codec depende da taxa da amostragem de entrada e saída. Para uma entrada de banda larga e uma saída de banda larga, todo o atraso algorítmico desta codificação é 42.875 ms. Consiste em um quadro de 20-ms, atraso de 1,875 ms dos filtros de reamostragem de entrada e saída, 10 ms para a antecipação do codificador, um ms de atraso de pós-filtração e 10 ms no decodificador para permitir a operação de adição por sobreposição da codificação por transformada de camada mais alta. Para uma entrada de banda estreita e uma saída de banda estreita, camadas mais altas não são usadas, mas o atraso de 10 ms do decodificador é utilizado para melhorar o desempenho da codificação na presença de retificações do quadro e para sinais de música. Se a saída está limitada a camada 2, o atraso do codec pode ser reduzido por 10 ms. A descrição do codificador é como segue. As duas camadas inferiores são aplicadas em um sinal pré-enfatizado amostrado em 12,8 kHz, e as três camadas superiores operam no domínio do sinal de entrada amostrado em 16 kHz. A camada central é baseada na tecnologia da previsão linear excitada por código (CELP | CodeExcited Linear Prediction) , onde o sinal de fala é modelado por um sinal de excitação que passou através de um filtro de sintese de previsão linear (LP | Linear Prediction)que representa o envelope espectral. O filtro LP é quantizado no dominio de frequência espectral de emitância (ISF | Immittance Spectral Frequency) utilizando uma abordagem previsível comutada e a quantização do vetor multiestágio. A análise de nivel com circuito aberto é realizada por um algoritmo de rastreamento por nivel para garantir um contorno de nivel leve. Dois contornos de evolução de nivel concomitantes são comparados e a pista que produz o contorno mais leve é selecionada para tornar a estimativa de nivel mais robusta. O pré-processamento do nivel do quadro compreende uma filtração passa alto, uma conversão de amostragem em 12800 amostras por segundo, uma pré-ênfase, uma análise espectral, uma detecção das entradas de banda estreita, uma detecção da atividade de ruido, uma estimativa de ruido, redução de ruido, análise de previsão linear, uma LP na conversão ISF, e uma interpolação, um cálculo de um sinal de fala ponderado, uma análise do nivel com circuito aberto, uma atualização do ruido de fundo, uma classificação do sinal para uma seleção do modo de codificação e ocultação da retificação do quadro. A camada 1 que codifica utilizando o tipo de codificação selecionada compreende um modo de codificação sem voz, um modo de codificação com voz, um modo de codificação de transição, um modo de codificação genérico e uma transmissão descontinua e geração de ruido de conforto (DTX/CNG | Discontinuous Transmission And Comfort Noise Generation) .
Uma análise de previsão linear (LP) ou em longo prazo utilizando a abordagem de autocorreção determina os coeficientes do filtro de sintese do modelo CELP. Em CELP, entretanto, a previsão em longo prazo é geralmente, o "codebook [livro de registro] adaptativo" e, assim, é diferente da previsão linear. A previsão linear pode, entretanto, estar mais relacionada a uma previsão em curto prazo. A autocorrelação da fala em janela é convertida em coeficientes LP utilizando o algoritmo Levinson- Durbin. Então, os coeficientes LPC são transformados nos pares espectrais de imitância (ISP) e consequentemente nas frequências espectrais de imitância (ISF) para finalidades de quantização e interpolação. Os coeficientes interpolados quantizados e não quantizados são convertidos de volta ao dominio LP para construir os filtros de ponderação e sintese para cada subestrutura. No caso para codificação de uma estrutura de sinal ativo, dois conjuntos de coeficientes LP são estimados em cada estrutura utilizando as duas janelas de análises LPC indicadas em 510 e 512 na Figura 5c. A janela 512 é chamada de "janela LPC de estrutura média", e a janela 510 é chamada de "janela LPC de estrutura final". A parte antecipada 514 de 10 ms é utilizada para o cálculo de autocorrelação da estrutura final. A estrutura é ilustrada em Figura 5c. A estrutura é dividida em quatro subestruturas, cada subestrutura tendo uma extensão de 5 ms correspondente a 64 amostras em uma taxa da amostragem de 12,8 kHz. As janelas para a análise da estrutura final e para a análise da estrutura média são centralizadas na quarta subestrutura e a segunda subestrutura, respectivamente conforme ilustrado na Figura 5c. Uma janela janelamento. Os coeficientes são definidos em G.718, Seção 6.4.1. 0 cálculo de autocorrelação é descrito na Seção 6.4.2. O algoritmo Levinson-Durbin é descrito em Seção 6.4.3, a conversão de LP em ISP é descrita na Seção 6.4.4, e a conversão ISP em LP é descrita na Seção 6.4.5.
Os parâmetros de codificação de fala como atraso e ganho do codebookadaptativo, indice e ganho do codebook algébrico são pesquisados reduzindo o erro entre o sinal de entrada e o sinal sintetizado no dominio perceptualmente ponderado. Ponderar perceptualmente é realizar a filtração do sinal através de um filtro de ponderação perceptual derivado dos coeficientes do filtro LP. O sinal perceptualmente ponderado também é utilizado em uma análise de nivel de circuito aberto.
O codificador G.718 é um codificador de fala pura tendo o modo de codificação de fala única. Entretanto, o codificador G.718 não é um codificador comutado e, entretanto, este codificador é desvantajoso, pois fornece apenas um modo de codificação de fala única dentro da camada central. Assim, os problemas de qualidade ocorrerão quando este codificador é aplicado em outros sinais do que nos sinais de fala, ou seja, nos sinais de áudio gerais, nos quais o modelo atrás da codificação CELP não é apropriado.
Um codec comutado adicional é o chamado codec USAC, ou seja, a fala unificada e codec de áudio conforme definido em ISO/IEC CD 23003-3 com data de 24 de setembro de 2010. A janela de análise LPC utilizada para este codec comutado é indicada na Figura 5d em 516. Novamente, uma estrutura atual que se estende entre 0 e 20 ms é assumida e, entretanto, parece que a parte antecipada 618 deste codec é 20 ms, ou seja, é significativamente mais alta do que a parte antecipada de G.718. Assim, embora o codificador USAC forneça uma boa qualidade de áudio devido a sua natureza comutada, o atraso é considerável devido à parte antecipada LPC da janela de análise 518 na Figura 5d. A estrutura geral de USAC é como segue. Primeiro, há um pré/pós-processamento comum que consiste em uma unidade funcional de MPEG surround (MPEGS) para gerenciar o processamento estéreo ou multicanal e uma unidade SBR (eSBR) melhorada que gerencia a representação paramétrica da frequência de áudio mais alta no sinal de entrada. Então, há duas ramificações, uma que consiste em um caminho da ferramenta de codificação de áudio avançada (AAC | Advanced Audio Coding)modificada e a outra consistindo em um caminho com base na codificação por previsão linear (dominio LP ou LPC | Linear Prediction Coding), que por sua vez caracteriza tanto uma representação de dominio de frequência ou uma representação de dominio de tempo do LPC residual. Todos os espectros transmitidos para ambos, AAC e LPC, são representados no dominio MDCT seguindo a quantização e codificação aritmética. A representação de dominio de tempo usa um esquema de codificação de excitação ACELP. A ferramenta ACELP fornece uma forma de representar eficientemente um sinal de excitação de dominio de tempo combinando um previsor em longo prazo (chave adaptativa) com uma sequência do tipo pulso (chave de inovação). A excitação reconstruída é enviada através de um filtro de síntese LP para formar um sinal de domínio de tempo. A entrada na ferramenta ACELP compreende os índices do codebook adaptativo e de inovação, valores de ganho dos códigos adaptativos e de inovação, outros dados de controle e coeficientes do filtro LPC inversamente quantizados e interpolados. A saida da ferramenta ACELP é o sinal de áudio reconstruído de dominio de tempo.
A ferramenta de decodif icação TCX com base em MDCT é utilizada para girar a representação residual LP ponderada de urn dominio MDCT de volta em um sinal de dominio de tempo e emite o sinal de dominio de tempo ponderado incluindo a filtragem de sintese LP ponderada. A IMDCT pode ser configurada para suportar 256, 512 ou 1024 coeficientes espectrais. A entrada à ferramenta TCX compreende os espectros MDCT (inversamente quantizados), e coeficientes do filtro LPC inversamente quantizados e interpolados. A saida da ferramenta TCX é o sinal de áudio reconstruído de dominio de tempo.
A Figura 6 ilustra uma situação em USAC, onde as janelas de análise LPC 516 para a estrutura atual e 520 para a última estrutura são desenhadas, e onde, além disso, uma janela TCX 522 seja ilustrada. A janela TCX 522 é centralizada no centro da estrutura atual que se estende entre 0 e 20 ms e se estende 10 ms à última estrutura e 10 ms à futura estrutura se estendendo entre 20 e 40 ms. Assim, a janela de análise LPC 516 requer uma parte antecipada LPC entre 20 e 40 ms, ou seja, 20 ms, enquanto a janela TCX de análise adicionalmente tem uma parte antecipada que se estende entre 20 e 30 ms na futura estrutura. Isso significa que o atraso introduzido pela janela de análise USAC 516 é 20 ms, enquanto o atraso introduzido ao codificador pela janela TCX é 10 ms. Assim. Torna-se claro que as partes antecipadas de ambos os tipos de janelas não são alinhados entre si. Entretanto, embora a janela TCX 522 apenas introduza um atraso de 10 ms, todo o atraso do codificador é todavia 20 ms devido à janela de análise LPC 516.
Entretanto, embora haja uma parte antecipada muito pequena para a janela TCX, isso não reduz todo o atraso algorítmico do codificador, visto que o atraso total é determinado pela contribuição mais alta, ou seja, é igual a 20 ms devido à janela de análise LPC 516 que se estende 20 ms à futura estrutura, ou seja, não apenas cobrindo a estrutura atual, mas adicionalmente cobrindo a futura estrutura.
É um objetivo da presente invenção fornecer um conceito melhorado de codificação para codificação ou decodificação de áudio que, por um lado, forneça uma áudio com boa qualidade e que, por outro lado, resulte em um atraso reduzido.
Este objetivo é obtido por um aparelho para codificar um sinal de áudio, de acordo com a reivindicação 1, um método para codificar um sinal de áudio, de acordo com a reivindicação 15, um decodificador de áudio, de acordo com a reivindicação 16, um método de decodificação de áudio, de acordo com a reivindicação 24 ou um programa de computador, de acordo com a reivindicação 25.
De acordo com a presente invenção, um esquema de codec de áudio comutado é aplicado tendo uma ramificação da codificação por transformada e uma ramificação da codificação de previsão. De forma importante, os dois tipos de janelas, ou seja, a janela da análise da codificação por previsão por um lado e a janela de análise de codificação por transformada por outro lado são alinhadas com relação a sua parte antecipada de modo que a parte antecipada de codificação por transformada e a parte antecipada de codificação por previsão sejam idênticas ou sejam diferentes entre si por menos do que 20% da parte antecipada de codificação por previsão ou menor do que 20% da parte antecipada de codificação por transformada. Deve ser observado que a janela da análise de previsão é utilizada não apenas na ramificação da codificação de previsão, mas é de fato utilizada em ambas as ramificações. A análise LPC também é utilizada para formar o ruido no dominio por transformada. Entretanto, em outras palavras, as partes antecipadas são idênticas ou quase próximas entre si. Isso garante que o ótimo compromisso seja obtido e que nenhuma qualidade do áudio ou características de atraso sejam definidas de forma subótima. Assim, para a codificação por previsão na janela de análise foi observado que a análise LPC é a melhor quanto mais alta for a antecipação, mas, por outro lado, o atraso aumenta com uma parte antecipada mais alta. Por outro lado, o mesmo é verdadeiro para a janela TCX. Quanto mais alta a parte antecipada da janela TCX for, a taxa de bit TCX pode ser mais reduzida, visto que as janelas TCX não resultem em taxas de bit inferiores no geral. Entretanto, de acordo com a presente invenção, as partes antecipadas são idênticas ou muito próximas entre si e, particularmente, menores do que 20% diferentes entre si. Entretanto, a parte antecipada, que não e desejada devido ao atraso é, por outro lado, otimamente utilizada por ambas, as ramificações de codificação/decodificação.
Em vista disso, a presente invenção fornece um conceito melhorado de codificação com, por um lado, um baixo atraso quando a parte antecipada para ambas as janelas de análise for definida baixa e fornece, por outro lado, um conceito de codificação/decodificação com boas características devido ao fato de que o atraso que tem que ser introduzido por razões de qualidade do áudio ou por razões da taxa de bit é otimamente utilizado tanto pelas ramificações de codificação e não apenas por uma única ramificação de codificação.
Um aparelho para codificar um sinal de áudio tendo um fluxo de amostras de áudio compreende um janelador [wíndower] para aplicar uma janela da análise da codificação por previsão em um fluxo de amostras de áudio para obter dados em janela para uma análise de previsão e para aplicar uma janela de análise de codificação por transformada ao fluxo de amostras de áudio para obter dados em janela para uma análise de transformada. A janela de análise de codificação por transformada está associada com as amostras de áudio de uma estrutura atual de amostras de áudio de uma parte antecipada predefinida de uma futura estrutura de amostras de áudio sendo uma parte antecipada de codificação por transformada.
Além disso, a janela da análise da codificação por previsão está associada com pelo menos uma parte das amostras de áudio da estrutura atual e com amostras de áudio de uma parte predefinida da futura estrutura sendo uma parte antecipada de codificação por previsão.
A parte antecipada de codificação por transformada e a parte antecipada de codificação por previsão são idênticas entre si ou são diferentes entre si por menos do que 20 % da parte antecipada de codificação por previsão ou menor do que 20 % da parte antecipada de codificação por transformada e são, entretanto, bem próximas entre si. O aparelho adicionalmente compreende um processador de codificação para gerar dados codificados de previsão para a estrutura atual utilizando os dados em janela para a análise de previsão ou para gerar dados codificados por transformada para a estrutura atual utilizando os dados da janela para a análise de transformada.
Um decodificador de áudio para decodificar um sinal de áudio decodificado compreende um decodificador do parâmetro de previsão para realizar uma decodificação de dados para uma estrutura codificada de previsão do sinal de áudio decodificado e, para a segunda ramificação, um decodificador do parâmetro por transformada para realizar uma decodificação de dados para uma estrutura codificada por transformada do sinal de áudio decodificado.
O decodificador do parâmetro por transformada é configurado para realizar uma transformada de tempo espectral que é preferivelmente uma transformada afetada por sobreposição como uma MDCT ou MDST ou qualquer outra transformada, e para aplicar uma janela de sintese aos dados transformados para obter um dado para a estrutura atual e a futura estrutura. A janela de sintese aplicada pelo decodif icador de áudio é de modo que tenha uma primeira parte sobreposta, uma segunda parte não sobreposta adjacente e uma terceira parte sobreposta adjacente, em que a terceira parte sobreposta está associada com as amostras de áudio para a futura estrutura e a parte não sobreposta está associada com os dados da estrutura atual. Adicionalmente, para ter uma boa qualidade de áudio no lado do decodificador, um somador por sobreposição é aplicado para sobreposição e adição das amostras da síntese em janela associadas com a terceira parte sobreposta de uma janela de síntese para a estrutura atual e amostras da síntese em janela associadas com a primeira parte sobreposta de uma janela de síntese para a futura estrutura obter uma primeira parte das amostras de áudio para a futura estrutura, em que um resto das amostras de áudio para a futura estrutura são amostras da síntese em janela associadas com a segunda parte não sobreposta da janela de síntese para a futura estrutura obtida sem adição por sobreposição, quando a estrutura atual e a futura estrutura compreenderem os dados codificados por transformada.
As aplicações preferidas da presente invenção têm a característica que a mesma antecipação para a ramificação da codificação por transformada como a ramificação TCX e a ramificação da codificação por previsão como a ramificação ACELP são idênticas entre si de modo que ambos os modos de codificação têm a antecipação máxima disponível nas restrições de atraso. Além disso, é preferido que a sobreposição da janela TCX seja restrita à parte antecipada de modo que uma comutação do modo de codificação por transformada ao modo de codificação por previsão de uma estrutura à próxima estrutura seja facilmente possível sem quaisquer questões de direcionamento de sobreposição.
Outra razão para restringir a sobreposição à antecipação é para não introduzir um atraso no lado do decodificador. Se um tiver uma janela TCX com 10ms de antecipação, e, por exemplo, 20ms de sobreposição, introduziria lOms de mais atraso no decodificador. Quando um tem uma janela TCX com lOms de antecipação e lOms de sobreposição, um não tem qualquer atraso adicional no lado do decodif icador. A comutação mais fácil é uma boa consequência disso.
Entretanto, é preferido que a segunda parte não sobreposta da janela de análise e certamente a janela de síntese se estenda até que a extremidade da estrutura atual e a terceira parte sobreposta apenas comecem com relação à futura estrutura. Além disso, a parte não zero da janela TCX ou da janela de sintese/análise da codificação por transformada é alinhada com o começo da estrutura de modo que, novamente, uma comutação mais fácil e com baixa eficiência sobre um modo ao outro modo esteja disponivel.
Além disso, é preferido que toda a estrutura consistindo de uma pluralidade de subestruturas, como quatro subestruturas, possa ser completamente codificada no modo de codificação por transformada (como modo TCX) ou completamente codificada no modo de codificação por previsão (como o modo ACELP).
Além disso, é preferido não utilizar apenas uma única janela de análise LPC, mas duas janelas de análise LPC diferentes, onde uma janela de análise LPC é alinhada com o centro da quarta subestrutura e é uma janela de análise da estrutura final enquanto a outra janela de análise é alinhada com o centro da segunda subestrutura e é uma janela de análise da estrutura média. Se o codificador for comutado na codificação por transformada, então é preferido transmitir apenas um único dado do coeficiente LPC definido apenas derivado da análise LPC com base na janela de análise da estrutura final LPC. Além disso, no lado do codificador, é preferido não utilizar este dado LPC diretamente para sintese da codificação por transformada, e particularmente uma ponderação espectral de coeficientes TCX. Ainda, é preferido interpolar os dados TCX obtidos da janela de análise da estrutura final LPC da estrutura atual com os dados obtidos pela janela de análise da estrutura final LPC a última estrutura, ou seja, a estrutura imediatamente anterior no tempo da estrutura atual. Transmitir apenas um único conjunto de coeficientes LPC para toda uma estrutura no modo TCX, outra redução da taxa de bit pode ser obtida comparada à transmissão de dois conjuntos de dados do coeficiente LPC para análise da estrutura média e análise da estrutura final. Quando, entretanto, o codificador é comutado ao modo ACELP, então ambos os conjuntos de coeficientes LPC são transmitidos do codificador ao decodificador.
Além disso, é preferido que a janela LPC da estrutura média de análise termine imediatamente na última borda da estrutura da estrutura atual e adicionalmente se estenda à última estrutura. Isso não introduz qualquer atraso, visto que a última estrutura já está disponível e pode ser utilizada sem qualquer atraso.
Por outro lado, é preferido que a janela de análise da estrutura final comece em algum lugar dentro da estrutura atual e não no começo da estrutura atual. Isso, entretanto, não é problemático, para a formação da ponderação TCX, uma média dos dados da estrutura LPC final definida para a última estrutura e os dados da estrutura LPC final definido para a estrutura atual são usados de modo que, no final, todos os dados estejam em um sentido utilizado para calcular os coeficientes LPC. Assim, o começo da janela de análise da estrutura final está preferivelmente dentro da parte antecipada da janela de análise da estrutura final da última estrutura.
No lado do codificador, uma sobrecarga significativamente reduzida para comutar de um modo a outro modo é obtida. A razão é que a parte não sobreposta da janela de sintese, que é preferivelmente simétrica dentro de si, não está associada às amostras da estrutura atual, mas está associada com as amostras de uma futura estrutura, e, assim, apenas se estende dentro da parte antecipada, ou seja, na futura estrutura apenas. Assim, a janela de sintese é de modo que apenas a primeira parte sobreposta preferivelmente começando no inicio imediato da estrutura atual esteja dentro da estrutura atual e a segunda parte não sobreposta se estende do final da primeira parte sobreposta à extremidade da estrutura atual e, assim, a segunda parte sobreposta coincida com a parte antecipada. Entretanto, quando há uma transição de TCX para ACELP, os dados obtidos devido à parte sobreposta da janela de sintese são simplesmente descartados e são substituídos por dados da codificação por previsão que são disponíveis desde o inicio da futura estrutura até a ramificação ACELP.
Por outro lado, quando há uma comutação de ACELP para TCX, uma janela de transição especifica é aplicada começando imediatamente no inicio da estrutura atual, ou seja, a estrutura imediatamente após a comutação, com uma parte não sobreposta de modo que quaisquer dados não têm que ser reconstruídos para encontrar os "parceiros" de sobreposição. Ainda, a parte não sobreposta da janela de sintese fornece dados corretos sem qualquer sobreposição e sem quaisquer procedimentos de adição por sobreposição, necessários no decodificador. Apenas para as partes sobrepostas, ou seja, a terceira parte da janela para a estrutura atual e a primeira parte da janela para a próxima estrutura, um procedimento de adição por sobreposição é útil e realizado para ter, como em um MDCT simples, um fade in / fade outcontinuo de um bloco a outro para finalmente obter uma boa qualidade de áudio sem ter que aumentar a taxa de bit devido á natureza criticamente testada de MDCT também conhecido na técnica sob o termo "cancelamento de aliasing[serrilhado] do dominio de tempo" (TDAC I Time-Domain Aliasing Cancellation) .
Além disso, o decodificador é útil pelo fato de, para um modo de codificação ACELP, os dados LPC derivados da janela de estrutura média e da janela de estrutura final no codificador serem transmitidos enquanto que, para o modo de codificação TCX, apenas um único conjunto de dados LPC derivado da janela da estrutura final é usado. Para especificamente ponderar os dados decodificados TCX, entretanto, os dados LPC transmitidos não são usados como são, mas os dados são calculados com os dados correspondentes da janela da estrutura final de análise LPC obtida para a última estrutura.
Aplicações preferidas da presente invenção são subsequentemente descritas com relação aos desenhos anexos, em que:
A Figura la ilustra um diagrama em blocos de um codificador de áudio comutado;
A Figura 1b ilustra um diagrama em blocos de um decodificador comutado correspondente;
A Figura 1c ilustra mais detalhes sobre o decodificador do parâmetro por transformada ilustrado na Figura lb;
A Figura ld ilustra mais detalhes sobre o modo de codificação por transformada do decodificador da Figura la; o janelador aplicado no codificador para análise LPC por um lado e análise de codificação por transformada por outro lado, e é uma representação da janela de síntese utilizada no decodificador de codificação por transformada da Figura 1b;
A Figura 2b ilustra uma sequência da janela das janelas de análise LPC alinhadas e das janelas TCX para um espaço de tempo de mais do que duas estruturas;
A Figura 2c ilustra uma situação para uma transição de TCX em ACELP e uma janela de transição para uma transição de ACELP em TCX;
A Figura 3a ilustra mais detalhes do codificador da Figura la;
A Figura 3b ilustra um procedimento de análise por síntese para decidir sobre um modo de codificação para uma estrutura;
A Figura 3c ilustra outra aplicação para decidir entre os modos para cada estrutura;
A Figura 4a ilustra o cálculo e uso dos dados LPC derivados utilizando as duas janelas de análise LPC diferentes para uma estrutura atual;
A Figura 4b ilustra o uso de dados LPC obtidos por janela utilizando uma janela de análise LPC para a ramificação TCX do codificador;
A Figura 5a ilustra as janelas de análise LPC para AMR-WB;
A Figura 5d ilustra janelas simétricas para AMR- WB+ para a finalidade da análise LPC; um codificador G.718;
A Figura 5d ilustra janelas de análise LPC conforme utilizado em USAC; e
A Figura 6 ilustra uma janela TCX para uma estrutura atual com relação a uma janela de análise LPC para a estrutura atual.
A Figura la ilustra um aparelho para codificar um sinal de áudio tendo um fluxo de amostras de áudio. As amostras de áudio ou dados de áudio entram no codificador em 100. Os dados de áudio são introduzidos em um janelador 102 para aplicar uma janela da análise da codificação por previsão ao fluxo de amostras de áudio para obter dados em janela para uma análise de previsão. O janelador 102 é adicionalmente configurado para aplicar uma janela de análise de codificação por transformada ao fluxo de amostras de áudio para obter os dados em janela para uma análise de transformada. Dependendo da implementação, a janela LPC não é aplicada diretamente no sinal original, mas em um sinal "pré- enfatizado" (como em AMR-WB, AMR-WB+, G718 e USAC). Por outro lado a janela TCX é aplicada no sinal original diretamente (como em USAC). Entretanto, ambas as janelas também podem ser aplicadas aos mesmos sinais ou a janela TCX também pode ser aplicada a um sinal de áudio processado derivado do sinal original como pré- enfatizando ou qualquer outra ponderação utilizada para melhorar a qualidade ou eficiência de compressão.
A janela de análise de codificação por transformada está associada com as amostras de áudio em uma estrutura atual de amostras de áudio e com amostras de áudio de uma parte predefinida da futura estrutura de amostras de áudio sendo uma parte antecipada de codificação por transformada.
Além disso, a janela da análise da codificação por previsão está associada com pelo menos uma parte das amostras de áudio da estrutura atual e com amostras de áudio de uma parte predefinida da futura estrutura sendo uma parte antecipada de codificação por previsão.
Conforme descrito no bloco 102, a parte antecipada de codificação por transformada e a parte antecipada de codificação por previsão são alinhadas entre si, o que significa que estas partes são idênticas ou muito próximas entre si, como diferentes entre si por menos do que 20% da parte antecipada de codificação por previsão ou menos do que 20% da parte antecipada de codificação por transformada. Preferivelmente, as partes antecipadas são idênticas ou diferentes entre si ainda por menos do que 5% da parte antecipada de codificação por previsão ou menos do que 5% da parte antecipada de codificação por transformada.
O codificador adicionalmente compreende um processador de codificação 104 para gerar dados codificados de previsão para a estrutura atual utilizando os dados em janela para a análise de previsão ou para gerar dados codificados por transformada para a estrutura atual utilizando os dados em janela para a análise de transformada.
Além disso, o codificador preferivelmente compreende uma interface de entrada 106 para receber, para uma estrutura atual e, de fato, para cada estrutura, os dados LPC 108a e os dados codificados por transformada (como os dados TCX) ou os dados codificados de previsão (dados ACELP) sobre a linha 108b. O processador de codificação 104 fornece estes dois tipos de dados e recebe, como entrada, dados em janela para uma análise de previsão indicada em 110a e dados em janela para uma análise de transformada indicada em 110b. Além disso, o aparelho para codificar compreende um seletor do modo de codificação ou controlador 112 que recebe, como uma entrada, os dados de áudio 100 e que fornece, como uma saida, dados de controle ao processador de codificação 104 através das linhas de controle 114a, ou dados de controle à interface de entrada 106 através da linha de controle 114b.
A Figura 3a fornece detalhes adicionais sobre o processador de codificação 104 e o janelador 102. O janelador 102 preferivelmente compreende, como um primeiro módulo, o LPC ou janelador de análise da codificação por previsão 102a e, como um segundo componente ou módulo, o janelador da codificação por transformada (como janelador TCX) 102b. Conforme indicado pela seta 300, a janela de análise LPC e a janela TCX são alinhadas entre si de modo que as partes antecipadas de ambas as janelas sejam idênticas entre si, o que significa que ambas as partes antecipadas se estendem até o mesmo periodo em uma futura estrutura. A ramificação superior na Figura 3a do janelador LPC 102a adiante à direita é uma ramificação da codificação por previsão compreendendo um analisador LPC e interpolador 302, um filtro de ponderação perceptual ou um bloco de ponderação 304 e um calculador do parâmetro da codificação por previsão 306 como um calculador de parâmetro ACELP. Os dados de áudio 100 são fornecidos ao janelador LPC 102a e o bloco de ponderação perceptual 304. Adicionalmente, os dados de áudio são fornecidos ao janelador TCX, e a ramificação inferior da saida do janelador TCX à direita constitui uma ramificação da codificação por transformada. Esta ramificação da codificação por transformada compreende um bloco de conversão de frequência/tempo 310, um bloco espectral de ponderação 312 e um bloco de codificação de processamento/quantização 314. 0 bloco de conversão de frequência de tempo 310 é preferivelmente implementado como uma transformada induzida pela sobreposição como um MDCT, um MDST ou qualquer outra transformação que tem um número de valores de entrada sendo maior do que o número de valores de saida. A conversão de tempo/frequência tem, como uma entrada, os dados em janela emitidos por TCX ou, geralmente declarados, pelo janelador da codificação por transformada 102b.
Embora a Figura 3a indique, para a ramificação da codificação de previsão, um processamento de LPC com um algoritmo de codificação ACELP, outros codificadores de previsão como CELP ou quaisquer outros codificadores de dominio de tempo conhecidos na técnica podem ser aplicados também, embora o algoritmo ACELP seja preferido devido a sua qualidade por um lado e sua eficiência por outro lado.
Além disso, para a ramificação da codificação por transformada, um processamento de MDCT particularmente no bloco de conversão de frequência/tempo 310 é preferido, embora qualquer outra transformação de dominio espectral possa ser realizada também.
Além disso, a Figura 3a ilustra uma ponderação espectral 312 para transformar os valores espectrais emitidos pelo bloco 310 em um dominio LPC. Esta ponderação espectral 312 é realizada com os dados de ponderação derivados da dos dados LPC de análise gerados pelo bloco 302 na ramificação da codificação de previsão. De modo alternativo, entretanto, a transformação do dominio de tempo ao dominio LPC também poderia ser realizada no dominio de tempo. Neste caso, um filtro de análise LPC seria colocado antes do janelador TCX 102b para calcular os dados de dominio de tempo residual de previsão. Entretanto, foi observado que a transformação do dominio de tempo ao dominio LPC é preferivelmente realizada no dominio espectral pela ponderação espectral dos dados codificados por transformada utilizando dados LPC de análise transformados dos dados LPC em fatores de ponderação correspondentes no dominio espectral como o dominio MDCT.
A Figura 3b ilustra a visão geral para ilustrar uma análise por sintese ou determinação de "circuito fechado" do modo de codificação para cada estrutura. Para esta finalidade, codificador ilustrado na Figura 3c compreende um codificador completo de codificação por transformada e decodificador de codificação por transformada como é ilustrado em 104b e, adicionalmente, compreende um completo codificador de codificação por previsão e decodificador correspondente indicado em 104a na Figura 3c. Ambos os blocos 104a, 104b recebem, como uma entrada, os dados de áudio e realizam uma completa operação de codificação/decodificação. Então, os resultados da operação de codificação/decodificação para ambas as ramificações de codificação 104a, 104b são comparados com o sinal original e uma medição de qualidade é determinada para observar qual modo de codificação resultou em uma melhor qualidade. A medição de qualidade pode ser um valor SNR segmentado ou um SNR segmentado médio como, por exemplo, descrito na seção 5.2.3 de 3GPP TS 26.290. Entretanto, qualquer outra medição da qualidade pode ser aplicada também tipicamente dependendo de uma comparação do resultado da codificação/decodificação com o sinal original.
Com base na medição da qualidade que é fornecida de cada ramificação 104a, 104b ao decisor 112, o decisor decide se a estrutura atual examinada deve ser codificada utilizando ACELP ou TCX. Subsequente à decisão, há várias formas de realizar a seleção do modo de codificação. Uma forma é que o decisor 112 controla os blocos correspondentes do codificador/decodificador 104a, 104b, para simplesmente emitir o resultado da codificação a estrutura atual à interface de entrada 106, de modo que seja certo que, para uma determinada estrutura, apenas um único resultado de codificação é transmitido no sinal codificado emitido em 107.
De modo alternativo, ambos os dispositivos 104a, 104b poderiam encaminhar seu resultado de codificação já à interface de entrada 106, e ambos os resultados são armazenados na interface de entrada 106 até que o decisor controle a interface de entrada através da linha 105 à saída do resultado do bloco 104b ou do bloco 104a.
A Figura 3b ilustra mais detalhes sobre o conceito da Figura 3c. Particularmente, o bloco 104a compreende um codificador ACELP completo e um decodificador ACELP completo e um comparador 112a. O comparador 112a fornece uma medição da qualidade ao comparador 112c. O mesmo é verdadeiro para o comparador 112b, que tem uma medição da qualidade devido à comparação de um sinal TCX codificado e novamente decodificado como sinal de áudio original. Subsequentemente, ambos os comparadores 112a, 112b fornecem suas medições da qualidade ao comparador final 112c. Dependendo de qual medição da qualidade for melhor, o comparador decide sobre a decisão de CELP ou TCX. A decisão pode ser refinada introduzindo fatores adicionais à decisão.
De modo alternativo, um modo de circuito aberto para determinar o modo de codificação para uma estrutura atual com base na análise do sinal dos dados de áudio para a estrutura atual pode ser realizado. Neste caso, o decisor 112 da Figura 3c realizaria uma análise do sinal dos dados de áudio para a estrutura atual e então controlaria um codificador ACELP ou um codificador TCX para realmente codificar a estrutura de áudio atual. Nesta situação, o codificador não precisaria de um decodificador completo, mas uma implementação das etapas de codificação sozinhas dentro do codificador seriam suficientes. As classificações do sinal de circuito aberto e decisões do sinal são, por exemplo, também descritas em AMR-WB+ (3GPP TS 26.290).
A Figura 2a ilustra uma implementação preferidas do janelador 102 e, particularmente, as janelas fornecidas pelo janelador.
Preferivelmente, a janela da análise da codificação por previsão para a estrutura atual é centralizada no centro de uma quarta subestrutura e esta janela é indicada em 200. Além disso, é preferido utilizar uma janela de análise LPC adicional, ou seja, a janela LPC de estrutura média de análise indicada em 202 e centralizada no centro da segunda subestrutura da estrutura atual. Além disso, a janela de codificação por transformada como, por exemplo, a janela MDCT 204 é colocada com relação às duas janelas de análise LPC 200, 202 conforme ilustrado. Particularmente, a parte antecipada 206 da janela de análise tem a mesma extensão no tempo que a parte antecipada 208 da janela da análise da codificação de previsão. Ambas as partes antecipadas se estendem 10 ms à futura estrutura. Além disso, é preferido que a janela de análise de codificação por transformada não tenha apenas a parte sobreposta 206, mas tenha uma parte não sobreposta entre 10 e 20 ms 208 e a primeira parte sobreposta 210. As partes sobrepostas 206 e 210 são de modo que um somador por sobreposição em um decodificador realize um processamento de adição por sobreposição na parte sobreposta, mas um processamento de adição por sobreposição não é necessário para a parte não sobreposta.
Preferivelmente, a primeira parte sobreposta 210 começa no inicio da estrutura, ou seja, a zero ms e se estende até o centro da estrutura, ou seja, 10 ms. Além disso, a parte não sobreposta se estende do final da primeira parte da estrutura 210 até o final da estrutura a 20 ms de modo que a segunda parte sobreposta 206 coincida completamente com a parte antecipada. Isso tem vantagens devido à comutação de um modo a outro. De um ponto de vista do desempenho de TCX, seria melhor utilizar uma janela de seno com sobreposição completa (20 ms de sobreposição, como em USAC) . Entretanto, seria necessária uma tecnologia como o cancelamento de sobreposição de avanço para as transições entre TCX e ACELP. O cancelamento da sobreposição de avanço é utilizado em USAC para cancelar a sobreposição introduzida pelas próximas estruturas TCX perdidas (substituídas por ACELP). O cancelamento de sobreposição de avanço requer uma quantia significativa de bits e assim não é adequada para uma taxa de bit constante e, particularmente, o codec com baixa taxa de bit como uma aplicação preferida do codec descrito. Entretanto, de acordo com as aplicações da invenção, ao invés de utilizar FAC, a sobreposição da janela TCX é reduzida e a janela é comutada em direção ao futuro de modo que a parte sobreposta 206 completa seja colocada na futura estrutura. Além disso, a janela ilustrada na Figura 2a para codificação por transformada tem, todavia, uma sobreposição máxima para receber a reconstrução máxima na estrutura atual, quando a próxima estrutura for ACELP e sem utilizar o cancelamento de sobreposição de avanço. Esta sobreposição máxima é preferivelmente definida a 10 ms que é a antecipação disponivel no tempo, ou seja, 10 ms conforme se torna claro da Figura 2a.
Embora a Figura 2a foi descrita com relação a um codificador, onde a janela 204 para codificação por transformada é uma janela de análise, é observado que a janela 204 também representa uma janela de sintese para decodificação por transformada. Em uma aplicação preferida, a janela de análise é idêntica à janela de sintese, e ambas as janelas são simétricas. Isso significa que ambas as janelas são simétricas em uma linha central (horizontal). Em outras aplicações, entretanto, as janelas não simétricas podem ser usadas, onde a janela de análise é diferente na forma do que a janela de síntese.
A Figura 2b ilustra uma sequência de janelas sobre uma parte de uma última estrutura, uma estrutura atual subsequentemente, uma futura estrutura que é subsequentemente seguinte a estrutura atual e a próxima futura estrutura que é subsequentemente seguinte à futura estrutura.
Torna-se claro que a parte de adição por sobreposição processada por um processador de adição por sobreposição ilustrado em 250 se estende do inicio de cada estrutura até o meio de cada estrutura, ou seja, entre 20 e 30 ms para calcular os dados da futura estrutura entre 40 e 50 ms para calcular os dados TCX para a próxima futura estrutura ou entre zero e 10 ms para calcular dados para a estrutura atual. Entretanto, para calcular os dados na segunda metade de cada estrutura, nenhuma adição por sobreposição, e, entretanto, nenhuma técnica de cancelamento de sobreposição de avanço é necessária. Isso é devido ao fato de que a janela de sintese tem uma parte de não sobreposição na segunda metade de cada estrutura.
Tipicamente, a extensão de uma janela MDCT é duas vezes a extensão de uma estrutura. Este é o caso na presente invenção. Quando, novamente, a Figura 2a é considerada, entretanto, se torna claro que a janela de análise/sintese apenas se estende de zero a 30 ms, mas a extensão completa da janela é 40 ms. Esta extensão completa é significativa para fornecer dados de entrada para a operação de dobra ou desdobra correspondente do cálculo MDCT. Para estender a janela em uma extensão total de 14 ms, 5 ms valores zero são adicionados entre -5 e 0 ms e 5 segundos de valores zero de MDCT também são adicionados no final da estrutura entre 30 e 35 ms. Estas partes adicionais tendo zeros, entretanto, não desempenham qualquer parte quando se refere às considerações de atraso, visto que se sabe que o codificador ou decodificador que dura cinco ms da janela e os primeiros cinco ms da janela são zeros, de modo que estes dados já estejam presentes sem qualquer.
A Figura 2c ilustra as duas possiveis transições.
Para uma transição de TCX a ACELP, entretanto, nenhum cuidado especial deve ser considerado visto que, quando se assume com relação à Figura 2a que a futura estrutura é uma estrutura ACELP, então os dados obtidos pela decodificação TCX a última estrutura para a parte antecipada 206 pode simplesmente ser detectada, visto que a estrutura ACELP imediatamente começa no inicio da futura estrutura e, entretanto, nenhum poço dado existe. Os dados ACELP são independentes e, entretanto, um decodificador, quando tem uma comutação de TCX em ACELP usa os dados calculados de TCX para a estrutura atual, descarta os dados obtidos pelo processamento TCX para a futura estrutura e, ainda, usa os dados da futura estrutura da ramificação ACELP.
Quando, entretanto, uma transição de ACELP em TCX é realizada, então uma janela de transição especial conforme ilustrado na Figura 2c é usada. Esta janela começa no inicio da estrutura de zero a 1, tem uma parte não sobreposta 220 e tem uma parte sobreposta no final indicado em 222 que é idêntico à parte sobreposta 206 de uma MDCT janela reta.
Esta janela é, adicionalmente, preenchida com zeros entre -12,5 ms a zero no inicio da janela e entre 30 e 35,5 ms no final, ou seja, subsequente à parte antecipada 222. Isso resulta em uma extensão transformação elevada. A extensão tem 50 ms, mas a extensão da janela de análise/sintese reta tem apenas 40 ms. Isso, entretanto, não reduz a eficiência ou aumenta a taxa de bit, e essa transformação não é mais necessária quando uma comutação de ACELP em TCX ocorrer. A janela de transição utilizada no decodificador correspondente é idêntica à janela ilustrada na Figura 2c.
A seguir, o decodificador é discutido em mais detalhes. A Figura 1b ilustra um decodificador de áudio para decodificar um sinal de áudio decodificado. O decodificador de áudio compreende um decodificador do parâmetro de previsão 180, onde o decodificador do parâmetro de previsão é configurado para realizar uma decodificação de dados para uma estrutura codificada por previsão do sinal de áudio decodificado recebido em 181 e sendo inserido em uma interface 182. O decodificador adicionalmente compreende um decodificador do parâmetro por transformada 183 para realizar uma decodificação de dados para uma estrutura codificada por transformada do sinal de áudio decodificado em linha 181. O decodificador do parâmetro por transformada é configurado para realizar, preferivelmente, uma transformada afetada por sobreposição de tempo espectral e para aplicar uma janela de sintese aos dados transformados para obter dados para a estrutura atual e a futura estrutura. A janela de sintese tem uma primeira parte sobreposta, uma segunda parte não sobreposta adjacente, e uma terceira parte sobreposta adjacente conforme ilustrado na Figura 2a, em que a terceira parte sobreposta é apenas associada com as amostras de áudio para a futura estrutura e a parte não sobreposta é apenas associada com os dados da estrutura atual. Além disso, um somador por sobreposição 184 é fornecido para sobreposição e adição das amostras da janela de sintese associadas com a terceira parte sobreposta de uma janela de síntese para a estrutura atual e uma janela de síntese nas amostras associadas com a primeira parte sobreposta de uma janela de síntese para a futura estrutura para obter uma primeira parte de amostras de áudio para a futura estrutura. O resto das amostras de áudio para a futura estrutura são amostras da síntese em janela associadas com a segunda parte não sobreposta da janela de síntese para a futura estrutura obtida sem adição por sobreposição quando a estrutura atual e a futura estrutura compreendem os dados codificados por transformada. Quando, entretanto, uma comutação ocorrer de uma estrutura à próxima estrutura, um combinador 185 é útil tendo cuidado para uma boa comutação de um modo de codificação a outro modo de codificação para finalmente obter os dados de áudio decodificados na saída do combinador 185.
A Figura 1c ilustra mais detalhes sobre a construção do decodificador do parâmetro por transformada 183.
O decodificador compreende um estágio de processamento do decodificador 183a que é configurado para realizar todo o processamento necessário para decodificar os dados espectrais codificados como decodificação aritmética ou decodificação por Huffman ou geralmente, decodificação por entropia e uma subsequente de-quantização, preenchimento de ruído, etc. para obter os valores espectrais decodificados na saída do bloco 183. Estes valores espectrais são inseridos em um ponderador espectral 183b. O ponderador espectral 183b recebe os dados da ponderação espectral de um calculador de dados da ponderação LPC 183c, que é inserido pelos dados LPC gerados do bloco da análise de previsão no codificador e recebidos, no decodificador, através da interface de entrada 182. Então, uma transformação espectral inversa é realizada compreendendo, como um primeiro estágio, preferivelmente uma transformação inversa DCT-IV 183d e um desdobramento subsequente e processamento da janela de sintese 183e, antes dos dados para a futura estrutura, por exemplo, ser fornecidos ao somador por sobreposição 184. O somador por sobreposição pode realizar a operação de adição por sobreposição quando os dados para a próxima futura estrutura estiver disponíveis. Os blocos 183d e 183e juntos constituem a transformação espectral/tempo ou, na aplicação na Figura 1c, uma transformação inversa MDCT preferida (MDCT-1) .
Particularmente, o bloco 183d recebe dados para uma estrutura de 20 ms, e aumenta o volume de dados na etapa de desdobra do bloco 183e nos dados para 40 ms, ou seja, duas vezes a quantidade dos dados de antes e, subsequentemente, a janela de sintese tendo uma extensão de 40 ms (quando as partes zero no inicio e no final são adicionadas juntas) é aplicada a estes 40 ms de dados. Então, na saida do bloco 183e, os dados para o bloco atual e os dados dentro da parte antecipada para o futuro bloco estão disponíveis.
A Figura ld ilustra o processamento do lado do codificador correspondente. As características discutidas no contexto da Figura ld são implementadas no processador de codificação 104 ou pelos blocos correspondentes na Figura 3a. A conversão de frequência/tempo 310 na Figura 3a é preferivelmente implementada como uma MDCT e compreende um janelamento, estágio de dobra 310a, onde a operação de janelamento no bloco 310a é implementada pelo janelador TCX 103d. Assim, a primeira operação no bloco 310 na Figura 3a é a operação de dobre para retornar 40 ms dos dados de entrada em 20 ms dos dados da estrutura. Então, com os dados dobrados que agora receberam as contribuições de sobreposição, um DCT-IV é realizado como a ilustrado no bloco 310d. O bloco 302 (análise LPC) fornece os dados LPC derivados da análise utilizando a janela LPC da estrutura final em um bloco (LPC em MDCT) 302b, e o bloco 302d gera os fatores de ponderação para realizar a ponderação espectral pelo ponderador espectral 312. Preferivelmente, 16 coeficientes LPC para uma estrutura de 20 ms no modo de codificação TCX são transformados em 16 fatores de dominio MDCT de ponderação, preferivelmente utilizando um oDFT [odd Discrete Fourier Transform | Transformada de Fourier Discreta impar] . Para outros modos, como os modos NB tendo uma taxa da amostragem de 8 kHz, o número de coeficientes LPC pode ser menor que 10. Para outros modos com uma taxa da amostragem mais alta, pode haver mais do que 16 coeficientes LPC. O resultado desta oDFT são 16 valores de ponderação, e cada valor de ponderação está associado com uma banda de dados espectrais obtidos pelo bloco 310b. A ponderação espectral ocorre dividindo todos os valores espectrais MDCT por uma banda pelo mesmo valor de ponderação associado com esta banda para realizar de forma eficiente esta operação de ponderação espectral no bloco 312. Assim, 16 bandas de valores MDCT são divididos pelo fator de ponderação correspondente para emitir os valores espectralmente ponderados que são então processados pelo bloco 314 como conhecido na técnica, ou seja, por exemplo, codificação por quantização e entropia.
Por outro lado, no lado do codificador, a ponderação espectral correspondente ao bloco 312 na Figura ld será uma multiplicação realizada pelo ponderador espectral 183b ilustrado na Figura 1c.
A seguir, a Figura 4a e a Figura 4b são discutidas para descrever como os dados LPC gerados pela janela de análise LPC ou gerados pelas duas janelas de análise LPC ilustradas na Figura 2 são usadas tanto no modo ACELP quanto no modo TCX/MDCT.
Subsequente à aplicação da janela de análise LPC, o cálculo de autocorrelação é realizado com os dados LPC em janela. Então, um algoritmo Levinson Durbin é aplicado na função de autocorrelação. Então, os 16 coeficientes LP para cada análise LP, ou seja, 16 coeficientes para a janela de estrutura média e os 16 coeficientes para a janela da estrutura final são convertidos em valores ISP. Assim, as etapas do cálculo de autocorrelação na conversão ISP são, por exemplo, realizadas no bloco 400 da Figura 4a. Então, o cálculo continua, no lado do codificador por uma quantização dos coeficientes ISP. Então, os coeficientes ISP são novamente não quantizados e convertidos novamente ao dominio do coeficiente LP. Assim, os dados LPC ou, de forma diferente declarada, 16 coeficientes LPC levemente diferentes dos coeficientes LPC derivados no bloco 400 (devido à quantização e requantização) são obtidos podendo então ser diretamente usados para a quarta subestrutura conforme indicado na etapa 401. Para as outras subestruturas, entretanto, é preferido realizar várias interpolações como, por exemplo, as descritas na seção 6.8.3 de Rec. ITU-T G.718 (06/2008). Os dados LPC para a terceira subestrutura são calculados pela interpolação da estrutura final e os dados LPC da estrutura média ilustrados no bloco 402. A interpolação preferida é a que cada dado correspondente é dividido por dois e somados juntos, ou seja, uma média dos dados LPC da estrutura final e da estrutura média LPC. Para calcular os dados LPC para a segunda subestrutura conforme ilustrado no bloco 403, adicionalmente, uma interpolação é realizada. Particularmente, 10% dos valores dos dados LPC da estrutura final da última estrutura, 80% dos dados LPC de estrutura média para a estrutura atual e 10% dos valores dos dados LPC para a estrutura final da estrutura atual são usados para finalmente calcular os dados LPC para a segunda subestrutura.
Finalmente, os dados LPC para a primeira subestrutura são calculados, conforme indicado no bloco 404, formando uma média entre os dados LPC da estrutura final da última estrutura e os dados LPC de estrutura média da estrutura atual.
Para realizar a codificação ACELP, ambos os conjuntos do parâmetro LPC quantizado, ou seja, da análise de estrutura média e a análise da estrutura final são transmitidas em um decodificador.
Com base nos resultados para as subestruturas individuais calculadas pelos blocos 401 a 404, os cálculos ACELP são realizados conforme indicado no bloco 405 para obter os dados ACELP a ser transmitidos ao decodificador.
A seguir, a Figura 4b é descrita. Novamente, no bloco 400, os dados LPC da estrutura média e da estrutura final são calculados. Entretanto, visto que há o modo de codificação TCX, apenas os dados LPC da estrutura final são transmitidos ao decodificador e os dados LPC de estrutura média não são transmitidos ao decodificador. Particularmente, um não transmite os próprios coeficientes LPC ao decodificador, mas um transmite os valores obtidos após a quantização e a transformada ISP. Assim, é preferido que, como os dados LPC, os valores ISP quantizados dos coeficientes dos dados LPC da estrutura final são transmitidos ao decodificador.
No codificador, entretanto, os procedimentos nas etapas 406 a 408 devem, todavia, ser realizados para obter os fatores de ponderação para pesar os dados espectrais MDCT da estrutura atual. Para esta finalidade, os dados LPC da estrutura final da estrutura atual e os dados LPC da estrutura final da última estrutura são interpolados. Entretanto, é preferido não interpolar os próprios coeficientes dos dados LPC como diretamente derivados da análise LPC. Ainda, é preferido interpolar os valores ISP quantizados e novamente dequantizados derivados dos coeficientes LPC correspondentes. Assim, os dados LPC usados no bloco 406 bem como os dados LPC usados para outros cálculos no bloco 401 a 404 são sempre, preferivelmente, dados ISP quantizados e novamente dequantizados derivados dos 16 coeficientes LPC originais por janela de análise LPC.
A interpolação no bloco 406 é preferivelmente um cálculo puro, ou seja, os valores correspondentes são adicionados e divididos por dois. Então, no bloco 407, os dados espectrais MDCT da estrutura atual são ponderados utilizando os dados LPC interpolados e, no bloco 408, o outro processamento de dados espectrais ponderados é realizado para finalmente obter os dados espectrais codificados a ser transmitidos do codificador em um decodificador. Assim, os procedimentos realizados na etapa 407 correspondem ao bloco 312, e o procedimento realizado no bloco 408 na Figura 4d corresponde ao bloco 314 na Figura 4d. As operações correspondentes são realmente realizadas no lado do codificador.
Assim, as mesmas interpolações são necessárias no lado do codificador para calcular os fatores de ponderação espectral por um lado ou para calcular os coeficientes LPC para as subestruturas individuais por interpolação por outro lado. Entretanto, a Figura 4a e a Figura 4b são igualmente aplicáveis ao lado do codificador com relação aos procedimentos nos blocos 401 a 404 ou 406 da Figura 4b.
A presente invenção é particularmente útil para implementações de codec de baixo atraso. Isso significa que estes codecs são desenhados para ter um atraso algorítmico ou sistemático preferivelmente abaixo de 45 ms e, em alguns casos igual ou abaixo de 35 ms. Todavia, a parte antecipada para a análise LPC e análise TCX são necessárias para obter uma boa qualidade do áudio. Entretanto, um bom equilíbrio entre ambas as exigências contraditórias é necessário. Foi observado que o bom equilíbrio entre atraso por um lado e qualidade por outro lado pode ser obtido por um codificador de áudio comutado ou decodif icador tendo uma extensão da estrutura de 20 ms, mas foi observado que os valores para as extensões da estrutura entre 15 e 30 ms também fornecem resultados aceitáveis. Por outro lado, foi observado que uma parte antecipada de 10 ms é aceitável quando se trata de atraso, mas os valores entre 5 ms e 20 ms também são úteis dependendo da aplicação correspondente. Além disso, foi observado que a relação entre a parte antecipada e a extensão da estrutura é útil quando tem o valor de 0,5, mas outros valores entre 0,4 e 0,6 são úteis também. Além disso, embora a invenção foi descrita com ACELP por um lado e MDCT-TCX por outro lado, outros algoritmos operando no dominio de tempo como CELP ou qualquer outra previsão ou algoritmos de forma de onda também são úteis. Com relação a TCX/MDCT, outros algoritmos de codificação do dominio por transformada como uma MDST, ou qualquer outro algoritmo com base em transformada também pode ser aplicado.
O mesmo é verdadeiro para a implementação especifica da análise LPC e cálculo LPC. É preferido depender dos procedimentos descritos antes, mas outros procedimentos para cálculo/interpolação e análise podem ser usados também, desde que estes procedimentos dependam de uma janela de análise LPC.
Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos representam também uma descrição do método correspondente, onde um bloco ou um dispositivo corresponde a uma etapa do método ou de uma característica de uma etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou característica de um aparelho correspondente.
Dependendo dos requisitos de certas implementações, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio digital de armazenamento, por exemplo, um Disquete, um DVD, um CD, uma memória ROM, PROM, EPROM, EEPROM ou uma memória FLASH, possuindo sinais de controle eletronicamente legíveis nela armazenados, que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado.
Algumas aplicações de acordo com a invenção compreendem um suporte de dados não transitório com controle legíveis eletronicamente, os quais são capazes de cooperar com um sistema de computador programável, de tal forma que um dos métodos aqui descritos seja realizado.
De forma geral, as aplicações da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa sendo operativo para a realização de um dos métodos quando o produto de programa de computador operar em um computador. O código de programa pode, por exemplo, ser armazenado em um suporte mecanicamente legível.
Outras aplicações incluem o programa de computador para executar um dos métodos aqui descritos, armazenado em um suporte mecanicamente legível.
Em outras palavras, uma aplicação do método da invenção é, portanto, um programa de computador com um código de programa para realizar um dos métodos aqui descritos, quando o programa de computador for executado em um computador.
Uma aplicação adicional do método da invenção é, portanto, um suporte de dados (ou um meio de armazenamento digital ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para a realização de um dos métodos aqui descritos.
Uma aplicação adicional do método da invenção é, portanto, um fluxo de dados ou de uma sequência de sinais que representam o programa de computador para a realização de um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais podem, por exemplo, ser configurados para serem transferidos através de uma conexão para comunicação de dados, por exemplo, através da Internet.
Uma aplicação adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo lógico programável, configurado para ou adaptado para executar um dos métodos aqui descritos.
Uma aplicação adicional compreende um computador, tendo instalado nele o programa de computador para a execução de um dos métodos aqui descritos.
Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arranjo de portas programáveis em campo) pode ser utilizado para executar uma parte ou todas as funcionalidades dos métodos aqui descritos. Em algumas aplicações, um arranjo de portas programáveis em campo pode cooperar com um microprocessador de modo a executar um dos métodos aqui descritos. De forma geral, os métodos são de preferência realizados por qualquer aparelho de hardware.
As aplicações acima descritas são meramente ilustrativas para os principios da presente invenção. Entende-se que modificações e variações dos arranjos e detalhes aqui descritos serão evidentes para outros especialistas na técnica. É intenção, portanto, ser limitada apenas pelo escopo das reivindicações de patente pendente e não pelos detalhes específicos apresentados a titulo de descrição e explicação das aplicações da presente invenção.
Claims (24)
1. Aparelho para codificar um sinal de áudio tendo um fluxo de amostras de áudio (100), compreendendo: um janelador [WINDOWER] (102) para aplicar uma janela de análise de codificação de previsão (200) ao fluxo de amostras de áudio para obter os dados em janela para uma análise de previsão e para aplicar uma janela de análise de codificação por transformada (204) ao fluxo de amostras de áudio para obter os dados em janela para uma análise de transformada, caracterizado por a janela de análise de codificação por transformada estar associada às amostras de áudio dentro de uma estrutura atual de amostras de áudio e às amostras de áudio de uma parte predefinida de uma estrutura futura de amostras de áudio sendo uma parte antecipada de codificação por transformada (206), em que a janela de análise de codificação de previsão está associada, pelo menos, à parte das amostras de áudio da estrutura atual e às amostras de áudio de uma parte predefinida da estrutura futura sendo uma parte antecipada de codificação por previsão (208), em que a parte antecipada de codificação por transformada (206) e a parte antecipada de codificação por previsão (208) são identicamente entre si ou são diferentes entre si por menos do que 20% da parte antecipada de codificação por previsão (208) ou menos do que 20% da parte antecipada de codificação por transformada (206); e um processador de codificação (104) para gerar dados codificados de previsão para a estrutura atual utilizando os dados em janela para a análise de previsão ou para gerar os dados codificados por transformada para a estrutura atual utilizando os dados em janela para a análise de transformada.
2. Aparelho de acordo com a reivindicação 1, caracterizado por a janela de análise de codificação por transformada (204) compreender uma parte não sobreposta que se estende na parte antecipada de codificação por transformada (206).
3. Aparelho de acordo com a reivindicação 1 ou 2, caracterizado por a janela de análise de codificação por transformada (204) compreender outra parte sobreposta (210) que começa no início da estrutura atual e termina no início da parte não sobreposta (208).
4. Aparelho de acordo com a reivindicação 1, caracterizado por a janelador (102) ser configurado para apenas utilizar uma janela inicial (220, 222) para a transição a partir da codificação de previsão para a codificação por transformada de uma estrutura à próxima estrutura, em que a janela inicial não é utilizada para uma transição da codificação por transformada para a codificação de previsão de uma estrutura à próxima estrutura.
5. Aparelho de acordo com uma das reivindicações anteriores, compreendendo, ainda: uma interface de entrada (106) para emitir um sinal codificado para a estrutura atual; e um seletor do modo de codificação (112) para controlar o processador de codificação (104) para emitir tanto os dados codificados de previsão quanto os dados codificados por transformada para a estrutura atual, caracterizado por o seletor do modo de codificação (112) ser configurado para apenas comutar entre a codificação de previsão ou a codificação por transformada para toda a estrutura, de modo que o sinal codificado para toda a estrutura contenha ou dados codificados de previsão ou dados codificados por transformada.
6. Aparelho de acordo com uma das reivindicações anteriores, caracterizado por o janelador (102) utilizar, além da janela de análise da codificação de previsão, outra janela de análise da codificação de previsão (202) sendo associada às amostras de áudio sendo colocadas no início da estrutura atual, e em que a janela de análise da codificação de previsão (200) não está associada às amostras de áudio sendo colocadas no início da estrutura atual.
7. Aparelho de acordo com uma das reivindicações anteriores, caracterizado por a estrutura compreender uma pluralidade de subestruturas, em que a janela de análise de previsão (200) é centralizada em um centro de uma subestrutura, e em que a janela de análise de codificação por transformada é centralizada em uma borda entre as duas subestruturas.
8. Aparelho de acordo com a reivindicação 7, caracterizado por a janela de análise de previsão (200) estar centralizada no centro da última subestrutura da estrutura, em que outra janela de análise (202) é centralizada em um centro da segunda subestrutura da estrutura atual, e em que a janela de análise de codificação por transformada é centralizada em uma borda entre a terceira e a quarta subestrutura da estrutura atual, em que a estrutura atual é subdividida em quatro subestruturas.
9. Aparelho de acordo com uma das reivindicações anteriores, caracterizado por uma janela adicional de análise da codificação de previsão (202) não ter uma parte antecipada na estrutura futura e estar associada às amostras da estrutura atual.
10. Aparelho de acordo com uma das reivindicações anteriores, caracterizado por a janela de análise de codificação por transformada adicionalmente compreender uma parte zero antes de um início da janela e uma parte zero subsequente a um final de janela, de modo que uma extensão total no tempo da janela de análise de codificação por transformada seja duas vezes a extensão no tempo da estrutura atual.
11. Aparelho de acordo com a reivindicação 10, caracterizado por, para uma transição de um modo de codificação de previsão para um modo de codificação por transformada de uma estrutura à próxima estrutura, uma janela de transição ser utilizada pelo janelador (102), em que a janela de transição compreende uma primeira parte não sobreposta que começa no início da estrutura e uma parte sobreposta que começa no final da parte não sobreposta e que se estende à estrutura futura, em que a parte sobreposta que se estende na estrutura futura tem uma extensão que é idêntica à extensão da parte antecipada de codificação por transformada da janela de análise.
12. Aparelho de acordo com uma das reivindicações anteriores, caracterizado por uma extensão no tempo da janela de análise de codificação por transformada ser maior do que uma extensão no tempo da janela de análise da codificação de previsão (200, 202).
13. Aparelho de acordo com uma das reivindicações anteriores, compreendendo, ainda: uma interface de entrada (106) para emitir um sinal codificado para a estrutura atual; e um seletor do modo de codificação (112) para controlar o processador de codificação (104) para emitir ou os dados codificados de previsão ou os dados codificados por transformada para a estrutura atual, caracterizado por a janela (102) ser configurada para utilizar outra janela da codificação de previsão localizada na estrutura atual antes da janela da codificação de previsão, e em que o seletor do modo de codificação (112) é configurado para controlar o processador de codificação (104) para apenas encaminhar os dados da análise da codificação de previsão derivados da janela da codificação de previsão, quando os dados codificados por transformada forem emitidos para a interface de entrada e não para encaminhar os dados da análise da codificação de previsão derivados de outra janela da codificação de previsão, e em que o seletor do modo de codificação (112) é configurado para controlar o processador de codificação (104) para encaminhar os dados da análise da codificação de previsão derivados da janela da codificação de previsão e para encaminhar os dados da análise da codificação de previsão derivados de outra janela da codificação de previsão, quando os dados codificados de previsão forem emitidos para a interface de entrada.
14. Aparelho de acordo com uma das reivindicações anteriores, caracterizado por o processador de codificação (104) compreender: um analisador da codificação de previsão (302) para derivar os dados da codificação de previsão para a estrutura atual dos dados em janela (100a) para uma análise de previsão; uma ramificação da codificação de previsão, compreendendo: um estágio do filtro (304) para calcular os dados do filtro das amostras de áudio para a estrutura atual utilizando os dados da codificação de previsão; e um calculador do parâmetro do codificador de previsão (306) para calcular os parâmetros da codificação de previsão para a estrutura atual; e uma ramificação da codificação por transformada, compreendendo: um conversor espectral por tempo (310) para converter os dados da janela para o algoritmo da codificação por transformada em uma representação espectral; um ponderador espectral (312) para ponderar os dados espectrais utilizando os dados de ponderação ponderados derivados dos dados da codificação de previsão para obter dados espectrais ponderados; e um processador dos dados espectrais (314) para processar os dados espectrais ponderados para obter os dados codificados por transformada para a estrutura atual.
15. Método para codificar um sinal de áudio tendo um fluxo de amostras de áudio (100), compreendendo: aplicar (102) uma janela de análise da codificação de previsão (200) ao fluxo de amostras de áudio para obter dados em janela para uma análise de previsão e aplicar uma janela de análise de codificação por transformada (204) ao fluxo de amostras de áudio para obter dados em janela para uma análise de transformada, caracterizado por a janela de análise de codificação por transformada estar associada às amostras de áudio dentro de uma estrutura atual de amostras de áudio e com amostras de áudio de uma parte predefinida de uma estrutura futura de amostras de áudio sendo uma parte antecipada de codificação por transformada (206), em que a janela de análise da codificação de previsão está associada com, pelo menos, a parte das amostras de áudio da estrutura atual e com amostras de áudio de uma parte predefinida da estrutura futura sendo uma parte antecipada de codificação por previsão (208), em que a parte antecipada de codificação por transformada (206) e a parte antecipada de codificação por previsão (208) são idênticas entre si ou são diferentes entre si por menos do que 20% da parte antecipada de codificação por previsão (208) ou menos do que 20% da parte antecipada de codificação por transformada (206); e gerar (104) dados codificados de previsão para a estrutura atual utilizando os dados em janela para a análise de previsão ou para gerar dados codificados por transformada para a estrutura atual utilizando os dados em janela para a análise de transformada.
16. Decodificador de áudio para decodificar um sinal de áudio codificado, compreendendo: um decodificador do parâmetro de previsão (180) para realizar uma decodificação de dados para uma estrutura codificada de previsão do sinal de áudio codificado; um decodificador do parâmetro por transformada (183) para realizar uma decodificação de dados para uma estrutura codificada por transformada do sinal de áudio codificado, caracterizado por o decodificador do parâmetro por transformada (183) ser configurado para realizar uma transformada de tempo espectral e para aplicar uma janela de síntese aos dados transformados para obter os dados para a estrutura atual e para uma estrutura futura, a janela de síntese tendo uma primeira parte sobreposta, uma segunda parte sobreposta adjacente e uma terceira parte sobreposta adjacente (206), a terceira parte sobreposta estando associada às amostras de áudio para a estrutura futura e a parte não sobreposta (208) estando associada com os dados da estrutura atual; e um adicionador de sobreposição (184) para sobrepor e adicionar as amostras de síntese em janela associadas com a terceira parte sobreposta de uma janela de síntese para a estrutura atual e amostras da síntese em janela associadas com a primeira parte sobreposta de uma janela de síntese para a estrutura futura para obter uma primeira parte de amostras de áudio para a estrutura futura, em que um resto das amostras de áudio para a estrutura futura são as amostras da síntese em janela associadas com a segunda parte não sobreposta da janela de síntese para a estrutura futura obtidas sem adição de sobreposição, quando a estrutura atual e a estrutura futura compreendem os dados codificados por transformada.
17. Decodificador de áudio de acordo com a reivindicação 16, caracterizado por a estrutura atual do sinal de áudio decodificado compreender dados codificados por transformada e a estrutura futura compreender dados codificados de previsão, em que o decodificador do parâmetro por transformada (183) é configurado para realizar um janelamento de síntese utilizando a janela de síntese para a estrutura atual para obter as amostras de áudio em janela associadas com a parte não sobreposta (208) da janela de síntese, em que as amostras de áudio de síntese em janela associadas à terceira parte sobreposta da janela de síntese para a estrutura atual são descartadas, e em que amostras de áudio para a estrutura futura são fornecidas pelo decodificador do parâmetro de previsão (180) sem dados do decodificador do parâmetro por transformada (183).
18. Decodificador de áudio de acordo com a reivindicação 16, caracterizado por a estrutura atual compreender dados da codificação de previsão e a estrutura futura compreender dados da codificação por transformada, em que o decodificador do parâmetro por transformada (183) é configurado para utilizar uma janela de transição sendo diferente da janela de síntese, em que a janela de transição (220, 222) compreende uma primeira parte não sobreposta (220) no começo da estrutura futura e uma parte sobreposta (222) que começa em um final da estrutura futura e que se estende na estrutura que segue a estrutura futura no tempo, e em que as amostras de áudio para a estrutura futura são geradas sem uma sobreposição e dados de áudio associados com a segunda parte sobreposta (222) da janela para a estrutura futura são calculados pelo adicionador de sobreposição (184) utilizando a primeira parte sobreposta da janela de síntese para a estrutura seguindo a estrutura futura.
19. Decodificador de áudio de acordo com uma das reivindicações de 16 a 18, caracterizado por o calculador do parâmetro por transformada (183) compreender: um ponderador espectral (183b) para ponderar os dados espectrais decodificados por transformada para a estrutura atual utilizando os dados da codificação de previsão; e um calculador de dados de ponderação da codificação de previsão (183c) para calcular os dados da codificação de previsão combinando uma soma ponderada de dados da codificação de previsão derivados de um última estrutura e dados da codificação de previsão derivados da estrutura atual para obter os dados interpolados da codificação de previsão.
20. Decodificador de áudio, de acordo com a reivindicação 19, caracterizado POR O calculador de dados de ponderação da codificação de previsão (183c) ser configurado para converter os dados da codificação de previsão em uma representação espectral tendo um valor de ponderação para cada banda de frequência, e em que o ponderador espectral (183b) é configurado para ponderar todos os valores espectrais em uma banda pelo mesmo valor de ponderação para esta banda.
21. Decodificador de áudio de acordo com qualquer uma das reivindicações de 16 a 19, caracterizado por a janela de síntese ser configurada para ter uma extensão do tempo total menor do que 50 ms e maior do que 25 ms, em que a primeira e a terceira partes sobrepostas têm a mesma extensão e em que a terceira parte sobreposta tem uma extensão menor do que 15 ms.
22. Decodificador de áudio de acordo com qualquer uma das reivindicações de 16 a 21, caracterizado por a janela de síntese ter uma extensão de 30 ms sem partes forradas zero, a primeira e a terceira partes sobrepostas tendo uma extensão de 10 ms e a parte não sobreposta tendo uma extensão de 10 ms.
23. Decodificador de áudio de acordo com qualquer uma das reivindicações de 16 a 22, caracterizado por o decodificador do parâmetro por transformada (183) ser configurado para aplicar, para a transformada de tempo espectral, uma transformada DCT (183d) tendo um número de amostras correspondente a uma extensão da estrutura, e uma operação de desdobra (183e) para gerar um número de valores de tempo sendo duas vezes o número de valores de tempo antes de DCT, e para aplicar (183e) a janela de síntese em um resultado da operação de desdobra, em que a janela de síntese compreende, antes da primeira parte sobreposta e subsequente às partes zero da terceira parte sobreposta, porções tendo uma extensão sendo metade da extensão da primeira e da terceira parte sobreposta.
24. Método para decodificar um sinal de áudio codificado, compreendendo: realizar (180) uma decodificação de dados para uma estrutura codificada de previsão a partir do sinal de áudio codificado, realizar (183) uma decodificação de dados para uma estrutura codificada por transformada a partir do sinal de áudio codificado, caracterizado por a etapa de realização (183) de uma decodificação de dados para uma estrutura codificada por transformada compreender realizar uma transformada de tempo espectral e aplicar uma janela de síntese aos dados transformados para obter dados para a estrutura atual e para uma estrutura futura, a janela de síntese tendo uma primeira parte sobreposta, uma segunda parte não sobreposta adjacente e uma terceira parte sobreposta adjacente (206), a terceira parte sobreposta estando associada às amostras de áudio para a estrutura futura e a parte não sobreposta (208) estando associada com os dados da estrutura atual; e sobreposição e adição (184) de amostras da síntese em janela associadas com a terceira parte sobreposta de uma janela de síntese para a estrutura atual e amostras da síntese em janela associadas com a primeira parte sobreposta de uma janela de síntese para a estrutura futura para obter uma primeira parte de amostras de áudio para a estrutura futura, em que um resto das amostras de áudio para a estrutura futura são amostras da síntese em janela associadas com a segunda parte não sobreposta da janela de síntese para a estrutura futura obtidas sem adição de sobreposição, quando a estrutura atual e a estrutura futura compreenderem os dados codificados por transformada.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161442632P | 2011-02-14 | 2011-02-14 | |
US61/442,632 | 2011-02-14 | ||
PCT/EP2012/052450 WO2012110473A1 (en) | 2011-02-14 | 2012-02-14 | Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion |
Publications (2)
Publication Number | Publication Date |
---|---|
BR112013020699A2 BR112013020699A2 (pt) | 2016-10-25 |
BR112013020699B1 true BR112013020699B1 (pt) | 2021-08-17 |
Family
ID=71943595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR112013020699-3A BR112013020699B1 (pt) | 2011-02-14 | 2012-02-14 | Aparelho e método para codificar e decodificar um sinal de áudio utilizando uma parte antecipada alinhada |
Country Status (19)
Country | Link |
---|---|
US (1) | US9047859B2 (pt) |
EP (3) | EP3503098B1 (pt) |
JP (1) | JP6110314B2 (pt) |
KR (2) | KR101853352B1 (pt) |
CN (2) | CN105304090B (pt) |
AR (3) | AR085221A1 (pt) |
AU (1) | AU2012217153B2 (pt) |
BR (1) | BR112013020699B1 (pt) |
CA (1) | CA2827272C (pt) |
ES (1) | ES2725305T3 (pt) |
MX (1) | MX2013009306A (pt) |
MY (1) | MY160265A (pt) |
PL (1) | PL2676265T3 (pt) |
PT (1) | PT2676265T (pt) |
SG (1) | SG192721A1 (pt) |
TR (1) | TR201908598T4 (pt) |
TW (2) | TWI563498B (pt) |
WO (1) | WO2012110473A1 (pt) |
ZA (1) | ZA201306839B (pt) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9972325B2 (en) | 2012-02-17 | 2018-05-15 | Huawei Technologies Co., Ltd. | System and method for mixed codebook excitation for speech coding |
JP5793636B2 (ja) | 2012-09-11 | 2015-10-14 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | コンフォート・ノイズの生成 |
US9129600B2 (en) * | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
FR3011408A1 (fr) * | 2013-09-30 | 2015-04-03 | Orange | Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard |
EP3000110B1 (en) * | 2014-07-28 | 2016-12-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction |
FR3024582A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
FR3024581A1 (fr) | 2014-07-29 | 2016-02-05 | Orange | Determination d'un budget de codage d'une trame de transition lpd/fd |
KR102413692B1 (ko) * | 2015-07-24 | 2022-06-27 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
KR102192678B1 (ko) | 2015-10-16 | 2020-12-17 | 삼성전자주식회사 | 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치 |
CN107710323B (zh) | 2016-01-22 | 2022-07-19 | 弗劳恩霍夫应用研究促进协会 | 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法 |
US10249307B2 (en) * | 2016-06-27 | 2019-04-02 | Qualcomm Incorporated | Audio decoding using intermediate sampling rate |
US11621011B2 (en) * | 2018-10-29 | 2023-04-04 | Dolby International Ab | Methods and apparatus for rate quality scalable coding with generative models |
US11955138B2 (en) * | 2019-03-15 | 2024-04-09 | Advanced Micro Devices, Inc. | Detecting voice regions in a non-stationary noisy environment |
EP3719799A1 (en) * | 2019-04-04 | 2020-10-07 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation |
Family Cites Families (126)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0588932B1 (en) | 1991-06-11 | 2001-11-14 | QUALCOMM Incorporated | Variable rate vocoder |
US5408580A (en) | 1992-09-21 | 1995-04-18 | Aware, Inc. | Audio compression system employing multi-rate signal analysis |
BE1007617A3 (nl) | 1993-10-11 | 1995-08-22 | Philips Electronics Nv | Transmissiesysteem met gebruik van verschillende codeerprincipes. |
US5784532A (en) | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
CN1090409C (zh) | 1994-10-06 | 2002-09-04 | 皇家菲利浦电子有限公司 | 采用不同编码原理的传送系统 |
US5537510A (en) | 1994-12-30 | 1996-07-16 | Daewoo Electronics Co., Ltd. | Adaptive digital audio encoding apparatus and a bit allocation method thereof |
SE506379C3 (sv) | 1995-03-22 | 1998-01-19 | Ericsson Telefon Ab L M | Lpc-talkodare med kombinerad excitation |
US5848391A (en) | 1996-07-11 | 1998-12-08 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method subband of coding and decoding audio signals using variable length windows |
JP3259759B2 (ja) | 1996-07-22 | 2002-02-25 | 日本電気株式会社 | 音声信号伝送方法及び音声符号復号化システム |
JPH10124092A (ja) | 1996-10-23 | 1998-05-15 | Sony Corp | 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置 |
US5960389A (en) | 1996-11-15 | 1999-09-28 | Nokia Mobile Phones Limited | Methods for generating comfort noise during discontinuous transmission |
JPH10214100A (ja) | 1997-01-31 | 1998-08-11 | Sony Corp | 音声合成方法 |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
JPH10276095A (ja) * | 1997-03-28 | 1998-10-13 | Toshiba Corp | 符号化器及び復号化器 |
JP3223966B2 (ja) | 1997-07-25 | 2001-10-29 | 日本電気株式会社 | 音声符号化/復号化装置 |
US6070137A (en) | 1998-01-07 | 2000-05-30 | Ericsson Inc. | Integrated frequency-domain voice coding using an adaptive spectral enhancement filter |
DE69926821T2 (de) * | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen |
GB9811019D0 (en) | 1998-05-21 | 1998-07-22 | Univ Surrey | Speech coders |
US7272556B1 (en) | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6317117B1 (en) | 1998-09-23 | 2001-11-13 | Eugene Goff | User interface for the control of an audio spectrum filter processor |
US7124079B1 (en) | 1998-11-23 | 2006-10-17 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech coding with comfort noise variability feature for increased fidelity |
FI114833B (fi) * | 1999-01-08 | 2004-12-31 | Nokia Corp | Menetelmä, puhekooderi ja matkaviestin puheenkoodauskehysten muodostamiseksi |
CN1145928C (zh) | 1999-06-07 | 2004-04-14 | 艾利森公司 | 用参数噪声模型统计量产生舒适噪声的方法及装置 |
JP4464484B2 (ja) | 1999-06-15 | 2010-05-19 | パナソニック株式会社 | 雑音信号符号化装置および音声信号符号化装置 |
US6236960B1 (en) | 1999-08-06 | 2001-05-22 | Motorola, Inc. | Factorial packing method and apparatus for information coding |
EP1259957B1 (en) | 2000-02-29 | 2006-09-27 | QUALCOMM Incorporated | Closed-loop multimode mixed-domain speech coder |
US6757654B1 (en) | 2000-05-11 | 2004-06-29 | Telefonaktiebolaget Lm Ericsson | Forward error correction in speech coding |
JP2002118517A (ja) | 2000-07-31 | 2002-04-19 | Sony Corp | 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法 |
US6847929B2 (en) | 2000-10-12 | 2005-01-25 | Texas Instruments Incorporated | Algebraic codebook system and method |
CA2327041A1 (en) | 2000-11-22 | 2002-05-22 | Voiceage Corporation | A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals |
US20050130321A1 (en) | 2001-04-23 | 2005-06-16 | Nicholson Jeremy K. | Methods for analysis of spectral data and their applications |
US20020184009A1 (en) | 2001-05-31 | 2002-12-05 | Heikkinen Ari P. | Method and apparatus for improved voicing determination in speech signals containing high levels of jitter |
US20030120484A1 (en) | 2001-06-12 | 2003-06-26 | David Wong | Method and system for generating colored comfort noise in the absence of silence insertion description packets |
US6879955B2 (en) | 2001-06-29 | 2005-04-12 | Microsoft Corporation | Signal modification based on continuous time warping for low bit rate CELP coding |
US6941263B2 (en) | 2001-06-29 | 2005-09-06 | Microsoft Corporation | Frequency domain postfiltering for quality enhancement of coded speech |
KR100438175B1 (ko) | 2001-10-23 | 2004-07-01 | 엘지전자 주식회사 | 코드북 검색방법 |
CA2388439A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
ES2259158T3 (es) | 2002-09-19 | 2006-09-16 | Matsushita Electric Industrial Co., Ltd. | Metodo y aparato decodificador audio. |
US7343283B2 (en) * | 2002-10-23 | 2008-03-11 | Motorola, Inc. | Method and apparatus for coding a noise-suppressed audio signal |
US7363218B2 (en) | 2002-10-25 | 2008-04-22 | Dilithium Networks Pty. Ltd. | Method and apparatus for fast CELP parameter mapping |
KR100465316B1 (ko) | 2002-11-18 | 2005-01-13 | 한국전자통신연구원 | 음성 부호화기 및 이를 이용한 음성 부호화 방법 |
JP4191503B2 (ja) * | 2003-02-13 | 2008-12-03 | 日本電信電話株式会社 | 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム |
US7318035B2 (en) | 2003-05-08 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Audio coding systems and methods using spectral component coupling and spectral component regeneration |
US20050091044A1 (en) | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
RU2374703C2 (ru) | 2003-10-30 | 2009-11-27 | Конинклейке Филипс Электроникс Н.В. | Кодирование или декодирование аудиосигнала |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
FI118835B (fi) | 2004-02-23 | 2008-03-31 | Nokia Corp | Koodausmallin valinta |
WO2005096274A1 (fr) | 2004-04-01 | 2005-10-13 | Beijing Media Works Co., Ltd | Dispositif et procede de codage/decodage audio ameliores |
GB0408856D0 (en) | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
DE602004025517D1 (de) | 2004-05-17 | 2010-03-25 | Nokia Corp | Audiocodierung mit verschiedenen codierungsrahmenlängen |
US7649988B2 (en) | 2004-06-15 | 2010-01-19 | Acoustic Technologies, Inc. | Comfort noise generator using modified Doblinger noise estimate |
US8160274B2 (en) | 2006-02-07 | 2012-04-17 | Bongiovi Acoustics Llc. | System and method for digital signal processing |
TWI253057B (en) | 2004-12-27 | 2006-04-11 | Quanta Comp Inc | Search system and method thereof for searching code-vector of speech signal in speech encoder |
US7519535B2 (en) | 2005-01-31 | 2009-04-14 | Qualcomm Incorporated | Frame erasure concealment in voice communications |
CA2596341C (en) | 2005-01-31 | 2013-12-03 | Sonorit Aps | Method for concatenating frames in communication system |
US20070147518A1 (en) | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
US8155965B2 (en) | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
BRPI0607646B1 (pt) | 2005-04-01 | 2021-05-25 | Qualcomm Incorporated | Método e equipamento para encodificação por divisão de banda de sinais de fala |
WO2006126843A2 (en) | 2005-05-26 | 2006-11-30 | Lg Electronics Inc. | Method and apparatus for decoding audio signal |
US7707034B2 (en) | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
WO2006136901A2 (en) | 2005-06-18 | 2006-12-28 | Nokia Corporation | System and method for adaptive transmission of comfort noise parameters during discontinuous speech transmission |
KR100851970B1 (ko) | 2005-07-15 | 2008-08-12 | 삼성전자주식회사 | 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
US7610197B2 (en) | 2005-08-31 | 2009-10-27 | Motorola, Inc. | Method and apparatus for comfort noise generation in speech communication systems |
US7720677B2 (en) | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
US7536299B2 (en) | 2005-12-19 | 2009-05-19 | Dolby Laboratories Licensing Corporation | Correlating and decorrelating transforms for multiple description coding systems |
US8255207B2 (en) | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
CN101371296B (zh) | 2006-01-18 | 2012-08-29 | Lg电子株式会社 | 用于编码和解码信号的设备和方法 |
TWI333643B (en) | 2006-01-18 | 2010-11-21 | Lg Electronics Inc | Apparatus and method for encoding and decoding signal |
US8032369B2 (en) | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
FR2897733A1 (fr) | 2006-02-20 | 2007-08-24 | France Telecom | Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant |
US20070253577A1 (en) | 2006-05-01 | 2007-11-01 | Himax Technologies Limited | Equalizer bank with interference reduction |
US7873511B2 (en) * | 2006-06-30 | 2011-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
JP4810335B2 (ja) | 2006-07-06 | 2011-11-09 | 株式会社東芝 | 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置 |
US7933770B2 (en) | 2006-07-14 | 2011-04-26 | Siemens Audiologische Technik Gmbh | Method and device for coding audio data based on vector quantisation |
CN102096937B (zh) | 2006-07-24 | 2014-07-09 | 索尼株式会社 | 毛发运动合成器系统和用于毛发/皮毛流水线的优化技术 |
US7987089B2 (en) * | 2006-07-31 | 2011-07-26 | Qualcomm Incorporated | Systems and methods for modifying a zero pad region of a windowed frame of an audio signal |
DE102006049154B4 (de) | 2006-10-18 | 2009-07-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kodierung eines Informationssignals |
ATE547898T1 (de) | 2006-12-12 | 2012-03-15 | Fraunhofer Ges Forschung | Kodierer, dekodierer und verfahren zur kodierung und dekodierung von datensegmenten zur darstellung eines zeitdomänen-datenstroms |
FR2911227A1 (fr) * | 2007-01-05 | 2008-07-11 | France Telecom | Codage par transformee, utilisant des fenetres de ponderation et a faible retard |
KR101379263B1 (ko) | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
FR2911426A1 (fr) | 2007-01-15 | 2008-07-18 | France Telecom | Modification d'un signal de parole |
JP4708446B2 (ja) | 2007-03-02 | 2011-06-22 | パナソニック株式会社 | 符号化装置、復号装置およびそれらの方法 |
JP2008261904A (ja) | 2007-04-10 | 2008-10-30 | Matsushita Electric Ind Co Ltd | 符号化装置、復号化装置、符号化方法および復号化方法 |
US8630863B2 (en) * | 2007-04-24 | 2014-01-14 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding audio/speech signal |
CN101388210B (zh) | 2007-09-15 | 2012-03-07 | 华为技术有限公司 | 编解码方法及编解码器 |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
KR101513028B1 (ko) * | 2007-07-02 | 2015-04-17 | 엘지전자 주식회사 | 방송 수신기 및 방송신호 처리방법 |
US8185381B2 (en) | 2007-07-19 | 2012-05-22 | Qualcomm Incorporated | Unified filter bank for performing signal conversions |
CN101110214B (zh) | 2007-08-10 | 2011-08-17 | 北京理工大学 | 一种基于多描述格型矢量量化技术的语音编码方法 |
MX2010001763A (es) | 2007-08-27 | 2010-03-10 | Ericsson Telefon Ab L M | Analisis/sintesis espectral de baja complejidad utilizando la resolucion temporal seleccionable. |
JP5264913B2 (ja) | 2007-09-11 | 2013-08-14 | ヴォイスエイジ・コーポレーション | 話声およびオーディオの符号化における、代数符号帳の高速検索のための方法および装置 |
US8576096B2 (en) * | 2007-10-11 | 2013-11-05 | Motorola Mobility Llc | Apparatus and method for low complexity combinatorial coding of signals |
CN101425292B (zh) | 2007-11-02 | 2013-01-02 | 华为技术有限公司 | 一种音频信号的解码方法及装置 |
DE102007055830A1 (de) | 2007-12-17 | 2009-06-18 | Zf Friedrichshafen Ag | Verfahren und Vorrichtung zum Betrieb eines Hybridantriebes eines Fahrzeuges |
CN101483043A (zh) | 2008-01-07 | 2009-07-15 | 中兴通讯股份有限公司 | 基于分类和排列组合的码本索引编码方法 |
CN101488344B (zh) | 2008-01-16 | 2011-09-21 | 华为技术有限公司 | 一种量化噪声泄漏控制方法及装置 |
US8000487B2 (en) | 2008-03-06 | 2011-08-16 | Starkey Laboratories, Inc. | Frequency translation by high-frequency spectral envelope warping in hearing assistance devices |
EP2107556A1 (en) | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
US8879643B2 (en) | 2008-04-15 | 2014-11-04 | Qualcomm Incorporated | Data substitution scheme for oversampled data |
US8768690B2 (en) | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
CA2871252C (en) | 2008-07-11 | 2015-11-03 | Nikolaus Rettelbach | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
MY154452A (en) | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
CN103000178B (zh) | 2008-07-11 | 2015-04-08 | 弗劳恩霍夫应用研究促进协会 | 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码 |
PL2311034T3 (pl) * | 2008-07-11 | 2016-04-29 | Fraunhofer Ges Forschung | Koder i dekoder audio do kodowania ramek próbkowanego sygnału audio |
ES2683077T3 (es) * | 2008-07-11 | 2018-09-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada |
MY152252A (en) | 2008-07-11 | 2014-09-15 | Fraunhofer Ges Forschung | Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme |
MY159110A (en) * | 2008-07-11 | 2016-12-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V | Audio encoder and decoder for encoding and decoding audio samples |
US8352279B2 (en) | 2008-09-06 | 2013-01-08 | Huawei Technologies Co., Ltd. | Efficient temporal envelope coding approach by prediction between low band signal and high band signal |
US8577673B2 (en) | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
US8798776B2 (en) | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
CN102177426B (zh) | 2008-10-08 | 2014-11-05 | 弗兰霍菲尔运输应用研究公司 | 多分辨率切换音频编码/解码方案 |
CN101770775B (zh) | 2008-12-31 | 2011-06-22 | 华为技术有限公司 | 信号处理方法及装置 |
KR101316979B1 (ko) * | 2009-01-28 | 2013-10-11 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 코딩 |
US8457975B2 (en) * | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
EP2214165A3 (en) | 2009-01-30 | 2010-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for manipulating an audio signal comprising a transient event |
EP2398017B1 (en) | 2009-02-16 | 2014-04-23 | Electronics and Telecommunications Research Institute | Encoding/decoding method for audio signals using adaptive sinusoidal coding and apparatus thereof |
PL2234103T3 (pl) | 2009-03-26 | 2012-02-29 | Fraunhofer Ges Forschung | Urządzenie i sposób manipulacji sygnałem audio |
CA2763793C (en) | 2009-06-23 | 2017-05-09 | Voiceage Corporation | Forward time-domain aliasing cancellation with application in weighted or original signal domain |
CN101958119B (zh) | 2009-07-16 | 2012-02-29 | 中兴通讯股份有限公司 | 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法 |
BR112012009490B1 (pt) | 2009-10-20 | 2020-12-01 | Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. | ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados |
TWI435317B (zh) * | 2009-10-20 | 2014-04-21 | Fraunhofer Ges Forschung | 音訊信號編碼器、音訊信號解碼器、用以提供音訊內容之編碼表示型態之方法、用以提供音訊內容之解碼表示型態之方法及使用於低延遲應用之電腦程式 |
CN102081927B (zh) | 2009-11-27 | 2012-07-18 | 中兴通讯股份有限公司 | 一种可分层音频编码、解码方法及系统 |
US8423355B2 (en) * | 2010-03-05 | 2013-04-16 | Motorola Mobility Llc | Encoder for audio signal including generic audio and speech frames |
US8428936B2 (en) * | 2010-03-05 | 2013-04-23 | Motorola Mobility Llc | Decoder for audio signal including generic audio and speech frames |
TW201214415A (en) | 2010-05-28 | 2012-04-01 | Fraunhofer Ges Forschung | Low-delay unified speech and audio codec |
EP4398248A3 (en) * | 2010-07-08 | 2024-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder using forward aliasing cancellation |
-
2012
- 2012-02-14 AU AU2012217153A patent/AU2012217153B2/en active Active
- 2012-02-14 JP JP2013553900A patent/JP6110314B2/ja active Active
- 2012-02-14 TW TW103134393A patent/TWI563498B/zh active
- 2012-02-14 MX MX2013009306A patent/MX2013009306A/es active IP Right Grant
- 2012-02-14 CN CN201510490977.0A patent/CN105304090B/zh active Active
- 2012-02-14 EP EP19157006.8A patent/EP3503098B1/en active Active
- 2012-02-14 PL PL12707050T patent/PL2676265T3/pl unknown
- 2012-02-14 CA CA2827272A patent/CA2827272C/en active Active
- 2012-02-14 WO PCT/EP2012/052450 patent/WO2012110473A1/en active Application Filing
- 2012-02-14 KR KR1020167007581A patent/KR101853352B1/ko active IP Right Grant
- 2012-02-14 TR TR2019/08598T patent/TR201908598T4/tr unknown
- 2012-02-14 MY MYPI2013701417A patent/MY160265A/en unknown
- 2012-02-14 ES ES12707050T patent/ES2725305T3/es active Active
- 2012-02-14 BR BR112013020699-3A patent/BR112013020699B1/pt active IP Right Grant
- 2012-02-14 CN CN201280018282.7A patent/CN103503062B/zh active Active
- 2012-02-14 EP EP12707050.6A patent/EP2676265B1/en active Active
- 2012-02-14 AR ARP120100475A patent/AR085221A1/es active IP Right Grant
- 2012-02-14 TW TW101104674A patent/TWI479478B/zh active
- 2012-02-14 EP EP23186418.2A patent/EP4243017A3/en active Pending
- 2012-02-14 PT PT12707050T patent/PT2676265T/pt unknown
- 2012-02-14 SG SG2013060991A patent/SG192721A1/en unknown
- 2012-02-14 KR KR1020137024191A patent/KR101698905B1/ko active IP Right Grant
-
2013
- 2013-08-14 US US13/966,666 patent/US9047859B2/en active Active
- 2013-09-11 ZA ZA2013/06839A patent/ZA201306839B/en unknown
-
2014
- 2014-11-27 AR ARP140104448A patent/AR098557A2/es active IP Right Grant
-
2015
- 2015-11-09 AR ARP150103655A patent/AR102602A2/es active IP Right Grant
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BR112013020699B1 (pt) | Aparelho e método para codificar e decodificar um sinal de áudio utilizando uma parte antecipada alinhada | |
ES2683077T3 (es) | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada | |
CN105793924B (zh) | 使用错误隐藏提供经解码的音频信息的音频解码器及方法 | |
US10319384B2 (en) | Low bitrate audio encoding/decoding scheme having cascaded switches | |
US8804970B2 (en) | Low bitrate audio encoding/decoding scheme with common preprocessing | |
ES2693229T3 (es) | Codificación de señales de audio genérico a bajas tasas de bits y bajo retardo | |
BR112012009490B1 (pt) | ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados | |
BRPI0914056B1 (pt) | Esquema de codificação/decodificação de áudio comutado multi-resolução | |
PT2146344T (pt) | Esquema de codificação/descodificação de áudio com uma derivação comutável | |
TR201802808T4 (tr) | Bir zaman alan uyarma sinyalini baz alan bir hata gizleme kullanılarak kodu çözülmüş bir ses bilgisi sağlamak için ses dekoderi ve yöntem. | |
BR112012009447B1 (pt) | Codificador de sinal de áudio, decodificador de stnai, de áudio, método para codificar ou decodificar um sinal de áudio usando um cancelamento de aliasing | |
BR112013020592B1 (pt) | Codec de áudio utilizando síntese de ruído durante fases inativas | |
PT2676270T (pt) | Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade | |
BR112013020589B1 (pt) | Codec de áudio para suporte de modos de codificação de domínio de tempo e domínio de frequência | |
US9984696B2 (en) | Transition from a transform coding/decoding to a predictive coding/decoding | |
ES2963367T3 (es) | Aparato y procedimiento de decodificación de una señal de audio usando una parte de anticipación alineada | |
RU2574849C2 (ru) | Устройство и способ для кодирования и декодирования аудиосигнала с использованием выровненной части опережающего просмотра | |
BRPI0910529B1 (pt) | Esquema de codificação/decodificação de áudio de baixa taxa de bits queapresenta comutadores em cascata |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B06A | Patent application procedure suspended [chapter 6.1 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 14/02/2012, OBSERVADAS AS CONDICOES LEGAIS. |