BR112013020587B1 - esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral - Google Patents
esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral Download PDFInfo
- Publication number
- BR112013020587B1 BR112013020587B1 BR112013020587-3A BR112013020587A BR112013020587B1 BR 112013020587 B1 BR112013020587 B1 BR 112013020587B1 BR 112013020587 A BR112013020587 A BR 112013020587A BR 112013020587 B1 BR112013020587 B1 BR 112013020587B1
- Authority
- BR
- Brazil
- Prior art keywords
- spectrum
- spectral
- autocorrelation
- linear prediction
- audio encoder
- Prior art date
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 103
- 238000001228 spectrum Methods 0.000 claims abstract description 131
- 230000009466 transformation Effects 0.000 claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 25
- 238000001914 filtration Methods 0.000 claims description 11
- 238000011002 quantification Methods 0.000 claims description 11
- 230000002441 reversible effect Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 2
- 238000003780 insertion Methods 0.000 claims 1
- 230000037431 insertion Effects 0.000 claims 1
- 238000000844 transformation Methods 0.000 abstract description 3
- 230000005236 sound signal Effects 0.000 description 13
- 230000002123 temporal effect Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 238000012546 transfer Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/13—Residual excited linear prediction [RELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
- G10L19/107—Sparse pulse excitation, e.g. by using algebraic codebook
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Esquema de Codificação com Base em Previsão Linear Utilizando Modelagem de Ruído de Domínio Espectral Um conceito de codificação que tem como base uma previsão linear e utiliza modelagem de ruído no domínio espectral é processado de forma menos complexa com uma eficiência de codificação comparável em termos de, por exemplo, relação de taxa/distorção, utilizando a decomposição espectral do sinal de entrada de áudio para um espectrograma compreendendo uma sequência de espectros tanto para o cálculo do coeficiente de previsão linear quanto para a modelagem de domínio espectral com base nos coeficientes de previsão linear. A eficiência de codificação pode permanecer mesmo se tal transformação sobreposta for utilizada para a decomposição espectral, que causa aliasing [serrilhado] e necessita de cancelamento de aliasing de tempo, tais como transformações sobrepostas criticamente amostradas, tal como uma MDCT.
Description
A presente invenção diz respeito a um codec de áudio com base em previsão linear utilizando a modelagem de ruído no domínio da frequência tal como o modo TCX conhecido da USAC.
Como um codec de áudio relativamente novo, a USAC foi finalizada recentemente. USAC é um codec que suporta a comutação entre vários modos de codificação, como um modo de codificação similar à AAC, um modo de codificação no domínio do tempo utilizando codificação de previsão linear, ou seja, ACELP, e codificação de excitação codificada de transformação formando um modo de codificação intermediário, segundo o qual a modelagem de domínio espectral é controlada utilizando os coeficientes de predições lineares transmitidos através do fluxo de dados. Na Patente WO 2011147950, a proposta foi feita para tornar o esquema de codificação USAC mais adequado para aplicações de baixo atraso, excluindo a disponibilidade do modo de codificação similar à AAC e restringindo os modos de codificação para ACELP e TCX somente. Além disso, foi proposto reduzir o comprimento da estrutura.
No entanto, seria favorável para ter uma possibilidade para reduzir a complexidade de um esquema de codificação com base em previsão linear, utilizando a modelagem de domínio espectral enquanto se obtém eficiência similar da codificação em termos de, por exemplo, sensação de relação de taxa/distorção.
Assim, é um objeto da presente invenção proporcionar tal esquema de codificação com base em previsão linear utilizando a modelagem de dominio espectral permitindo uma redução da complexidade com uma eficiência de codificação comparável ou mesmo superior. Este objetivo é atingido pelo objeto das reivindicações independentes pendentes.
É uma ideia básica subjacente a presente invenção que um conceito de codificação com base em previsão linear, o qual utiliza modelagem de ruido no dominio espectral, pode ser processado de forma menos complexa com uma eficiência de codificação comparável em termos de, por exemplo, relação de taxa/distorção, se a decomposição espectral do sinal de entrada de áudio em um espectrograma compreendendo uma sequência de espectros for utilizada tanto para o cálculo de coeficiente de previsão linear, como para a entrada para uma modelagem de dominio espectral com base nos coeficientes de previsão linear.
A este respeito, verificou-se que a eficiência de codificação permanece mesmo se tal transformação sobreposta for utilizada para a decomposição espectral, que causa aliasing [serrilhado] e necessita de cancelamento de aliasing de tempo, como transformações sobrepostas criticamente amostradas como uma MDCT. Implementações vantajosas de aspectos da presente invenção são objeto das reivindicações dependentes.
Em particular, aplicações preferidas do presente pedido de patente são descritas em relação às figuras, entre as quais: A Figura 1 mostra um diagrama em bloco de um codificador de áudio de acordo com uma comparação ou aplicação; A Figura 2 mostra um codificador de áudio de acordo com uma aplicação do presente pedido de patente; A Figura 3 mostra um diagrama em bloco de um possivel decodificador de áudio sendo acoplado ao codificador de áudio da Figura 2; e A Figura 4 mostra um diagrama em bloco de um codificador de áudio alternativo, de acordo com uma aplicação do presente pedido de patente. A fim de facilitar a compreensão dos principais aspectos e vantagens das aplicações da presente invenção descritos adicionalmente abaixo, é preliminarmente feita referência à Figura 1, que mostra um codificador de áudio com base em previsão linear utilizando a modelagem de ruido em domínio espectral.
Em particular, o codificador de áudio da Figura 1 compreende um decompositor espectral 10 para a decomposição espectral de um sinal áudio de entrada 12 para dentro de um espectrograma constituído por uma sequência de espectros, o que é indicado em 14 na Figura 1. Como é mostrado na Figura 1, o decompositor espectral 10 pode usar um MDCT, a fim de transferir o sinal de áudio de entrada 10 do domínio do tempo para o domínio espectral. Em particular, um janelador [ivíndoiver] 16 precede o módulo MDCT 18 do decompositor espectral 10 de modo a enquadrar porções mutuamente sobrepostas do sinal de entrada de áudio 12, cujas porções enquadradas são individualmente sujeitas a respectiva transformação no módulo MDCT 18, de modo a se obter os espectros da sequência de espectros do espectrograma 14. No entanto, o decompositor espectral 10 pode como alternativa utilizar qualquer outra transformação sobreposta causando aliasing, como qualquer outra transformação sobreposta criticamente amostrada.
Além disso, o codificador de áudio da Figura 1 compreende um analisador de previsão linear 20, para analisar o sinal de entrada de áudio 12, de modo a derivar os coeficientes de previsão linear do mesmo. Um modelador de dominio espectral 22 de codificador de áudio da Figura 1 é configurado para modelar espectralmente um. espectro atual da sequência de espectros do espectrograma 14, com base nos coeficientes de previsão linear fornecidos pelo analisador de previsão linear 20. Em particular, o modelador de dominio espectral 22 é configurado para moldar espectralmente um espectro atual inserindo o modelador de dominio espectral 22 de acordo com uma função de transferência, que corresponde a uma função de transferência de filtro de análise de previsão linear convertendo os coeficientes de previsão linear do analisador 20 em valores de ponderação espectral e aplicando estes valores de ponderação espectral como divisores de modo a formar ou moldar espectralmente o espectro atual. O espectro formado está sujeito a uma quantificação no quantificador 24 do codificador de áudio da Figura 1. Devido à modelagem no modelador de dominio espectral 22, o ruído de quantificação, que resulta da desmodelagem do espectro quantizado no lado do decodificador, é deslocado, de modo a ser oculto, ou seja, a codificação é tão transparente perceptualmente quanto possível.
Apenas para fins de completude, observa-se que um módulo de modelagem de ruído temporal 26 pode opcionalmente sujeitar o espectro encaminhado do decompositor espectral 10 para o modelador de domínio espectral 22 para uma modelagem de ruído temporal e um módulo de ênfase de baixa frequência 28 pode adaptativamente filtrar cada saida de espectro modelado pelo modelador de dominio espectral 22 antes da quantificação 24.
O espectro quantificado e espectralmente modelado é inserido no fluxo de dados 30 juntamente com a informação sobre os coeficientes de previsão linear utilizados na modelagem espectral de modo a que, no lado da decodificação, a desmodelagem e desquantificação possam ser realizadas.
A maior parte do codec de áudio, uma exceção sendo o módulo TNS 26, mostrado na Figura 1 é, por exemplo, aplicada e descrita no novo codec de áudio USAC e em particular, dentro do próprio modo TCX. Consequentemente, para obter mais detalhes, é feita referência, exemplarmente, ao padrão USAC, por exemplo [1].
No entanto, mais ênfase é fornecida a seguir com relação ao analisador de previsão linear 20. Como é mostrado na Figura 1, o analisador de previsão linear 20 opera diretamente com o sinal de áudio de entrada 12. Um módulo de pré-ênfase 32 pré- filtra o sinal áudio de entrada 12, tal como, por exemplo, por filtragem FIR, e como a seguir designado, uma autocorrelação é continuamente derivada por uma concatenação de um janelador 34, autocorrelacionador 36 e janelador de atraso 38. O janelador 34 forma porções de janela a partir do sinal de entrada de áudio pré- filtrado, cujas porções de janela podem mutuamente se sobrepor no tempo. Um autocorrelacionador 36 que calcula uma autocorrelação por saida de janela de porção pelo janelador 34 e janelador de atraso 38 é opcionalmente fornecido para aplicar uma função de janela de atraso para as autocorrelações, de modo a produzir as autocorrelações mais adequadas para o seguinte algoritmo de estimativa de parâmetros de previsão linear. Em particular, um estimador de parâmetro de previsão linear 40 recebe a saida da janela de atraso e executa, por exemplo, um algoritmo Wiener- Levinson-Durbin ou outro algoritmo apropriado para as autocorrelações de janela de modo a derivar os coeficientes de previsão linear por autocorrelação. Dentro do modelador de dominio espectral 22, os coeficientes de previsão linear resultantes são passados através de uma cadeia de módulos 42, 44, 4 6 e 48. O módulo 42 é responsável por transferir informação sobre os coeficientes de previsão linear dentro do fluxo de dados 30 para o lado da decodificação. Como mostrado na Figura 1, o insersor de fluxo de dados do coeficiente de previsão linear 42 pode ser configurado para executar uma quantificação dos coeficientes de previsão linear determinados pelo analisador de previsão linear 20 em um par espectral de linha ou dominio da frequência de linha espectral com a codificação dos coeficientes quantificados no fluxo de dados 30 e reconvertendo os valores de predição quantificados em coeficientes LPC novamente. Opcionalmente, alguma interpolação pode ser utilizada de modo a reduzir a taxa de atualização na qual a informação sobre os coeficientes de previsão linear são transportados dentro do fluxo de dados 30. Consequentemente, o módulo subsequente 44 que é responsável pela sujeição dos coeficientes de previsão linear em relação ao espectro atual entrando no modelador de dominio espectral 22 para algum processo de ponderação, tem acesso a coeficientes de previsão linear, conforme eles também são disponíveis no lado da decodificação, isto é, acesso aos coeficientes de previsão linear quantificados. Um módulo subsequente 46 converte os coeficientes de previsão linear ponderada para ponderações espectrais que são então aplicadas pelo módulo modelador de ruido de dominio de frequência 48, de modo a modelar espectralmente o espectro atual de entrada.
Como ficou evidente a partir da discussão acima, a análise de previsão linear realizada por um analisador 20 causa uma sobrecarga que é completamente adicionada à decomposição espectral e à modelagem de dominio espectral feito nos blocos 10 e 22 e, consequentemente, a sobrecarga computacional é considerável. A Figura 2 mostra um codificador de áudio de acordo com uma aplicação do presente pedido de patente, que oferece uma eficiência de codificação comparável, mas com reduzida complexidade da codificação.
Resumidamente falando, no codificador de áudio da Figura 2, que representa uma aplicação do presente pedido de patente, o analisador de previsão linear da Figura 1 é substituído por uma concatenação de um computador de autocorrelação 50 e um computador de coeficiente de previsão linear 52 ligados em série entre o decompositor espectral 10 e o modelador de dominio espectral 22. A motivação para a modificação da Figura 1 para a Figura 2 e a explicação matemática que revela a funcionalidade detalhada dos módulos 50 e 52 serão fornecidos a seguir. No entanto, é óbvio que a sobrecarga de cálculo do codificador de áudio da Figura 2 é reduzida em relação ao codificador de áudio da Figura 1, considerando que o computador de autocorrelação 50 envolve cálculos menos complexos, quando comparado a uma sequência de cálculos envolvidos com a autocorrelação e janelas antes da autocorrelação.
Antes de descrever a estrutura detalhada e matemática da aplicação da Figura 2, a estrutura do codificador de áudio da Figura 2 é descrita resumidamente. Em particular, o codificador de áudio da Figura 2, que é geralmente indicado utilizando o sinal de referência 60, compreende uma entrada 62 para receber o sinal áudio de entrada 12 e uma saida 64 para a saida do fluxo de dados 30, na qual o codificador de áudio codifica o sinal de áudio de entrada 12. O decompositor espectral 10, modelador de ruido temporal 26, modelador de dominio espectral 22, enfatizador de baixa frequência 28 e quantificador 24 são ligados em série na ordem de menção entre a entrada 62 e saida 64. O modelador de ruido temporal 26 e enfatizador de baixa frequência 28 são módulos opcionais e podem, de acordo com uma aplicação alternativa, ser desconsiderados. Se estiver presente, o modelador de ruido temporal 26 pode ser configurado para ser ativado de forma adaptativa, isto é, a modelagem de ruido temporal pelo modelador de ruido temporal 26 pode ser ativada ou desativado dependendo da característica do sinal de entrada de áudio, por exemplo, com um resultado da decisão, sendo, por exemplo, transferida para o lado da decodif icação por meio do fluxo de dados 30, como será explicado em maior detalhe abaixo.
Como mostrado na Figura 1, o modelador de dominio espectral 22 da Figura 2 é construído internamente, tal como foi descrito em relação à Figura 1. No entanto, a estrutura interna da Figura 2 não é para ser interpretada como uma questão critica e a estrutura interna do modelador de dominio espectral 22 pode também ser diferente quando comparada com a estrutura exata mostrada na Figura 2.
O computador de coeficiente de previsão linear 52 da Figura 2 compreende o janelador de atraso 38 e o estimador de coeficiente de previsão linear 40 que estão ligados em série entre o computador de autocorrelação 50, por um lado, e o modelador de dominio espectral 22 por outro lado. Deve notar-se que o janelador de atraso, por exemplo, é também uma característica opcional. Se presente, a janela aplicada pelo janelador de atraso 38 sobre as autocorrelações individuais fornecidas pelo computador de autocorrelação 50 pode ser uma janela em forma de Gauss ou binomial. No que diz respeito ao estimador de coeficiente de previsão linear 40, é de notar que o mesmo não necessariamente usa o algoritmo de Wiener-Levinson- Durbin. Em vez disso, um algoritmo diferente poderia ser utilizado para calcular os coeficientes de previsão linear.
Internamente, o computador de autocorrelação 50 compreende uma sequência de um computador de espectro de potência 54, seguido por um ponderador de espectro / deformador de escala 56, o qual por sua vez é seguido por um transformador inverso 58. Os detalhes e significado da sequência dos módulos 54 a 58 serão descritos em maior detalhe abaixo.
Para entender por que é possível compartilhar a utilização da decomposição espectral do decompositor 10 tanto para a modelagem de ruído de domínio espectral dentro do modelador 22 quanto para o cálculo de coeficiente de previsão linear, deve-se considerar o Teorema de Wiener-Khinichin, que mostra que uma autocorrelação pode ser calculada utilizando um DFT: onde Assim, Rm são os coeficientes de autocorrelação do autocorrelação da porção do sinal xn dos quais a DPT é Xk.
Consequentemente, se o decompositor espectral 10 utiliza um DPT a fim de implementar a transformação sobreposta e gerar a sequência de espectros do sinal de áudio de entrada 12, então a calculadora de autocorrelação 50 é capaz de efetuar um cálculo mais rápido de uma autocorrelação na sua saida, meramente obedecendo ao teorema de Wiener-Khinichin esboçado.
Se os valores para todos os atrasos (m) da autocorrelação são necessários, o DPT do decompositor espectral 10 pode ser realizado utilizando um FFT e um FFT inverso pode ser usado dentro do computador de autocorrelação 50 de modo a derivar a autocorrelação dai utilizando a fórmula já mencionada. Quando, no entanto, apenas atrasos M<<N são necessários, é mais rápido utilizar um FFT para a decomposição espectral e aplicar diretamente um DFT inverso, de modo a obter os coeficientes de autocorrelação relevantes.
O mesmo é válido quando o DFT mencionado acima é substituído por uma ODFT, ou seja, DFT de frequência estranha, onde um DFT generalizado de uma sequência de tempo x é definido como:
é definido para ODFT [Odd Frequency DFT | DFT de frequência estranha].
Se, no entanto, uma MDCT for utilizada na aplicação da Figura 2, ao invés de um DFT ou FFT, as coisas serão diferentes. A MDCT envolve uma transformação cosseno discreta do tipo IV e só revela um espectro de valores reais. Isto é, a informação de fase se perde por essa transformação. A MDCT pode ser escrita como: onde xn, com n = 0 ... 2N-1 define uma porção de janela atual do sinal de áudio de entrada 12 como saida pelo janelador 16 e Xk é, consequentemente, o coeficiente espectral k- th do espectro resultante para esta porção de janela.
O computador de espectro de potência 54 calcula a partir da saida da MDCT o espectro de potência ao elevar ao quadrado cada coeficiente de transformação Xk de acordo com: A relação entre um espectro MDCT, tal como definido por Xk e um espectro ODFT, Xk0DFT pode ser escrita como:
Isto significa que utilizando a MDCT no lugar de uma ODFT como entrada para o computador de autocorrelação 50 para realizar o procedimento de MDCT para autocorrelação, é equivalente à autocorrelação obtida da ODFT com a ponderação de espectro de
Esta distorção da autocorrelação determinada é, no entanto, transparente para o lado de decodificação conforme a modelagem de dominio espectral dentro do modelador 22 opera exatamente no mesmo dominio espectral como o do decompositor espectral 10, ou seja, a MDCT. Em outras palavras, uma vez que a modelagem de ruido no dominio da frequência realizado pelo modelador de ruido no dominio de frequência 48 da Figura 2 é aplicada no dominio da MDCT, isto significa efetivamente que a ponderação do espectro fkmdct anula a modulação da MDCT e produz resultados semelhantes, como um LPC convencional como mostrado na Figura 1 produz quando a MDCT é substituída com uma ODFT.
Deste modo, no computador de autocorrelação 50, o transformador inverso 58 executa uma ODFT inversa e uma ODFT inversa de uma entrada real simétrico é igual a uma DCT tipo II: base em MDCT no computador de autocorrelação 50 da Figura 2, conforme a autocorrelação como determinado pela ODFT inversa na saida do transformador inverso 58 apresenta um custo computacional relativamente baixo, pois etapas computacionais meramente mínimas são necessárias, como a simples elevação ao quadrado mencionada e o computador de espectro de potência 54 e a ODFT inversa no transformador inverso 58.
Detalhes sobre o ponderador de espectro / deformador de escala 56 ainda não foram descritos. Em particular, este módulo é opcional e pode ser deixado de lado ou substituído por um decimador de domínio da frequência. Detalhes sobre possíveis medidas executadas pelo módulo 56 são descritos a seguir. Antes disso, no entanto, alguns detalhes sobre alguns dos outros elementos mostrados na Figura 2 são delineados. Quanto ao janelador de atraso 38, por exemplo, é notado que o mesmo pode executar uma compensação de ruído branco, a fim de melhorar o condicionamento da estimativa do coeficiente de previsão linear executada pelo estimador 40. A ponderação LPC realizada no módulo 44 é opcional, mas se presente, pode ser executada de modo a conseguir uma expansão de largura de banda efetiva. Isto é, os polos de LPC's são movidos para a origem por um fator constante de acordo com, por exemplo,
Assim, a ponderação LPC desta forma realizada aproxima o mascaramento simultâneo. A constante de y = 0,92 ou algo entre 0,85 e 0,95, ambos inclusive, produz bons resultados.
Quanto ao módulo 42, note-se que a codificação de taxa de bits variável ou algum outro esquema de codificação de entropia pode ser utilizado de modo a codificar as informações relativas aos coeficientes de previsão linear para o fluxo de dados 30. Como já foi mencionado acima, a quantificação pode ser realizada no domínio LSP / LSF, mas o domínio ISP / ISF é também viável.
Em relação ao módulo de LPC para MDCT 4 6 que converte o LPC em valores de ponderação espectrais que são chamados, no caso de domínio de MDCT, em ganhos MDCT no seguinte, é feita referência, por exemplo, para o codec USAC, onde esta transformação é explicada em detalhes. Resumidamente falado, os coeficientes de LPC podem ser sujeitos a uma ODFT de modo a obter ganhos MDCT, o inverso do que pode então ser usado como ponderações para modelar o espectro no módulo 48 através da aplicação das ponderações resultantes para bandas respectivos do espectro. Por exemplo, 16 coeficientes de LPC são convertidos em ganhos MDCT. Naturalmente, em vez de a ponderação utilizar a inversa, a ponderação utilizando os ganhos MDCT numa forma não invertida é utilizada no lado do decodificador a fim de obter uma função de transferência semelhante a um filtro de sintese de LPC de modo a formar o ruido de quantificação como já mencionado acima. Assim, resumindo, no módulo 46, os ganhos utilizados pelo FDNS 48 são obtidos a partir dos coeficientes de previsão linear utilizando uma ODFT e são chamados ganhos MDCT em caso de utilização de MDCT.
Por fins de completude, a Figura 3 mostra uma implementação possivel de um decodificador de áudio que pode ser utilizado a fim de reconstruir um sinal de áudio a partir do fluxo de dados 30 novamente. O decodificador da Figura 3 compreende um desenfatizador de baixa frequência 80, que é opcional, um desmodelador de dominio espectral 82, um desmodelador de ruido temporal 84, que também é opcional, e um conversor de dominio espectral para tempo 86, que estão ligados em série entre uma entrada de fluxo de dados 88 do decodificador de áudio no qual o fluxo de dados 30 entra e uma saida 90 do decodificador de áudio onde o sinal de áudio reconstruído é saida. O desenfatizador de baixa frequência recebe do fluxo de dados 30 o espectro quantificado e espectralmente modelado e realiza uma filtragem neste, a qual é inversa à função de transferência do enfatizador de baixa frequência da Figura 2. Como já foi mencionado, o desenfatizador 80 é, contudo, opcional.
O desmodelador de domínio espectral 82 tem uma estrutura que é muito semelhante à do modelador de domínio espectral 22 da Figura 2. Em particular, o mesmo compreende internamente uma concatenação de extrator LPC 92, ponderador LPC 94, que é igual ao ponderador LPC 44, um conversor de LPC para MDCT 96, que também é igual ao módulo 4 6 da Figura 2 e um modelador de ruído de domínio de frequência 98, que aplica os ganhos MDCT sobre o espectro de entrada (desenfatizado) inversamente ao FDNS 48 de Figura 2, isto é, através da multiplicação ao invés da divisão, a fim de obter uma função de transferência que corresponde a um filtro de síntese de previsão linear dos coeficientes de previsão linear extraídos do fluxo de dados 30, pelo extrator LPC 92. O extrator LPC 92 pode executar a retransformação acima mencionada de um domínio de quantificação correspondente como LSP / LSF ou ISP / ISF para obter os coeficientes de previsão linear para os espectros individuais codificados dentro do fluxo de dados 30 para as porções que se sobrepõem mutuamente consecutivas do sinal de áudio a ser reconstruído.
O modelador de ruído no domínio de tempo 84 inverte a filtragem do módulo 26 da Figura 2, e as possíveis implementações para estes módulos são descritas em mais detalhes abaixo. Em qualquer caso, contudo, o módulo TNS 84 da Figura 3 é opcional e pode ser deixado de lado como também já foi mencionado em relação ao módulo TNS 26 da Figura 2.
O compositor espectral 86 compreende, internamente, um transformador inverso 100 realizando, por exemplo, uma IMDCT individualmente sobre o espectro desmodelado de entrada, seguido por um cancelador de aliasing tal como um adicionador de sobreposição 102 configurado para temporariamente registrar corretamente a saida das versões de janelas reconstruídas pelo retransformador 100, de modo a realizar cancelamento de aliasing de tempo entre o mesmo e gerar a saida do sinal de áudio reconstruído na saida 90.
Como já foi mencionado acima, devido à modelagem de dominio espectral 22 de acordo com uma função de transferência a um filtro de análise LPC definido pelos coeficientes LPC transportados dentro de fluxo de dados 30, a quantificação no quantificador 24, que tem, por exemplo, um ruido espectral plano, é modelado pelo desmodelador de dominio espectral 82 num lado de decodificação de um modo a ser oculto abaixo do limite de mascaramento.
Existem diferentes possibilidades de execução do módulo TNS 26 e o seu inverso no decodificador, ou seja, o módulo 84. A modelagem de ruido temporal modela o ruido no sentido temporal dentro das porções de tempo que o espectro individual espectralmente formado pelo modelador de dominio espectral referido. A modelagem de ruido temporal é especialmente útil no caso de transientes estarem presentes dentro da porção de tempo respectiva a que se refere o espectro atual. De acordo com uma aplicação especifica, modelador de dominio espectral 26 é configurado como um previsor do espectro configurado para filtrar preditivamente o espectro atual ou a sequência de espectros de saida pelo decompositor espectral 10 ao longo de uma dimensão espectral. Isto é, o previsor de espectro 26 pode também determinar os coeficientes de filtro de predição, que podem ser inseridos no fluxo de dados 30. Isto é ilustrado por uma linha tracejada na Figura 2. Como consequência, o espectro filtrado de ruido temporal é plano ao longo da dimensão espectral e devido à relação entre o dominio espectral e dominio do tempo, a filtragem inversa dentro do desmodelador de ruido no dominio de tempo 84 em conformidade com os filtros de predição de Modelagem de ruido no dominio de tempo transmitidos dentro do fluxo de dados 30, o desmodelagem leva a ocultação ou compressão do ruido dentro dos tempos ou tempo no qual o ataque ou transientes ocorrem. Os chamados pré-ecos são, portanto, evitados.
Em outras palavras, pela filtragem preditiva do espectro atual no modelador de ruido no dominio do tempo 26, o modelador de ruido no dominio do tempo 26 obtém como lembrete de espectro, ou seja, o espectro preditivamente filtrado que é encaminhado para o modelador de dominio espectral 22, em que os coeficientes de predição correspondentes são inseridos no fluxo de dados 30. O desmodelador de ruido no dominio do tempo 84, por sua vez, recebe do desmodelador de dominio espectral 82 o espectro desmodelado e inverte a filtragem no dominio do tempo ao longo do dominio espectral pela filtragem inversa deste espectro em conformidade com os filtros de previsão recebidos do fluxo de dados, ou extraidos do fluxo de dados 30. Em outras palavras, o modelador de ruido no dominio de tempo 2 6 usa um filtro de previsão de análise tal como um filtro de previsão linear, enquanto que o desmodelador de ruido no dominio do tempo 84 utiliza um filtro de sintese correspondente com base nos mesmos coeficientes de predição.
Como já foi mencionado, o codificador de áudio pode ser configurado para decidir sobre ativar ou desativar a modelagem de ruido temporal dependendo do ganho de predição de filtro ou uma tonalidade ou transiência do sinal de entrada de áudio 12 na porção de tempo respectiva correspondente ao espectro atual. Novamente, a respectiva informação sobre a decisão é inserida no fluxo de dados 30.
A seguir, a possibilidade é discutida de acordo com a qual o computador de autocorrelação 50 está configurado para calcular a autocorrelação da preditivamente filtrada, isto é, filtrada por TNS, versão do espectro, em vez do espectro não filtrado mostrado como na Figura 2. Existem duas possibilidades: os espectros TNS filtrados podem ser utilizados sempre que o TNS é aplicado, ou de um modo escolhido pelo codificador de áudio baseado, por exemplo, nas características do sinal de entrada de áudio 12 a ser codificado. Deste modo, o codificador de áudio da Figura 4 difere do codificador de áudio da Figura 2 em que a entrada do computador de autocorrelação 50 é conectada tanto à saida do decompositor espectral 10, bem como à salda do módulo TNS 26.
Como já mencionado, o espectro MDCT filtrado por TNS como saida pelo decompositor espectral 10 pode ser utilizado como uma entrada ou uma base para o cálculo de autocorrelação dentro do computador 50. Como já mencionado, o espectro filtrado por TNS pode ser utilizado sempre que TNS é aplicado, ou o codificador de áudio pode decidir por espectros para os quais o TNS foi aplicado entre usar o espectro não filtrado ou o espectro filtrado por TNS. A decisão pode ser tomada, como mencionado acima, dependendo das características do sinal de entrada de áudio. A decisão pode ser, no entanto, transparente para o decodificador, que meramente aplica a informação de coeficiente LPC para o desmodelagem de domínio da frequência. Outra possibilidade é que o codificador de áudio alterne entre o espectro filtrado por TNS e o espectro não filtrado para os espectros ao quais foi aplicado o TNS, isto é, para tomar a decisão entre estas duas opções para esses espectros, dependendo do comprimento de transformação escolhido do decompositor espectral 10.
Para ser mais preciso, o decompositor 10 na Figura 4 pode ser configurado para alternar entre os diferentes comprimentos de transformação na decomposição espectral do sinal de entrada de áudio, de forma que a saída de espectros de pelo decompositor espectral 10 é diferente da resolução espectral. Isto é, o decompositor espectral 10 utiliza, por exemplo, uma transformação sobreposta como a MDCT, a fim de transformar mutuamente as porções de tempo sobrepostas de comprimentos diferentes para transformações ou espectros de comprimento também variável, com a duração de transformação do espectro correspondente ao comprimento das correspondentes porções de tempo sobrepostas. Nesse caso, o computador de autocorrelação 50 pode ser configurado para calcular a autocorrelação do espectro atual preditivamente filtrada ou filtrado por TNS em caso de uma resolução espectral do espectro atual cumprindo um critério pré- determinado, ou a partir de um espectro atual não preditivamente filtrado, ou seja, não filtrado, no caso da resolução espectral do espectro atual não satisfazer o critério predeterminado. O critério predeterminado pode ser, por exemplo, que a resolução espectral do espectro atual exceda algum limite. Por exemplo, o uso do espectro filtrado por TNS como saida do módulo TNS 26 para o cálculo de autocorrelação é benéfico para os quadros mais longos (porções de tempo), coma estruturas mais longos do que 15 ms, mas pode ser desvantajoso para os quadros curtos (porções de tempo) sendo mais curtos do que, por exemplo, 15 ms, e por conseguinte, a entrada para o computador de autocorrelação 50 para os quadros mais longos pode ser o espectro MDCT filtrado por TNS, enquanto que para os quadros mais curtos o espectro MDCT como saida pelo decompositor 10 pode ser utilizado diretamente.
Até agora, ainda não foi descrito que modificações perceptuais relevantes poderiam ser realizadas no espectro de potência dentro do módulo 56. Agora, são explicadas diferentes medidas, as quais podem ser aplicadas individualmente ou em combinação para todas as aplicações e variantes descritas até agora. Em particular, uma ponderação de espectro pode ser aplicada pelo módulo 56 para a saida do espectro de potência pelo computador de espectro de potência 54. A ponderação de espectro poderia ser: onde Sk são os coeficientes do espectro de potência como já mencionado acima.
A ponderação espectral pode ser utilizada como um mecanismo para distribuir o ruido de quantificação de acordo com aspectos psicoacústicos. A ponderação do espectro correspondente a uma pré-ênfase no sentido da Figura 1 pode ser definida por:
Além disso, a deformação de escala pode ser usada dentro do módulo 56. O espectro completo pode ser dividido, por exemplo, em M bandas para espectros correspondentes aos quadros ou porções de tempo de um comprimento de amostra de li e bandas 2M para espectros correspondentes a porções de tempo de quadros com um comprimento de amostra de 12 , em que 12 pode ser duas vezes llz onde li pode ser 64, 128 ou 256. Em particular, a divisão pode obedecer:
A divisão de faixa pode incluir a deformação de frequência para uma aproximação da escala de Bark de acordo com: alternativamente, as faixas podem ser igualmente distribuídas para formar uma escala linear de acordo com:
Para os espectros de quadros de comprimento 11; por exemplo, um número de faixas pode ser entre 20 e 40, e entre 48 e 72 para espectros pertencentes aos quadros de comprimento 12, onde 32 faixas para espectros de quadros de comprimento 12 e 64 faixas para espectros de quadros de comprimento 12 são preferidos.
A ponderação espectral e deformação de frequência como opcionalmente realizadas pelo módulo opcional 56 podem ser consideradas como um meio de alocação de bits (Modelagem de ruido de quantificação). A ponderação de espectro em uma escala linear correspondente à pré-ênfase pode ser realizada utilizando uma constante u = 0,9 ou uma constante que se encontra entre 0,8 e 0,95, de modo que a pré-ênfase correspondente se aproxima à deformação da escala de Bark.
A modificação do espectro de potência dentro do módulo 56 pode incluir espalhamento do espectro de potência, modelando o mascaramento simultâneo, e, portanto substitui os Módulos de Ponderação LPC 44 e 94.
Se uma escala linear é utilizada e a ponderação do espectro correspondente à pré-ênfase é aplicada, então os resultados do codificador de áudio da Figura 4 tal como obtido no lado de decodificação, isto é, na saida do decodificador de áudio da Figura 3, são perceptivelmente muito semelhantes aos resultados de reconstrução convencional tal como obtido de acordo com a aplicação da Figura 1.
Alguns resultados de testes de escuta foram realizados utilizando aplicações acima identificadas. A partir dos testes, descobriu-se que a análise LPC convencional como mostrado na Figura 1 e a análise LPC baseada em MDCT de escala linear produziu resultados perceptivamente equivalentes quando
A ponderação do espectro na análise LPC com base em MDCT corresponde à pré-ênfase na análise LPC convencional, A mesma janela é utilizada dentro da decomposição espectral, tal como uma janela de seno de baixa sobreposição, e A escala linear é utilizada na análise LPC baseada em MDCT.
A diferença insignificante entre a análise LPC convencional e a análise LPC com base em MDCT de escala linear provavelmente vem do fato de que LPC é usado para a modelagem de ruido de quantificação e que há bits suficientes em 48 kbit/s para codificar coeficientes de MDCT com precisão suficiente.
Além disso, descobriu-se que utilizar a escala de Bark ou escala não linear através da aplicação de deformação de escala dentro do módulo 56 resulta em eficiência de codificação ou resultados de testes de audição de acordo com os quais a escala de Bark supera a escala linear para os itens de áudio para o teste Applause, Fatboy, RockYou, Waiting, bohemian, fuguepremikres, kraftwerk, lesvoleurs, teardrop.
A escala de Bark falha seriamente para hockey e linchpin. Outro item que tem problemas na escala de Bark é o bibilolo, mas não foi incluido no teste, uma vez que apresenta uma música experimental com estrutura de espectro especifico. Alguns ouvintes também expressaram forte antipatia ao item bibilolo.
No entanto, é possivel para o codificador de áudio das Figuras 2 e 4 alternar entre diferentes escalas. Isto é, o módulo 56 pode aplicar diferentes escalas para diferentes espectros de dependência de características do sinal de áudio, tal como a transiência ou tonalidade ou usar diferentes escalas de frequência para produzir vários sinais quantificados e uma medida para determinar qual dos sinais quantificados é perceptivamente o melhor. Descobriu-se que a mudança de escala resulta em melhorias na presença de transientes, tais como os transientes em RockYou e linchpin quando comparado com ambas as versões não alteradas (Escala de Bark e escala linear).
Deve ser mencionado que as aplicações descritas acima podem ser utilizadas como o modo TCX em um codec de áudio multimodo, como um codec compatível com ACELP e a aplicação acima descrita como um modo semelhante à TCX. Como um enquadramento, quadros de um comprimento constante, tal como de 20 ms podem ser utilizados. Deste modo, uma versão de baixo atraso do codec USAC pode ser obtida, a qual é muito eficiente. Como o TNS, o TNS de AAC-ELD pode ser utilizado. Para reduzir o número de bits usados para a informação lateral, o número de filtros pode ser fixado em dois, um operando de 600 Hz a 4500 Hz e um segundo a partir de 4500 Hz até o final do espectro do codificador principal. Os filtros podem ser ligados e desligados de forma independente. Os filtros podem ser aplicados e transmitidos como uma estrutura reticulada utilizando coeficientes parcor. A ordem máxima de filtro pode ser configurada para serem oito e quatro bits podem ser utilizados por coeficiente de filtro. A codificação de Huffman pode ser utilizada para reduzir o número de bits utilizados para a ordem de um filtro e para os seus coeficientes.
Embora alguns aspectos tenham sido descritos no contexto de um aparelho, está claro que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou uma característica de uma etapa do método. De forma análoga, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou utilizando) um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas aplicações, uma ou mais das etapas do método mais importantes podem ser executadas por tal aparelho.
Dependendo de certas exigências da implementação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma memória ROM, PROM, EPROM, EEPROM ou uma memória FLASH, tendo sinais de controle eletronicamente legiveis armazenados nela, que cooperam (ou são capazes de cooperar) com um sistema programável por computador de modo que o respectivo método seja realizado. Desta forma, o meio de armazenamento digital pode ser legivel por computador.
Algumas aplicações de acordo com a invenção compreendem um suporte de dados tendo sinais de controle eletronicamente legiveis que podem cooperar com um sistema programável por computador, de modo que um dos métodos descritos neste documento seja realizado.
Geralmente, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código de programa, o código de programa sendo operativo para realizar um dos métodos quando o produto do programa de computador operar em um computador. O código de programa pode, por exemplo, ser armazenado em um suporte legivel por máquina.
Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos neste documento, armazenados em um suporte legivel por máquina.
Em outras palavras, uma aplicação do método inventivo é, portanto, um programa de computador tendo um código de programa para realizar um dos métodos descritos neste documento, quando o programa de computador operar em um computador.
Uma aplicação adicional do método inventivo é, portanto, um suporte de dados (ou um meio de armazenamento digital, ou um meio legivel por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos neste documento. O suporte de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangíveis e/ou não transitórios.
Uma aplicação adicional do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para realizar um dos métodos descritos neste documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.
Uma aplicação adicional compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado ou adaptado para realizar um dos métodos descritos neste documento.
Uma aplicação adicional compreende um computador tendo instalado nele o programa de computador para realizar um dos métodos descritos neste documento.
Uma aplicação adicional de acordo com a invenção compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletrônica ou opticamente) um programa de computador para realizar um dos métodos descritos neste documento a um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhante. O aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador ao receptor.
Em algumas aplicações, um dispositivo lógico programável (por exemplo, um arranjo de portas lógicas programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos neste documento. Em algumas aplicações, um arranjo de portas lógicas programáveis pode cooperar com um microprocessador para realizar um dos métodos descritos neste documento. Geralmente, os métodos são preferivelmente realizados por qualquer aparelho de hardware.
As aplicações descritas acima são meramente ilustrativas para os princípios da presente invenção. É entendido que as modificações e variações das disposições e os detalhes descritos aqui serão evidentes aos especialistas na técnica. É intenção, portanto, ser limitada apenas pelo escopo das reivindicações iminentes da patente e não pelos detalhes específicos apresentados para fins de descrição e explicação das aplicações do presente documento. Literatura: [1]: USAC codec (Unified Speech and Audio Codec), ISO/IEC CD 23003-3 dated September 24, 2010.
Claims (12)
1. Codificador de áudio compreende um decompositor espectral (10) para espectralmente decompor um sinal de entrada de áudio (12) utilizando uma MDCT em um espectrograma (14) de uma sequência de espectros; um computador de autocorrelação (50) configurado para computar a autocorrelação a partir de um espectro atual da sequência de espectros; um computador de coeficiente de previsão linear (52), configurado para computar os coeficientes de previsão linear com base na autocorrelação; um modelador de domínio espectral (22) configurado para modelar espectralmente o espectro atual com base nos coeficientes de previsão linear; e um estágio de quantificação (24), configurado para quantificar o espectro modelado espectralmente; caracterizado por o codificador de áudio ser configurado para inserir informação sobre o espectro quantificado modelado espectralmente e informação sobre os coeficientes de previsão linear em um fluxo de dados, em que o computador de autocorrelação é configurado para, ao computar a autocorrelação a partir do espectro atual, computar o espectro de potência a partir do espectro atual e sujeitar o espectro de potência a uma transformação ODFT inversa.
2. Codificador de áudio de acordo com a reivindicação 1, compreendendo um previsor de espectro (26) configurado para filtrar preditivamente o espectro atual ao longo de uma dimensão espectral, caracterizado por o modelador de domínio espectral ser configurado para modelar espectralmente o espectro atual preditivamente filtrado, e o codificador de áudio ser configurado para inserir informação sobre como reverter a filtragem preditiva no fluxo de dados.
3. Codificador de áudio de acordo com a reivindicação 2, caracterizado por o previsor de espectro ser configurado para realizar a filtragem por previsão linear no espectro atual ao longo da dimensão espectral, em que o fluxo anterior de dados é configurado de tal modo que a informação sobre como reverter a filtragem preditiva compreende informações sobre coeficientes adicionais de previsão linear subjacente à filtragem de previsão linear no espectro atual ao longo da dimensão espectral.
4. Codificador de áudio de acordo com a reivindicação 2 ou 3, caracterizado por o codificador de áudio ser configurado para decidir habilitar ou desabilitar o previsor de espectro, dependendo da tonalidade ou transiência do sinal de entrada de áudio ou um ganho de predição de filtro, em que o codificador de áudio é configurado para inserir informações na decisão.
5. Codificador de áudio de acordo com quaisquer das reivindicações 2 a 4, caracterizado por o computador de autocorrelação ser configurado para computar a autocorrelação a partir do espectro atual preditivamente filtrado.
6. Codificador de áudio de acordo com quaisquer das reivindicações de 2 a 5, caracterizado por o decompositor espectral (10) ser configurado para alternar entre diferentes comprimentos de transformação na decomposição espectral do sinal de entrada de áudio (12) de modo que os espectros sejam de diferentes resoluções espectrais, em que o computador de autocorrelação (50) é configurado para computar a autocorrelação do espectro atual preditivamente filtrado caso uma resolução espectral do espectro atual cumpra com um critério pré- determinado, ou a partir do espectro atual não preditivamente filtrado caso a resolução espectral do espectro atual não cumpra com o critério predeterminado.
7. Codificador de áudio de acordo com a reivindicação 6, caracterizado por o computador de autocorrelação ser configurado de tal forma que o critério pré-determinado seja cumprido se a resolução espectral do espectro atual for maior do que um limite de resolução espectral.
8. Codificador de áudio de acordo com quaisquer das reivindicações de 1 a 7, caracterizado por o computador de autocorrelação ser configurado para, ao computar a autocorrelação do espectro atual, perceptualmente ponderar o espectro de potência e sujeitar o espectro de potência a uma transformação ODFT inversa como perceptualmente ponderado.
9. Codificador de áudio de acordo com a reivindicação 8, caracterizado por o computador de autocorrelação ser configurado para mudar uma escala de frequência do espectro atual e para realizar a ponderação perceptual do espectro de potência na escala de frequência alterada.
10. Codificador de áudio de acordo com quaisquer das reivindicações de 1 a 9, caracterizado por o codificador de áudio ser configurado para inserir a informação sobre os coeficientes de previsão linear no fluxo de dados de uma forma quantificada, em que o modelador de domínio espectral é configurado para modelar espectralmente o espectro atual com base nos coeficientes de previsão linear quantificados.
11. Codificador de áudio de acordo com a reivindicação 10, caracterizado por o codificador de áudio ser configurado para inserir a informação sobre os coeficientes de previsão linear no fluxo de dados em uma forma de acordo com a qual a quantificação dos coeficientes de previsão linear ocorra no domínio LSF ou LSP.
12. Método de codificação de áudio que inclui, decomposição espectral, utilizando uma MDCT, de um sinal de entrada de áudio (12) em um espectrograma (14) de uma sequência de espectros; cálculo computacional de uma autocorrelação a partir de um espectro atual da sequência de espectros; cálculo computacional dos coeficientes de previsão linear, com base na correlação de áudio; modelagem espectral do espectro atual com base nos coeficientes de previsão linear; quantificação do espectro modelado espectralmente, e inserção das informações sobre o espectro modelado espectralmente quantificado e informação sobre os coeficientes de previsão linear em um fluxo de dados caracterizado por o cálculo computacional da autocorrelação a partir do espectro atual compreender computar o espectro de potência a partir do espectro atual e sujeitar o espectro de potência a uma transformação ODFT inversa.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161442632P | 2011-02-14 | 2011-02-14 | |
US61/442,632 | 2011-02-14 | ||
PCT/EP2012/052455 WO2012110476A1 (en) | 2011-02-14 | 2012-02-14 | Linear prediction based coding scheme using spectral domain noise shaping |
Publications (2)
Publication Number | Publication Date |
---|---|
BR112013020587A2 BR112013020587A2 (pt) | 2018-07-10 |
BR112013020587B1 true BR112013020587B1 (pt) | 2021-03-09 |
Family
ID=71943596
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR112013020592-0A BR112013020592B1 (pt) | 2011-02-14 | 2012-02-14 | Codec de áudio utilizando síntese de ruído durante fases inativas |
BR112013020587-3A BR112013020587B1 (pt) | 2011-02-14 | 2012-02-14 | esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR112013020592-0A BR112013020592B1 (pt) | 2011-02-14 | 2012-02-14 | Codec de áudio utilizando síntese de ruído durante fases inativas |
Country Status (19)
Country | Link |
---|---|
US (1) | US9595262B2 (pt) |
EP (1) | EP2676266B1 (pt) |
JP (1) | JP5625126B2 (pt) |
KR (1) | KR101617816B1 (pt) |
CN (1) | CN103477387B (pt) |
AR (1) | AR085794A1 (pt) |
AU (1) | AU2012217156B2 (pt) |
BR (2) | BR112013020592B1 (pt) |
CA (1) | CA2827277C (pt) |
ES (1) | ES2534972T3 (pt) |
HK (1) | HK1192050A1 (pt) |
MX (1) | MX2013009346A (pt) |
MY (1) | MY165853A (pt) |
PL (1) | PL2676266T3 (pt) |
RU (1) | RU2575993C2 (pt) |
SG (1) | SG192748A1 (pt) |
TW (1) | TWI488177B (pt) |
WO (1) | WO2012110476A1 (pt) |
ZA (1) | ZA201306840B (pt) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
PL2311034T3 (pl) * | 2008-07-11 | 2016-04-29 | Fraunhofer Ges Forschung | Koder i dekoder audio do kodowania ramek próbkowanego sygnału audio |
WO2011042464A1 (en) * | 2009-10-08 | 2011-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping |
EP2707873B1 (en) * | 2011-05-09 | 2015-04-08 | Dolby International AB | Method and encoder for processing a digital stereo audio signal |
CN110827841B (zh) * | 2013-01-29 | 2023-11-28 | 弗劳恩霍夫应用研究促进协会 | 音频解码器 |
MX362490B (es) | 2014-04-17 | 2019-01-18 | Voiceage Corp | Metodos codificador y decodificador para la codificacion y decodificacion predictiva lineal de señales de sonido en la transicion entre cuadros teniendo diferentes tasas de muestreo. |
CN110491402B (zh) * | 2014-05-01 | 2022-10-21 | 日本电信电话株式会社 | 周期性综合包络序列生成装置、方法、记录介质 |
EP2980798A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Harmonicity-dependent controlling of a harmonic filter tool |
US10310826B2 (en) * | 2015-11-19 | 2019-06-04 | Intel Corporation | Technologies for automatic reordering of sparse matrices |
CA3011883C (en) | 2016-01-22 | 2020-10-27 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for mdct m/s stereo with global ild to improve mid/side decision |
EP3382701A1 (en) | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using prediction based shaping |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
RU2769788C1 (ru) | 2018-07-04 | 2022-04-06 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Кодер, многосигнальный декодер и соответствующие способы с использованием отбеливания сигналов или постобработки сигналов |
US11527252B2 (en) | 2019-08-30 | 2022-12-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | MDCT M/S stereo |
AU2021306852B2 (en) | 2020-07-07 | 2024-05-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, audio encoder, and related methods using joint coding of scale parameters for channels of a multi-channel audio signal |
Family Cites Families (211)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0588932B1 (en) | 1991-06-11 | 2001-11-14 | QUALCOMM Incorporated | Variable rate vocoder |
US5408580A (en) | 1992-09-21 | 1995-04-18 | Aware, Inc. | Audio compression system employing multi-rate signal analysis |
SE501340C2 (sv) | 1993-06-11 | 1995-01-23 | Ericsson Telefon Ab L M | Döljande av transmissionsfel i en talavkodare |
BE1007617A3 (nl) | 1993-10-11 | 1995-08-22 | Philips Electronics Nv | Transmissiesysteem met gebruik van verschillende codeerprincipes. |
US5657422A (en) | 1994-01-28 | 1997-08-12 | Lucent Technologies Inc. | Voice activity detection driven noise remediator |
US5784532A (en) | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
US5684920A (en) * | 1994-03-17 | 1997-11-04 | Nippon Telegraph And Telephone | Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein |
US5568588A (en) | 1994-04-29 | 1996-10-22 | Audiocodes Ltd. | Multi-pulse analysis speech processing System and method |
CN1090409C (zh) | 1994-10-06 | 2002-09-04 | 皇家菲利浦电子有限公司 | 采用不同编码原理的传送系统 |
US5537510A (en) * | 1994-12-30 | 1996-07-16 | Daewoo Electronics Co., Ltd. | Adaptive digital audio encoding apparatus and a bit allocation method thereof |
SE506379C3 (sv) | 1995-03-22 | 1998-01-19 | Ericsson Telefon Ab L M | Lpc-talkodare med kombinerad excitation |
US5727119A (en) | 1995-03-27 | 1998-03-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase |
JP3317470B2 (ja) | 1995-03-28 | 2002-08-26 | 日本電信電話株式会社 | 音響信号符号化方法、音響信号復号化方法 |
US5754733A (en) * | 1995-08-01 | 1998-05-19 | Qualcomm Incorporated | Method and apparatus for generating and encoding line spectral square roots |
US5659622A (en) | 1995-11-13 | 1997-08-19 | Motorola, Inc. | Method and apparatus for suppressing noise in a communication system |
US5890106A (en) | 1996-03-19 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Analysis-/synthesis-filtering system with efficient oddly-stacked singleband filter bank using time-domain aliasing cancellation |
US5848391A (en) | 1996-07-11 | 1998-12-08 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method subband of coding and decoding audio signals using variable length windows |
JP3259759B2 (ja) | 1996-07-22 | 2002-02-25 | 日本電気株式会社 | 音声信号伝送方法及び音声符号復号化システム |
US5960389A (en) | 1996-11-15 | 1999-09-28 | Nokia Mobile Phones Limited | Methods for generating comfort noise during discontinuous transmission |
JPH10214100A (ja) | 1997-01-31 | 1998-08-11 | Sony Corp | 音声合成方法 |
US6134518A (en) | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
JP3223966B2 (ja) | 1997-07-25 | 2001-10-29 | 日本電気株式会社 | 音声符号化/復号化装置 |
US6070137A (en) | 1998-01-07 | 2000-05-30 | Ericsson Inc. | Integrated frequency-domain voice coding using an adaptive spectral enhancement filter |
DE69926821T2 (de) | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen |
GB9811019D0 (en) | 1998-05-21 | 1998-07-22 | Univ Surrey | Speech coders |
US6173257B1 (en) | 1998-08-24 | 2001-01-09 | Conexant Systems, Inc | Completed fixed codebook for speech encoder |
US6439967B2 (en) | 1998-09-01 | 2002-08-27 | Micron Technology, Inc. | Microelectronic substrate assembly planarizing machines and methods of mechanical and chemical-mechanical planarization of microelectronic substrate assemblies |
SE521225C2 (sv) | 1998-09-16 | 2003-10-14 | Ericsson Telefon Ab L M | Förfarande och anordning för CELP-kodning/avkodning |
US7272556B1 (en) | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US7124079B1 (en) | 1998-11-23 | 2006-10-17 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech coding with comfort noise variability feature for increased fidelity |
FI114833B (fi) | 1999-01-08 | 2004-12-31 | Nokia Corp | Menetelmä, puhekooderi ja matkaviestin puheenkoodauskehysten muodostamiseksi |
DE19921122C1 (de) | 1999-05-07 | 2001-01-25 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals |
JP4024427B2 (ja) * | 1999-05-24 | 2007-12-19 | 株式会社リコー | 線形予測係数抽出装置、線形予測係数抽出方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
CN1145928C (zh) | 1999-06-07 | 2004-04-14 | 艾利森公司 | 用参数噪声模型统计量产生舒适噪声的方法及装置 |
JP4464484B2 (ja) | 1999-06-15 | 2010-05-19 | パナソニック株式会社 | 雑音信号符号化装置および音声信号符号化装置 |
US6236960B1 (en) | 1999-08-06 | 2001-05-22 | Motorola, Inc. | Factorial packing method and apparatus for information coding |
US6636829B1 (en) | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
EP1259957B1 (en) | 2000-02-29 | 2006-09-27 | QUALCOMM Incorporated | Closed-loop multimode mixed-domain speech coder |
JP2002118517A (ja) | 2000-07-31 | 2002-04-19 | Sony Corp | 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法 |
FR2813722B1 (fr) | 2000-09-05 | 2003-01-24 | France Telecom | Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif |
US6847929B2 (en) | 2000-10-12 | 2005-01-25 | Texas Instruments Incorporated | Algebraic codebook system and method |
CA2327041A1 (en) | 2000-11-22 | 2002-05-22 | Voiceage Corporation | A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals |
US6636830B1 (en) | 2000-11-22 | 2003-10-21 | Vialta Inc. | System and method for noise reduction using bi-orthogonal modified discrete cosine transform |
US20050130321A1 (en) | 2001-04-23 | 2005-06-16 | Nicholson Jeremy K. | Methods for analysis of spectral data and their applications |
US7136418B2 (en) | 2001-05-03 | 2006-11-14 | University Of Washington | Scalable and perceptually ranked signal coding and decoding |
US7206739B2 (en) | 2001-05-23 | 2007-04-17 | Samsung Electronics Co., Ltd. | Excitation codebook search method in a speech coding system |
US20020184009A1 (en) | 2001-05-31 | 2002-12-05 | Heikkinen Ari P. | Method and apparatus for improved voicing determination in speech signals containing high levels of jitter |
US20030120484A1 (en) | 2001-06-12 | 2003-06-26 | David Wong | Method and system for generating colored comfort noise in the absence of silence insertion description packets |
DE10129240A1 (de) | 2001-06-18 | 2003-01-02 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verarbeiten von zeitdiskreten Audio-Abtastwerten |
US6879955B2 (en) | 2001-06-29 | 2005-04-12 | Microsoft Corporation | Signal modification based on continuous time warping for low bit rate CELP coding |
US7711563B2 (en) | 2001-08-17 | 2010-05-04 | Broadcom Corporation | Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
DE10140507A1 (de) | 2001-08-17 | 2003-02-27 | Philips Corp Intellectual Pty | Verfahren für die algebraische Codebook-Suche eines Sprachsignalkodierers |
KR100438175B1 (ko) | 2001-10-23 | 2004-07-01 | 엘지전자 주식회사 | 코드북 검색방법 |
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
CA2365203A1 (en) | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
US6934677B2 (en) | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
DE10200653B4 (de) | 2002-01-10 | 2004-05-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Skalierbarer Codierer, Verfahren zum Codieren, Decodierer und Verfahren zum Decodieren für einen skalierten Datenstrom |
CA2388439A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
CA2388358A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for multi-rate lattice vector quantization |
CA2388352A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for frequency-selective pitch enhancement of synthesized speed |
US7302387B2 (en) | 2002-06-04 | 2007-11-27 | Texas Instruments Incorporated | Modification of fixed codebook search in G.729 Annex E audio coding |
US20040010329A1 (en) | 2002-07-09 | 2004-01-15 | Silicon Integrated Systems Corp. | Method for reducing buffer requirements in a digital audio decoder |
DE10236694A1 (de) | 2002-08-09 | 2004-02-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren |
US7299190B2 (en) | 2002-09-04 | 2007-11-20 | Microsoft Corporation | Quantization and inverse quantization for audio |
US7502743B2 (en) | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
ES2259158T3 (es) * | 2002-09-19 | 2006-09-16 | Matsushita Electric Industrial Co., Ltd. | Metodo y aparato decodificador audio. |
WO2004034379A2 (en) | 2002-10-11 | 2004-04-22 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
US7343283B2 (en) | 2002-10-23 | 2008-03-11 | Motorola, Inc. | Method and apparatus for coding a noise-suppressed audio signal |
US7363218B2 (en) | 2002-10-25 | 2008-04-22 | Dilithium Networks Pty. Ltd. | Method and apparatus for fast CELP parameter mapping |
KR100463559B1 (ko) | 2002-11-11 | 2004-12-29 | 한국전자통신연구원 | 대수 코드북을 이용하는 켈프 보코더의 코드북 검색방법 |
KR100463419B1 (ko) | 2002-11-11 | 2004-12-23 | 한국전자통신연구원 | 적은 복잡도를 가진 고정 코드북 검색방법 및 장치 |
KR100465316B1 (ko) | 2002-11-18 | 2005-01-13 | 한국전자통신연구원 | 음성 부호화기 및 이를 이용한 음성 부호화 방법 |
KR20040058855A (ko) | 2002-12-27 | 2004-07-05 | 엘지전자 주식회사 | 음성 변조 장치 및 방법 |
US7876966B2 (en) | 2003-03-11 | 2011-01-25 | Spyder Navigations L.L.C. | Switching between coding schemes |
US7249014B2 (en) | 2003-03-13 | 2007-07-24 | Intel Corporation | Apparatus, methods and articles incorporating a fast algebraic codebook search technique |
US20050021338A1 (en) | 2003-03-17 | 2005-01-27 | Dan Graboi | Recognition device and system |
KR100556831B1 (ko) | 2003-03-25 | 2006-03-10 | 한국전자통신연구원 | 전역 펄스 교체를 통한 고정 코드북 검색 방법 |
WO2004090870A1 (ja) | 2003-04-04 | 2004-10-21 | Kabushiki Kaisha Toshiba | 広帯域音声を符号化または復号化するための方法及び装置 |
DE10321983A1 (de) | 2003-05-15 | 2004-12-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Einbetten einer binären Nutzinformation in ein Trägersignal |
WO2005001814A1 (en) | 2003-06-30 | 2005-01-06 | Koninklijke Philips Electronics N.V. | Improving quality of decoded audio by adding noise |
DE10331803A1 (de) | 2003-07-14 | 2005-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Umsetzen in eine transformierte Darstellung oder zum inversen Umsetzen der transformierten Darstellung |
US7565286B2 (en) | 2003-07-17 | 2009-07-21 | Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry, Through The Communications Research Centre Canada | Method for recovery of lost speech data |
DE10345995B4 (de) | 2003-10-02 | 2005-07-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten |
DE10345996A1 (de) | 2003-10-02 | 2005-04-28 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten |
US7418396B2 (en) | 2003-10-14 | 2008-08-26 | Broadcom Corporation | Reduced memory implementation technique of filterbank and block switching for real-time audio applications |
US20050091044A1 (en) | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
US20050091041A1 (en) | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for speech coding |
US20080249765A1 (en) | 2004-01-28 | 2008-10-09 | Koninklijke Philips Electronic, N.V. | Audio Signal Decoding Using Complex-Valued Data |
ES2509292T3 (es) | 2004-02-12 | 2014-10-17 | Core Wireless Licensing S.à.r.l. | Calidad de medios clasificada de una experiencia |
DE102004007200B3 (de) | 2004-02-13 | 2005-08-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audiocodierung |
CA2457988A1 (en) | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
FI118835B (fi) | 2004-02-23 | 2008-03-31 | Nokia Corp | Koodausmallin valinta |
FI118834B (fi) | 2004-02-23 | 2008-03-31 | Nokia Corp | Audiosignaalien luokittelu |
JP4744438B2 (ja) | 2004-03-05 | 2011-08-10 | パナソニック株式会社 | エラー隠蔽装置およびエラー隠蔽方法 |
WO2005096274A1 (fr) * | 2004-04-01 | 2005-10-13 | Beijing Media Works Co., Ltd | Dispositif et procede de codage/decodage audio ameliores |
GB0408856D0 (en) | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
DE602004025517D1 (de) | 2004-05-17 | 2010-03-25 | Nokia Corp | Audiocodierung mit verschiedenen codierungsrahmenlängen |
JP4168976B2 (ja) | 2004-05-28 | 2008-10-22 | ソニー株式会社 | オーディオ信号符号化装置及び方法 |
US7649988B2 (en) | 2004-06-15 | 2010-01-19 | Acoustic Technologies, Inc. | Comfort noise generator using modified Doblinger noise estimate |
US8160274B2 (en) | 2006-02-07 | 2012-04-17 | Bongiovi Acoustics Llc. | System and method for digital signal processing |
US7630902B2 (en) | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
KR100656788B1 (ko) | 2004-11-26 | 2006-12-12 | 한국전자통신연구원 | 비트율 신축성을 갖는 코드벡터 생성 방법 및 그를 이용한 광대역 보코더 |
CA2596341C (en) | 2005-01-31 | 2013-12-03 | Sonorit Aps | Method for concatenating frames in communication system |
EP1845520A4 (en) | 2005-02-02 | 2011-08-10 | Fujitsu Ltd | SIGNAL PROCESSING METHOD AND SIGNAL PROCESSING DEVICE |
US20070147518A1 (en) | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
US8155965B2 (en) | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
US7707034B2 (en) | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
RU2296377C2 (ru) | 2005-06-14 | 2007-03-27 | Михаил Николаевич Гусев | Способ анализа и синтеза речи |
WO2006136901A2 (en) | 2005-06-18 | 2006-12-28 | Nokia Corporation | System and method for adaptive transmission of comfort noise parameters during discontinuous speech transmission |
FR2888699A1 (fr) | 2005-07-13 | 2007-01-19 | France Telecom | Dispositif de codage/decodage hierachique |
KR100851970B1 (ko) * | 2005-07-15 | 2008-08-12 | 삼성전자주식회사 | 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
US7610197B2 (en) | 2005-08-31 | 2009-10-27 | Motorola, Inc. | Method and apparatus for comfort noise generation in speech communication systems |
RU2312405C2 (ru) | 2005-09-13 | 2007-12-10 | Михаил Николаевич Гусев | Способ осуществления машинной оценки качества звуковых сигналов |
US20070174047A1 (en) | 2005-10-18 | 2007-07-26 | Anderson Kyle D | Method and apparatus for resynchronizing packetized audio streams |
US7720677B2 (en) | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
US8255207B2 (en) | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
WO2007080211A1 (en) | 2006-01-09 | 2007-07-19 | Nokia Corporation | Decoding of binaural audio signals |
TWI333643B (en) * | 2006-01-18 | 2010-11-21 | Lg Electronics Inc | Apparatus and method for encoding and decoding signal |
CN101371296B (zh) | 2006-01-18 | 2012-08-29 | Lg电子株式会社 | 用于编码和解码信号的设备和方法 |
US8032369B2 (en) | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
FR2897733A1 (fr) | 2006-02-20 | 2007-08-24 | France Telecom | Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant |
FR2897977A1 (fr) | 2006-02-28 | 2007-08-31 | France Telecom | Procede de limitation de gain d'excitation adaptative dans un decodeur audio |
EP1852848A1 (en) | 2006-05-05 | 2007-11-07 | Deutsche Thomson-Brandt GmbH | Method and apparatus for lossless encoding of a source signal using a lossy encoded data stream and a lossless extension data stream |
DE602007003023D1 (de) * | 2006-05-30 | 2009-12-10 | Koninkl Philips Electronics Nv | Linear-prädiktive codierung eines audiosignals |
US7959940B2 (en) | 2006-05-30 | 2011-06-14 | Advanced Cardiovascular Systems, Inc. | Polymer-bioceramic composite implantable medical devices |
JP4810335B2 (ja) | 2006-07-06 | 2011-11-09 | 株式会社東芝 | 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置 |
US8812306B2 (en) | 2006-07-12 | 2014-08-19 | Panasonic Intellectual Property Corporation Of America | Speech decoding and encoding apparatus for lost frame concealment using predetermined number of waveform samples peripheral to the lost frame |
WO2008007700A1 (fr) | 2006-07-12 | 2008-01-17 | Panasonic Corporation | Dispositif de décodage de son, dispositif de codage de son, et procédé de compensation de trame perdue |
US7933770B2 (en) | 2006-07-14 | 2011-04-26 | Siemens Audiologische Technik Gmbh | Method and device for coding audio data based on vector quantisation |
CN102096937B (zh) | 2006-07-24 | 2014-07-09 | 索尼株式会社 | 毛发运动合成器系统和用于毛发/皮毛流水线的优化技术 |
US7987089B2 (en) | 2006-07-31 | 2011-07-26 | Qualcomm Incorporated | Systems and methods for modifying a zero pad region of a windowed frame of an audio signal |
KR101040160B1 (ko) | 2006-08-15 | 2011-06-09 | 브로드콤 코포레이션 | 패킷 손실 후의 제한되고 제어된 디코딩 |
US7877253B2 (en) | 2006-10-06 | 2011-01-25 | Qualcomm Incorporated | Systems, methods, and apparatus for frame erasure recovery |
US8126721B2 (en) | 2006-10-18 | 2012-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
US8041578B2 (en) | 2006-10-18 | 2011-10-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
DE102006049154B4 (de) | 2006-10-18 | 2009-07-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kodierung eines Informationssignals |
US8036903B2 (en) | 2006-10-18 | 2011-10-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system |
US8417532B2 (en) | 2006-10-18 | 2013-04-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
USRE50132E1 (en) | 2006-10-25 | 2024-09-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples |
DE102006051673A1 (de) | 2006-11-02 | 2008-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale |
ATE547898T1 (de) | 2006-12-12 | 2012-03-15 | Fraunhofer Ges Forschung | Kodierer, dekodierer und verfahren zur kodierung und dekodierung von datensegmenten zur darstellung eines zeitdomänen-datenstroms |
FR2911228A1 (fr) | 2007-01-05 | 2008-07-11 | France Telecom | Codage par transformee, utilisant des fenetres de ponderation et a faible retard. |
KR101379263B1 (ko) | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
FR2911426A1 (fr) | 2007-01-15 | 2008-07-18 | France Telecom | Modification d'un signal de parole |
US7873064B1 (en) | 2007-02-12 | 2011-01-18 | Marvell International Ltd. | Adaptive jitter buffer-packet loss concealment |
SG179433A1 (en) | 2007-03-02 | 2012-04-27 | Panasonic Corp | Encoding device and encoding method |
JP4708446B2 (ja) | 2007-03-02 | 2011-06-22 | パナソニック株式会社 | 符号化装置、復号装置およびそれらの方法 |
JP5596341B2 (ja) | 2007-03-02 | 2014-09-24 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声符号化装置および音声符号化方法 |
DE102007013811A1 (de) | 2007-03-22 | 2008-09-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zur zeitlichen Segmentierung eines Videos in Videobildfolgen und zur Auswahl von Keyframes für das Auffinden von Bildinhalten unter Einbeziehung einer Subshot-Detektion |
JP2008261904A (ja) | 2007-04-10 | 2008-10-30 | Matsushita Electric Ind Co Ltd | 符号化装置、復号化装置、符号化方法および復号化方法 |
US8630863B2 (en) | 2007-04-24 | 2014-01-14 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding audio/speech signal |
EP2827327B1 (en) | 2007-04-29 | 2020-07-29 | Huawei Technologies Co., Ltd. | Method for Excitation Pulse Coding |
CN101388210B (zh) | 2007-09-15 | 2012-03-07 | 华为技术有限公司 | 编解码方法及编解码器 |
MX2009013519A (es) | 2007-06-11 | 2010-01-18 | Fraunhofer Ges Forschung | Codificador de audio para codificar una señal de audio que tiene una porcion similar a un impulso y una porcion estacionaria, metodos de codificacion, decodificador, metodo de decodificacion, y señal de audio codificada. |
US9653088B2 (en) | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
KR101513028B1 (ko) | 2007-07-02 | 2015-04-17 | 엘지전자 주식회사 | 방송 수신기 및 방송신호 처리방법 |
US8185381B2 (en) | 2007-07-19 | 2012-05-22 | Qualcomm Incorporated | Unified filter bank for performing signal conversions |
CN101110214B (zh) | 2007-08-10 | 2011-08-17 | 北京理工大学 | 一种基于多描述格型矢量量化技术的语音编码方法 |
US8428957B2 (en) * | 2007-08-24 | 2013-04-23 | Qualcomm Incorporated | Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands |
MX2010001763A (es) | 2007-08-27 | 2010-03-10 | Ericsson Telefon Ab L M | Analisis/sintesis espectral de baja complejidad utilizando la resolucion temporal seleccionable. |
JP4886715B2 (ja) | 2007-08-28 | 2012-02-29 | 日本電信電話株式会社 | 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体 |
JP5264913B2 (ja) | 2007-09-11 | 2013-08-14 | ヴォイスエイジ・コーポレーション | 話声およびオーディオの符号化における、代数符号帳の高速検索のための方法および装置 |
CN100524462C (zh) | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
US8576096B2 (en) | 2007-10-11 | 2013-11-05 | Motorola Mobility Llc | Apparatus and method for low complexity combinatorial coding of signals |
KR101373004B1 (ko) | 2007-10-30 | 2014-03-26 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 장치 및 방법 |
CN101425292B (zh) | 2007-11-02 | 2013-01-02 | 华为技术有限公司 | 一种音频信号的解码方法及装置 |
DE102007055830A1 (de) | 2007-12-17 | 2009-06-18 | Zf Friedrichshafen Ag | Verfahren und Vorrichtung zum Betrieb eines Hybridantriebes eines Fahrzeuges |
CN101483043A (zh) | 2008-01-07 | 2009-07-15 | 中兴通讯股份有限公司 | 基于分类和排列组合的码本索引编码方法 |
CN101488344B (zh) | 2008-01-16 | 2011-09-21 | 华为技术有限公司 | 一种量化噪声泄漏控制方法及装置 |
DE102008015702B4 (de) | 2008-01-31 | 2010-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals |
KR101253278B1 (ko) | 2008-03-04 | 2013-04-11 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 복수의 입력 데이터 스트림을 믹싱하는 장치 및 방법 |
US8000487B2 (en) | 2008-03-06 | 2011-08-16 | Starkey Laboratories, Inc. | Frequency translation by high-frequency spectral envelope warping in hearing assistance devices |
FR2929466A1 (fr) | 2008-03-28 | 2009-10-02 | France Telecom | Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique |
EP2107556A1 (en) | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
US8768690B2 (en) | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
MX2011000375A (es) | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
MY152252A (en) | 2008-07-11 | 2014-09-15 | Fraunhofer Ges Forschung | Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme |
CN103000178B (zh) | 2008-07-11 | 2015-04-08 | 弗劳恩霍夫应用研究促进协会 | 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码 |
ES2683077T3 (es) | 2008-07-11 | 2018-09-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada |
MY154452A (en) | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
MY159110A (en) | 2008-07-11 | 2016-12-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V | Audio encoder and decoder for encoding and decoding audio samples |
US8352279B2 (en) | 2008-09-06 | 2013-01-08 | Huawei Technologies Co., Ltd. | Efficient temporal envelope coding approach by prediction between low band signal and high band signal |
US8380498B2 (en) | 2008-09-06 | 2013-02-19 | GH Innovation, Inc. | Temporal envelope coding of energy attack signal by using attack point location |
US8577673B2 (en) | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
DE102008042579B4 (de) | 2008-10-02 | 2020-07-23 | Robert Bosch Gmbh | Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten |
CN102177426B (zh) | 2008-10-08 | 2014-11-05 | 弗兰霍菲尔运输应用研究公司 | 多分辨率切换音频编码/解码方案 |
KR101315617B1 (ko) | 2008-11-26 | 2013-10-08 | 광운대학교 산학협력단 | 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기 |
CN101770775B (zh) | 2008-12-31 | 2011-06-22 | 华为技术有限公司 | 信号处理方法及装置 |
EP2380172B1 (en) | 2009-01-16 | 2013-07-24 | Dolby International AB | Cross product enhanced harmonic transposition |
US8457975B2 (en) | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
KR101316979B1 (ko) | 2009-01-28 | 2013-10-11 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 코딩 |
EP2214165A3 (en) | 2009-01-30 | 2010-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for manipulating an audio signal comprising a transient event |
PL2234103T3 (pl) | 2009-03-26 | 2012-02-29 | Fraunhofer Ges Forschung | Urządzenie i sposób manipulacji sygnałem audio |
KR20100115215A (ko) | 2009-04-17 | 2010-10-27 | 삼성전자주식회사 | 가변 비트율 오디오 부호화 및 복호화 장치 및 방법 |
CA2763793C (en) | 2009-06-23 | 2017-05-09 | Voiceage Corporation | Forward time-domain aliasing cancellation with application in weighted or original signal domain |
JP5267362B2 (ja) | 2009-07-03 | 2013-08-21 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 |
CN101958119B (zh) | 2009-07-16 | 2012-02-29 | 中兴通讯股份有限公司 | 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法 |
US8635357B2 (en) | 2009-09-08 | 2014-01-21 | Google Inc. | Dynamic selection of parameter sets for transcoding media data |
BR112012009490B1 (pt) | 2009-10-20 | 2020-12-01 | Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. | ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados |
TWI435317B (zh) | 2009-10-20 | 2014-04-21 | Fraunhofer Ges Forschung | 音訊信號編碼器、音訊信號解碼器、用以提供音訊內容之編碼表示型態之方法、用以提供音訊內容之解碼表示型態之方法及使用於低延遲應用之電腦程式 |
EP4362014A1 (en) | 2009-10-20 | 2024-05-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation |
CN102081927B (zh) | 2009-11-27 | 2012-07-18 | 中兴通讯股份有限公司 | 一种可分层音频编码、解码方法及系统 |
US8428936B2 (en) | 2010-03-05 | 2013-04-23 | Motorola Mobility Llc | Decoder for audio signal including generic audio and speech frames |
US8423355B2 (en) | 2010-03-05 | 2013-04-16 | Motorola Mobility Llc | Encoder for audio signal including generic audio and speech frames |
CN103069484B (zh) | 2010-04-14 | 2014-10-08 | 华为技术有限公司 | 时/频二维后处理 |
TW201214415A (en) | 2010-05-28 | 2012-04-01 | Fraunhofer Ges Forschung | Low-delay unified speech and audio codec |
SG192746A1 (en) | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Apparatus and method for processing a decoded audio signal in a spectral domain |
AR085895A1 (es) | 2011-02-14 | 2013-11-06 | Fraunhofer Ges Forschung | Generacion de ruido en codecs de audio |
EP2721610A1 (en) | 2011-11-25 | 2014-04-23 | Huawei Technologies Co., Ltd. | An apparatus and a method for encoding an input signal |
-
2012
- 2012-02-14 ES ES12705820.4T patent/ES2534972T3/es active Active
- 2012-02-14 WO PCT/EP2012/052455 patent/WO2012110476A1/en active Application Filing
- 2012-02-14 MY MYPI2013002982A patent/MY165853A/en unknown
- 2012-02-14 MX MX2013009346A patent/MX2013009346A/es active IP Right Grant
- 2012-02-14 BR BR112013020592-0A patent/BR112013020592B1/pt active IP Right Grant
- 2012-02-14 JP JP2013553901A patent/JP5625126B2/ja active Active
- 2012-02-14 PL PL12705820T patent/PL2676266T3/pl unknown
- 2012-02-14 SG SG2013061387A patent/SG192748A1/en unknown
- 2012-02-14 AR ARP120100477A patent/AR085794A1/es active IP Right Grant
- 2012-02-14 AU AU2012217156A patent/AU2012217156B2/en active Active
- 2012-02-14 EP EP12705820.4A patent/EP2676266B1/en active Active
- 2012-02-14 KR KR1020137024237A patent/KR101617816B1/ko active IP Right Grant
- 2012-02-14 BR BR112013020587-3A patent/BR112013020587B1/pt active IP Right Grant
- 2012-02-14 RU RU2013142133/08A patent/RU2575993C2/ru active
- 2012-02-14 CA CA2827277A patent/CA2827277C/en active Active
- 2012-02-14 CN CN201280018265.3A patent/CN103477387B/zh active Active
- 2012-02-14 TW TW101104673A patent/TWI488177B/zh active
-
2013
- 2013-08-14 US US13/966,601 patent/US9595262B2/en active Active
- 2013-09-11 ZA ZA2013/06840A patent/ZA201306840B/en unknown
-
2014
- 2014-06-09 HK HK14105388.3A patent/HK1192050A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
RU2013142133A (ru) | 2015-03-27 |
EP2676266A1 (en) | 2013-12-25 |
BR112013020592B1 (pt) | 2021-06-22 |
KR101617816B1 (ko) | 2016-05-03 |
US9595262B2 (en) | 2017-03-14 |
BR112013020592A2 (pt) | 2016-10-18 |
KR20130133848A (ko) | 2013-12-09 |
JP5625126B2 (ja) | 2014-11-12 |
CN103477387B (zh) | 2015-11-25 |
AU2012217156A1 (en) | 2013-08-29 |
WO2012110476A1 (en) | 2012-08-23 |
AU2012217156B2 (en) | 2015-03-19 |
BR112013020587A2 (pt) | 2018-07-10 |
MY165853A (en) | 2018-05-18 |
ZA201306840B (en) | 2014-05-28 |
AR085794A1 (es) | 2013-10-30 |
US20130332153A1 (en) | 2013-12-12 |
CA2827277C (en) | 2016-08-30 |
HK1192050A1 (en) | 2014-08-08 |
EP2676266B1 (en) | 2015-03-11 |
ES2534972T3 (es) | 2015-04-30 |
RU2575993C2 (ru) | 2016-02-27 |
SG192748A1 (en) | 2013-09-30 |
CN103477387A (zh) | 2013-12-25 |
TW201246189A (en) | 2012-11-16 |
MX2013009346A (es) | 2013-10-01 |
TWI488177B (zh) | 2015-06-11 |
JP2014510306A (ja) | 2014-04-24 |
CA2827277A1 (en) | 2012-08-23 |
PL2676266T3 (pl) | 2015-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BR112013020587B1 (pt) | esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral | |
KR101792712B1 (ko) | 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조 | |
JP6086999B2 (ja) | ハーモニクス低減を使用して第1符号化アルゴリズムと第2符号化アルゴリズムの一方を選択する装置及び方法 | |
BR112012009490B1 (pt) | ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados | |
AU2013283568B2 (en) | Linear prediction based audio coding using improved probability distribution estimation | |
BR112012026324B1 (pt) | Codificador de aúdio ou vídeo, decodificador de aúdio ou vídeo e métodos relacionados para o processamento do sinal de aúdio ou vídeo de múltiplos canais usando uma direção de previsão variável | |
KR20090083070A (ko) | 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치 | |
JP6148810B2 (ja) | 第1の符号化アルゴリズム及び第2の符号化アルゴリズムのうちの1つを選択するための装置及び方法 | |
CA2914418C (en) | Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding | |
CA2914771C (en) | Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B15I | Others concerning applications: loss of priority | ||
B151 | Others concerning applications: resolution cancelled | ||
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 14/02/2012, OBSERVADAS AS CONDICOES LEGAIS. |