BR112012009490B1 - ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados - Google Patents

ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados Download PDF

Info

Publication number
BR112012009490B1
BR112012009490B1 BR112012009490-4A BR112012009490A BR112012009490B1 BR 112012009490 B1 BR112012009490 B1 BR 112012009490B1 BR 112012009490 A BR112012009490 A BR 112012009490A BR 112012009490 B1 BR112012009490 B1 BR 112012009490B1
Authority
BR
Brazil
Prior art keywords
gain
excitation
subset
bit stream
frames
Prior art date
Application number
BR112012009490-4A
Other languages
English (en)
Other versions
BR112012009490A2 (pt
Inventor
Ralf Geiger
Guillaume Fuchs
Markus Multrus
Bernhard Grill
Original Assignee
Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. filed Critical Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V.
Publication of BR112012009490A2 publication Critical patent/BR112012009490A2/pt
Publication of BR112012009490B1 publication Critical patent/BR112012009490B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

CODEC DE ÁUDIO MULTIMODO E CODIFICAÇÃO ADAPTADO CELP DO MESMO. A presente invenção refere- se a elementos de fluxo contínuo de subquadros que são codificados diferencialmente a um valor do ganho global para que uma mudança do valor do ganho global dos resultados dos quadros em um ajuste de um nível de saída da representação decodificada do conteúdo do áudio. Ao mesmo tempo, a condição diferencial salva bits de outro modo correndo quando introduz um novo elemento de sintaxe em um fluxo contínuo codificado. Ainda mais, a condição diferencial permite a redução de carga de ajuste global do ganho de um fluxo contínuo codificado permitindo a resolução de tempo na definição do valor do ganho global para ser menor que a resolução de tempo em que o elemento de fluxo contínuo acima mencionado diferencialmente codificado para o valor de o ganho global ajusta o ganho dos respectivos subquadros. De acordo com outro aspecto, um controle do ganho global através dos quadros codificados CELP e a transformação dos quadros codificados é alcançada através do controle do ganho da excitação do livro de códigos do codec CELP, junto com um nível da transformação ou transformação inversa da transformação dos quadros codificados. De (...).

Description

Descrição
[001] A presente invenção refere-se à codificação de áudio multimodo tal como uma expressão unificada e codec de áudio ou um codec adaptado para sinais de áudio geral tais como uma música, expressão, misturado e outros sinais, e um esquema de codificação CELP adaptado ao mesmo.
[002] É favorável para misturar modos de codificação misturados a fim de codificar sinais de áudio geral representando uma mistura de sinais de áudio de diferentes tipos tais como expressão, música, ou o similar. Os modos de codificação individual podem ser adaptados para particulares tipos de áudio, e assim, um codificador de áudio multimodo pode tirar vantagem de mudanças do modo de codificação ao longo do tempo correspondente à mudança do tipo de conteúdo áudio. Em outras palavras, o codificador de áudio multimodo pode decidir, por exemplo, para codificar porções de sinais de áudio tendo conteúdo de expressão usando um modo de codificação especialmente dedicado para codificação de expressão, e para usar outro modo (s) de codificação a fim de codificar diferentes porções do conteúdo de áudio representando conteúdo de não expressão tal como música. Modos de codificação de prevenção linear tendem a ser mais adequados para conteúdo de codificação de expressão, enquanto que nos modos de codificação do domínio da frequência tendem a superar modos de codificação de prevenção linear até que a codificação da música é relacionada.
[003] Entretanto, usando modos de codificação misturados torna difícil para ajustar globalmente o ganho dentro de um fluxo de bits codificados ou, para ser mais preciso o ganho da representação decodificada do conteúdo de áudio de um fluxo de bits codificados sem ter que realmente decodificar o fluxo de bits codificados e então a recodificação da representação decodificada do ganho ajustado novamente, que desviaria necessariamente a diminuição da qualidade do fluxo de bits do ganho ajustado devido a quantificações realizadas na recodificação da representação do ganho ajustado decodificado.
[004] Por exemplo, em AAC, um ajuste do nível de saída por facilmente ser alcançado no nível de fluxo de bits através de mudanças do valor do campo de 8 bits "ganho global". Este elemento de fluxo de bits pode simplesmente ser passado e editado, sem a necessidade de decodificação completa e recodificação. Assim, este processo não introduz qualquer degradação da qualidade e pode ser desfeita sem perdas. Existem aplicações que realmente fazem uso dessa opção. Por exemplo, existe um software gratuito chamado "ganho AAC" [ganho AAC] que aplica exatamente o método recém- descrito. Este software é um derivado do software gratuito "ganho MP3", que aplica a mesma técnica para MPEG1/2 camada 3.
[005] No codec USAC recém-emergente, o modo de codificação FD tem herdado o ganho global de 8-bit a partir do AAC. Assim, se USAC executado um modo FD apenas, tais como para taxas de bits mais altas, a funcionalidade do ajuste do nível seria totalmente preservada, quando comparada ao AAC. Entretanto, assim que as transições de modo são admitidas, esta possibilidade não está mais presente. No modo TCX, por exemplo, existe também um elemento de fluxo de bits que a mesma funcionalidade também chamada "ganho global", que tem um comprimento de apenas 7-bits. Em outras palavras, o número de bits para codificação dos elementos globais individuais dos modos individuais é primeiramente adaptado ao respectivo modo de codificação a fim de alcançar uma melhor compensação entre despesa menor de bits para controle do ganho por um lado, e evitando por outro lado uma degradação da qualidade devido a uma quantificação muito grossa da ajustabilidade do ganho. Obviamente, esta compensação resultou em um número diferente de bits quando comparando o TCX e o modo FD. No modo ACELP do padrão USAC atualmente emergente, o nível pode ser controlado através de um elemento de fluxo de bits "energia média", que tem um comprimento de 2-bits. Novamente, obviamente a compensação entre muitos bits para energia média e bits menores para energia média resultou em um número diferente de bits do que em comparação a outros modos de codificação, nomeadamente modo de codificação TCX e FD.
[006] Assim, até agora, ajustar globalmente o ganho de uma representação decodificada de um fluxo de bits codificados por codificação multimodo, é incômodo e tende a diminuição da qualidade. Qualquer decodificação seguida por ajuste de ganho e recodificação é para ser realizada, ou o ajuste do nível de intensidade tem de ser realizado heuristicamente meramente adaptando o respectivo elemento de fluxo de bits dos diferentes modos influenciando o ganho dos respectivos diferentes modos de porções de codificação do fluxo contínuo de dados. Entretanto, a última possibilidade é muito provável para introduzir artefatos na representação decodificada de ganho ajustado.
[007] Assim, é um objeto da presente invenção para fornecer um codec de áudio multimodo permitindo ajuste de ganho global sem o desvio de decodificação e recodificação em penalidades moderadas em termos de qualidade e taxa de compressão, e um codec CELP adequado sendo incorporado em codificação de áudio multimodo como a realização de propriedades similares.
[008] Este objetivo é alcançado pelos sujeitos das reivindicações independentes anexadas deste modo.
[009] De acordo com um primeiro aspecto da presente invenção, os inventores da presente aplicação realizada que o problema encontrado quando tentam harmonizar o ajuste de ganho global através dos modos de codificação misturado decorre do fato de que os modos de codificação misturados têm diferentes tamanhos de quadros e são diferentemente decomposto em subquadros. De acordo com o primeiro aspecto da presente aplicação, essa dificuldade é superada se a codificação elemento de fluxo de bits de subquadros diferencialmente para o valor do ganho global para que uma mudança do valor do ganho global dos resultados dos quadros em um ajuste de um nível de saída da representação decodificada do conteúdo do áudio. Ao mesmo tempo, a condição diferencial salva bits de outro modo ocorrendo quando a introdução de um novo elemento de sintaxe em um fluxo de bits codificados. Ainda mais, a condição diferencial permite a redução da carga do ajuste globalmente do ganho de um fluxo de bits codificados permitindo a resolução de tempo na definição do valor do ganho global para ser menor que a resolução de tempo em que o elemento de fluxo de bits acima mencionado diferencialmente codificado para o valor do ganho global ajusta o ganho dos respectivos do subquadro.
[0010] Portanto, de acordo com um primeiro aspecto da presente aplicação, um decodificador de áudio multimodo para fornecer uma representação do decodificador de um conteúdo de áudio com base em um fluxo de bits codificados é configurado para decodificar um valor do ganho global por quadro do fluxo de bits codificados, um primeiro subconjunto dos quadros sendo codificado em um primeiro modo de codificação e um segundo subconjunto de quadros sendo codificado em um segundo modo de codificação, com cada quadro do segundo subconjunto sendo composto de mais que um subquadro, decodificar, por subquadro de pelo menos um subconjunto dos subquadros do segundo subconjunto de quadros, um elemento de fluxo de bits correspondente diferencial para o valor do ganho global dos respectivos quadros, e decodificação completa do fluxo de bits usando o valor do ganho global e o elemento de fluxo de bits correspondente e a decodificação dos subquadros de pelo menos um subconjunto dos subquadros do segundo subconjunto dos quadros e o valor do ganho global na decodificação do primeiro subconjunto de quadros, em que o decodificar de áudio multi-código é configurado tal que uma mudança do valor do ganho global dos quadros dentro do resultado do fluxo de bits codificados em um ajuste de um nível de saída da representação do decodificador do conteúdo do áudio. Um codificador de áudio multimodo é de acordo com esse primeiro aspecto, configurado para codificar um conteúdo de áudio em um fluxo de bits codificados com uma codificação de um primeiro subconjunto de subquadros em um primeiro modo de codificação e um segundo subconjunto de quadros no segundo modo de codificação, quando o segundo subconjunto de quadros são composto de uma ou mais subquadros, quando o codificador de áudio multimodo é configurado para determinar e codificar um valor do ganho global por quadros, e determinar e codificar, os subquadros de pelo menos um subconjunto dos subquadros do segundo subconjunto, um elemento de fluxo de bits correspondente diferencial para o valor do ganho global dos respectivos quadros, onde o codificador de áudio multimodo é configurado de modo que uma mudança do valor do ganho global dos quadros dentro do resultado do fluxo de bits codificados em um ajuste de um nível de saída de uma representação decodificada do conteúdo de áudio no lado da decodificação.
[0011] De acordo com um segundo aspecto da presente aplicação, os inventores da presente aplicação descobriram que um controle do ganho global através dos quadros codificados CELP e transformação dos quadros codificados podem ser alcançados através da manutenção das vantagens acima delineadas, se o ganho da excitação do livro de códigos do codec CELP é co-controlado junto com um nível da transformação ou transformação inversa da transformação dos quadros codificados. Certamente, tais co- utilizações podem ser realizadas através da codificação diferencial.
[0012] Portanto, um decodificador de áudio multimodo para fornecer uma representação decodificada de um conteúdo de áudio com base de um fluxo de bits codificados, um primeiro subconjunto de quadros dos que é CELP codificado e um segundo subconjunto de quadros dos que são transformações codificadas, compreende, de acordo com o segundo aspecto, um decodificador CELP configurado para decodificar um quadro atual do primeiro subconjunto, do decodificador CELP compreendendo um gerador de excitação configurado para gerar uma excitação atual de um quadro atual do primeiro subconjunto através da construção de uma excitação do livro de códigos, com base em uma excitação passada e índice do livro de códigos do quadro atual do primeiro subconjunto dentro do fluxo de bits codificados, e a definição de um ganho da excitação do livro de códigos com base no valor do ganho global dentro do fluxo de bits codificados; e um filtro de síntese da previsão linear configurado para filtrar a excitação atual com base em um coeficiente dos filtros de previsão linear para o quadro atual do primeiro subconjunto dentro do fluxo de bits codificados, e um decodificador de transformação configurado para decodificar um quadro atual do segundo subconjunto através de informação espectral da construção para o quadro atual do segundo subconjunto a partir do fluxo de bits codificados e formação de uma transformação do tempo espectral-a-domínio da transformação espectral para obter um sinal de domínio de tempo de modo que um nível do sinal de domínio de tempo depende do valor do ganho global.
[0013] Também, um codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo codificado por codificação CELP de um primeiro subconjunto de quadros do conteúdo de áudio e transformação da codificação de um segundo subconjunto de quadros compreende, de acordo com o segundo aspecto, um codificador CELP configurado para codificar um quadro atual do primeiro subconjunto, o codificador CELP compreendendo um analisador de previsão linear configurado para gerar coeficientes dos filtros de previsão linear para o quadro atual do primeiro subconjunto e codificar o mesmo no fluxo de bits codificados, e um gerador de excitação configurado para determinar uma excitação atual do quadro atual do primeiro subconjunto que, quando filtrado por um filtro de síntese da previsão linear com base nos coeficientes dos filtros de previsão linear dentro do fluxo de bits codificados recuperar um quadro atual do primeiro subconjunto, através da construção da excitação do livro de códigos com base em uma excitação passada e um índice do livro de códigos para o quadro atual do primeiro subconjunto, e uma transformação codificada configurada para codificar um quadro atual do segundo subconjunto através da realização de uma transformação no transformação espectral tempo-para-domínio para um sinal de domínio de tempo para o quadro atual para o segundo subconjunto para obter informação espectral e codificar a informação espectral no fluxo de bits codificados, onde o codificador de áudio multimodo é configurado para codificar um valor do ganho global no fluxo de bits codificados, o valor do ganho global dependendo de uma energia de uma versão do conteúdo de áudio do quadro atual do primeiro subconjunto filtrado com um filtro analisador da previsão linear dependendo do coeficiente da previsão linear, ou uma energia de sinal do domínio de tempo.
[0014] De acordo com um terceiro aspecto da presente aplicação, os presentes inventores descobriram que a variação da intensidade de um fluxo continua codificada CELP nas mudanças do respectivo valor do ganho global é mais bem adaptado para o comportamento das transformações do ajuste do nível codificado, se o valor do ganho global na condição CELP é computado e aplicado no domínio ponderado do sinal de excitação, em vez do sinal simples diretamente de excitação. Além disso, computação e aparelho do valor do ganho global no domínio ponderado do sinal de excitação é também uma vantagem quando considerando o modo de codificação CELP exclusivamente como os outros ganhos em CELP tal como codificar ganho e ganho LTP, são computados no domínio ponderado, também.
[0015] Portanto, de acordo com o terceiro aspecto, um decodificador CELP compreende um gerador de excitação configurado para gerar uma excitação atual para um quadro atual de um fluxo de bits através da construção de um livro de códigos de excitação adaptável com base em uma excitação passada e um índice do livro de códigos adaptável para o quadro atual dentro do fluxo de bits, a construção de uma inovação da excitação do livro de códigos com base em uma inovação do índice do livro de códigos para o quadro atual dentro do fluxo de bits, computando uma estimativa de uma energia da inovação de excitação do livro de códigos espectralmente ponderado através de um filtro de síntese ponderado da previsão linear construído a partir do coeficiente da previsão linear dentro do fluxo de bits, definição de um ganho da inovação de excitação do livro de códigos com base em uma taxa entre um ganho do valor dentro do fluxo de bits da energia estimada, e combinando o livro de códigos de excitação adaptável e a inovação da excitação do livro de códigos para obter uma excitação atual; e um filtro de síntese da previsão linear configurado para filtrar a excitação atual com base no coeficiente do filtro da previsão linear.
[0016] Também, um codificador CELP compreende, de acordo com o terceiro aspecto, um analisador de previsão linear configurado para gerar coeficientes dos filtros de previsão linear para um quadro atual de um conteúdo de áudio e codificar o coeficiente do filtro de previsão linear em um fluxo de bits; um gerador de excitação configurado para determinar uma excitação atual do quadro atual como uma combinação de um livro de códigos de excitação adaptável e uma inovação de excitação do livro de códigos que, quando filtrado através de um filtro de síntese da previsão linear com base no coeficiente do filtro da previsão linear, recuperar os quadros atuais, através da construção do livro de códigos de excitação adaptável definido por uma excitação passada e um índice do livro de códigos adaptável para o quadro atual e a codificação do índice do livro de códigos adaptável no fluxo de bits, e a construção a inovação de excitação do livro de códigos definido por uma inovação índice do livro de códigos para o quadro atual e codificação a inovação índice do livro de códigos no fluxo de bits; e um energia determinadora configurada para determinar uma energia de uma versão de um conteúdo de áudio do quadro atual filtrado com um filtro de síntese da previsão linear dependendo nos coeficientes dos filtros de previsão linear e um filtro de ponderação perceptivo para obter um valor do ganho e uma codificação do valor do ganho no fluxo de bits, o filtro de ponderação construído a partir do coeficiente do filtro da previsão linear.
Breve Descrição dos Desenhos
[0017] Modalidades preferidas da presente aplicação são os sujeitos das reivindicações dependentes anexadas deste modo. Além do mais, modalidades preferidas da presente aplicação são descritas em seguida com respeito às figuras, entre as quais:
[0018] Figura 1 mostra um diagrama de blocos de um codificador de áudio multimodo de acordo com uma modalidade;
[0019] Figura 2 mostra um diagrama de blocos da parte da computação de energia do codificador da figura 1 de acordo com uma primeira alternativa;
[0020] Figura 3 mostra um diagrama de blocos da parte da computação de energia do codificador da figura 1 de acordo com um segundo alternativa;
[0021] Figura 4 mostra um decodificador de áudio multimodo de acordo com uma modalidade e adaptado para decodificar fluxos contínuos codificados pelo codificador da figura 1;
[0022] Figuras 5a e 5b mostram um codificador de áudio multimodo e um decodificador de áudio multimodo de acordo com a modalidade adicional da presente invenção;
[0023] Figuras 6a e 6b mostram um codificador de áudio multimodo e um decodificador de áudio multimodo de acordo com uma modalidade adicional da presente invenção; e.
[0024] Figuras 7a e 7b mostram um codificador CELP e um decodificador CELP de acordo com uma modalidade adicional da presente invenção.
[0025] Figura 1 mostra uma modalidade de um codificador de áudio multimodo de acordo com uma modalidade da presente aplicação. O codificador de áudio multimodo da figura 1 é adequado para codificação de sinais de áudio de um tipo misturado tal como de uma mistura de expressão e música, ou o similar. A fim de obter uma taxa ideal /compromisso de distorção, o codificador de áudio multimodo é configurado para interruptor entre diversos modos de codificação a fim de adaptar as propriedades de codificação para as necessidades atuais do conteúdo de áudio para ser codificado. Particularmente, de acordo com a modalidade da figura 1, o codificador de áudio multimodo geralmente usa três diferentes modos de codificação, nomeadamente codificação FD (domínio de frequência), e codificação LP (previsão linear), que por sua vez, é dividido um TCX (transformações de excitações codificadas) e codificação CELP (previsão linear de excitação do livro de códigos). No modo de codificação FD, o conteúdo de áudio será codificado em janela, decomposto espectralmente, e uma decomposição espectral são quantificadas e a escalada de acordo com a psicoacústica a fim de ocultar um ruído de quantificação abaixo do mascaramento limiar. Nos modos de codificação TCX e CELP, o conteúdo de áudio está sujeito à análise da previsão linear a fim de obter coeficiente da previsão linear, e estes coeficientes da previsão linear são transmitidos dentro do fluxo de bits junto com um sinal de excitação que, quando filtrado como um filtro de síntese da previsão linear correspondente usando o coeficiente da previsão linear dentro da produção do fluxo continua da representação decodificada do conteúdo do áudio. No caso de TCX, o sinal de excitação é transformação codificada, enquanto que no caso de CELP, o sinal de excitação é codificado através das entradas de índice ação dentro de um livro de códigos ou de outro modo construindo sinteticamente um vetor do livro de códigos de amostras a serem filtradas. No ACELP (previsão linear de excitação do livro de códigos algébrica), que é usado de acordo com a presente modalidade, a excitação é composta de um livro de códigos de excitação adaptável e uma inovação de excitação do livro de códigos. Como deve ser delineado em mais detalhes abaixo, no TCX, o coeficiente da previsão linear pode ser explorado no lado do decodificador também diretamente na frequência de um domínio para moldar o ruído de quantificação deduzindo a escalada os fatores. Neste caso, o TCX é definido para transformação do sinal original e aplicar o resultado do LPC apenas no domínio da frequência.
[0026] Apesar de diferentes modos de codificação, o codificador da figura 1 gera o fluxo de bits de modo que certo elemento de sintaxe associado com todos os quadros do fluxo contínuo de bits codificado - com instâncias sendo associados com os quadros individuais ou em grupos de quadros-, permite uma adaptação do ganho global através de todos os modos de codificação através, por exemplo, aumentando ou diminuindo estes valores globais pela mesma quantidade tal como pelo mesmo número de dígitos (que equivale a uma escala com um fator (ou divisor) dos tempos da base logarítmica do número de dígitos).
[0027] Particularmente, de acordo com os diversos modos de codificação suportados pelo codificador de áudio multimodo 10 da figura 1, o mesmo compreende um codificador FD 12 e um codificador LPC (codificação da previsão linear) 14. O codificador LPC 14, por sua vez, é composto de uma parte de codificação TCX 16, e uma parte de codificação CELP 18, e um modo de codificação do interruptor 20. Um modo de codificação adicional do interruptor composta por codificador 10 é bastante geral ilustrado em 22 como modo cedente. O modo cedente é configurado para analisar o conteúdo de áudio 24 para ser codificado a fim de associar partes do tempo consecutivo do mesmo para diferentes modos de codificação. Particularmente, no caso da figura 1, o modo cedente 22 atribui diferentes partes do tempo consecutivo do conteúdo de áudio 24 para qualquer um dos modos de codificação FD e modo de codificação LPC. No exemplo ilustrativo da figura 1, por exemplo, modo cedente 22 tem a parte atribuída 26 do conteúdo de áudio 24 para o modo de codificação FD, enquanto que parte imediatamente seguinte 28 é atribuída para modo de codificação LPC. Dependendo do modo de codificação atribuído pelo modo cedente 22, o conteúdo de áudio 24 pode ser subdividido diferentemente em quadros consecutivos. Por exemplo, na modalidade da figura 1, o conteúdo de áudio 24 dentro da parte 26 é codificado em quadros 30 de igual comprimento e com uma sobreposição de cada um dos outros de, por exemplo, 50%. Em outras palavras, o codificador FD 12 é configurado para codificar FD da parte 26 do conteúdo de áudio 24 nestas unidades 30. De acordo com a modalidade da figura 1, o codificador LPC 14 é também configurado para codificar sua parte associada 28 do conteúdo de áudio 24 nas unidades de quadros 32 com estes quadros, entretanto, não necessariamente tendo o mesmo tamanho como quadros 30. No caso da figura 1, por exemplo, o tamanho dos quadros 32 é menor que o tamanho de quadros 30. Particularmente, de acordo com uma modalidade específica, o comprimento de quadros 30 é 2048 amostras do conteúdo de áudio 24, enquanto que o comprimento de quadros 32 é 1024 amostras cada. Pode ser possível que o último quadro se sobrepõe ao primeiro quadro em uma borda entre o modo de codificação LPC e o modo de codificação FD. Entretanto, na modalidade da figura 1, e como mostrado exemplarmente na figura 1, pode também ser possível que não exista nenhum quadro sobreposto no caso de transições a partir do modo de codificação FD para o modo de codificação LPC, e vice-versa.
[0028] Como indicado na figura 1, o codificador FD 12 recebe quadros 30 e codifica então através do domínio da frequência transformação da codificação nos respectivos quadros 34 do fluxo de bits codificados 36. Para este fim, o codificador FD 12 compreende uma windower 38, a transformador 40, uma quantificação e módulo de escala 42, e um codificador sem perdas 44, assim como um controlador psicoacústica 46. Em princípio, o codificador FD 12 pode ser implementado de acordo com o padrão AAC até que descrição a seguir não ensina um comportamento diferente do codificador FD 12. Particularmente, windower 38, transformador 40, quantificação e módulo de escala 42 e codificador sem perdas 44, são conectados serialmente entre uma entrada 48 e uma saída 50 do codificador FD 12 e controlador psicoacústica 46 tem uma entrada conectada a entrada 48 e uma saída conectada a uma entrada adicional de quantificação e módulo de escala 42. Deve ser observado que o codificador FD 12 pode compreender ainda módulos para opções de codificação adicional que são, entretanto, não crítica aqui.
[0029] Windower 38 pode usar diferentes janelas para janelas do quadro atual inserindo a entrada 48. O quadro da janela está sujeito a uma transformação tempo-para-domínio espectral no transformador 40, tal como usando um MDCT ou o similar. Transformador 40 pode usar diferentes transformações dos comprimentos a fim de transformar os quadros da janela.
[0030] Particularmente, windower 38 pode suportar janelas do comprimento dos quais coincidem com o comprimento dos quadros 30 com o transformador 40 usando o mesmo comprimento da transformação a fim de produzir um número de coeficientes de transformação que podem, por exemplo, no caso do MDCT, corresponder à metade do número de amostras do quadro 30. Windower 38 pode, entretanto, também ser configurado para suportar opções de codificações de acordo com o qual diversas janelas curtas tais como oito janelas da metade do comprimento de quadros 30 que são relativamente compensados a cada outro no momento, são aplicadas a um quadro atual com transformador 40 transformação dessas versões de janelas do quadro atual usando um comprimento da transformação em conformidade com as janelas, gerando assim oito espectros para a qual a amostragem do quadro do conteúdo de áudio em diferentes momentos durante esses quadros. As janelas usadas pelo windower 38 podem ser simétrica ou assimétrica e pode ter uma extremidade dianteira zero e/ou extremidade traseira zero. No caso de diversas janelas curtas de aplicação para um quadro atuais, à parte não zero destas janelas curtas é relativamente deslocada a cada outro, entretanto, sobrepondo cada outro. Certamente, outras opções de codificações para as janelas e comprimento da transformação para windower 38 e transformador 40 podem ser usadas de acordo com uma modalidade alternativa.
[0031] Os coeficientes da transformação de saída através do transformador 40 são quantificadas e escaladas no módulo 42. Particularmente, controlador psicoacústica 46 analisa o sinal de entrada na entrada 48 a fim de determinar um mascaramento limiar 48 de acordo com qual o ruído de quantificação introduzido pela quantificação e o escalonamento é formado para ser abaixo do mascaramento limiar. Particularmente, o módulo de escala 42 pode operar em bandas de fatores de escala juntas cobrindo o domínio espectral do transformador 40 no qual o domínio espectral é subdividido. Portanto, grupos de coeficientes de transformação consecutivos são atribuídos para diferentes bandas de fatores de escala. Módulo 42 determina um fator de escala por banda de fator de escala, que, quando multiplicado pelo respectivo valor do coeficiente de transformação atribuído às respectivas bandas de fatores de escala, produção da versão reconstruída da transformação coeficientes de saída pelo transformador 40. Além disso, este, módulo 42 define um valor do ganho espectralmente uniformemente escalonado do espectro. Um coeficiente de transformação reconstruído, assim, é igual aos momentos do valor do coeficiente da transformação dos momentos do fator de escala associado ao valor do ganho gi dos respectivos quadros. Valores do coeficiente de transformação, escalada os fatores e valor do ganho estão sujeitos à codificação sem perdas no codificador sem perdas 44, tal como por meio de codificação de entropia tal como uma codificação aritmética ou codificação Huffman, junto com outros elementos de sintaxe relativa, por exemplo, a janela e comprimento da transformação decisões mencionadas acima e elementos de sintaxe adicionais permitindo opções de codificação adicional. Para detalhes adicionais a este respeito, a referência é feita ao padrão AAC a respeito de opções de codificação adicional.
[0032] Para ser ligeiramente mais preciso, quantificação e módulo de escala 42 podem ser configurados para transmitir um valor do coeficiente da transformação quantificada por linha espectral k, que produz, quando redimensionado, o coeficiente de transformação reconstruído na respectiva linha espectral k, nomeadamente reescala, quando multiplicado com. gain = 20,25'(sf -f - offset)
[0033] onde sf é o fator de escalada a respectiva banda fator- escala para o qual o respectivo coeficiente de transformação quantificado pertence, e sf_compensado é uma constante que pode ser definido, por exemplo, para 100.
[0034] Assim, a escalada os fatores é definida no domínio logaritmo. A escalada os fatores pode ser codificado dentro do fluxo de bits 36 diferencialmente em todos os outros ao longo do acesso espectral, isto é meramente a diferença entre escalada os fatores vizinhas espectralmente sf pode ser transmitida dentro do fluxo contínuo de dados. O primeiro fator de escala sf pode ser transmitido dentro do fluxo de bits diferencialmente relativamente codificado ao valor do ganho global acima mencionado. Esses elementos de sintaxe do ganho global devem ser de interesse na descrição a seguir.
[0035] O ganho global valor pode ser transmitido dentro do fluxo de bits no domínio logarítmico. Isto é, o módulo 42 pode ser configurado para tomar um primeiro fator de escala sf de um espectro atual, como o ganho global. Esse valor sf pode, então, transmite diferencialmente com um zero e os valores sf a seguir se diferenciam ao antecessor respectivo.
[0036] Obviamente, mudanças do ganho global muda à energia da transformação reconstruída, e assim traduz em uma mudança intensa da parte codificada FD 26, quando uniformemente conduzida em todos os quadros 30.
[0037] Particularmente, ganho global dos quadros FD é transmitido dentro do fluxo de bits de modo que o ganho global logaritmicamente depende no meio de execução de amostras de momentos do áudio reconstruído, ou, vice versa, o meio de execução amostras de momentos do áudio reconstruído exponencialmente depende de um ganho global.
[0038] Semelhante aos quadros 30, todos os quadros atribuído ao modo de codificação LPC, nomeadamente quadros 32, entra o codificador LPC 14. Dentro do codificador LPC 14, interruptor 20 subdivide cada quadro 32 em um ou mais subquadros 52. Cada um desses subquadros 52 pode ser atribuído ao modo de codificação TCX ou CELP modo de codificação. Subquadros 52 atribuído ao modo de codificação TCX são encaminhadas para uma entrada 54 do codificador TCX 16, enquanto que o subquadros associado com o modo de codificação CELP são encaminhados pelo interruptor 20 a uma entrada 56 do codificador CELP 18.
[0039] Deve ser observado que a disposição do interruptor 20 entre a entrada 58 do codificador LPC 14 e as entradas 54 e 56 do codificador TCX 16 e o codificador CELP 18, respectivamente, é mostrado na figura 1 meramente para propósito de ilustração e que, de fato, a decisão de codificação com respeito à subdivisão de quadros 32 no subquadros 52 associando-se com respectivos modos de codificação entre TCX e CELP ao individual subquadros pode ser feito em uma maneira interativa entre os elementos internos do codificador TCX 16 e codificador CELP 18 a fim de maximizar certa medida peso/ distorção.
[0040] Em qualquer caso, o codificador TCX 16 compreende um gerador de excitação 60, um analisador LP 62 e uma energia determinadora 64, em que o analisador LP 62 e a energia determinadora 64 são co-usadas (e copropriedade) pelo codificador CELP 18 que compreende ainda um próprio gerador de excitação 66. Respectivas entradas do gerador de excitação 60, o analisador LP 62 e a energia determinadora 64 são conectados para a entrada 54 do codificador TCX 16. Também, as respectivas entradas do analisador LP 62, energia determinadora 64 e o gerador de excitação 66 são conectados à entrada 56 do codificador CELP 18. O analisador LP 62 é configurado para analisar o conteúdo de áudio dentro dos quadros atuais, isto é quadro TCX ou quadros CELP, a fim de determinar o coeficiente da previsão linear, e são conectado às respectivas entradas do coeficiente do gerador de excitação 60, energia determinadora 64 e gerador de excitação 66 a fim de transmitir o coeficiente da previsão linear para estes elementos. Como deve ser descrito em mais detalhes abaixo, o analisador LP pode operar sobre uma versão pré-enfatizada do conteúdo do áudio original, e o respectivo filtro pré-ênfase pode ser parte de uma respectiva parte da entrada do analisador LP, ou pode ser conectada na frente da entrada do mesmo. O mesmo se aplica à energia determinadora 66 como deve ser descrita em mais detalhes abaixo. Até que o gerador de excitação 60 é relacionado, entretanto, o mesmo pode operar sobre o sinal original diretamente. Saídas respectivas do gerador de excitação 60, analisador LP 62 energia determinadora 64, e gerador de excitação 66, assim como a saída 50, são conectadas às respectivas entradas de um multiplexador 68 do codificador 10 que é configurado para multiplexar os elementos de sintaxe recebidos no fluxo de bits 36 na saída 70.
[0041] Como já observado acima, analisador LPC 62 é configurado para determinar coeficiente da previsão linear para a entrada quadro LPC s 32. Para detalhes adicionais com respeito às possíveis funcionalidades do analisador LP 62, a referência é feita ao padrão ACELP. Geralmente, o analisador LP 62 pode usar um método de auto correlação ou covariância a fim de determinar os coeficientes LPC. Por exemplo, usando um método de auto correlação, analisador LP 62 pode produzir uma matriz de auto correlação com o coeficiente de solução LPC usando um algoritmo Levinson-Durban. Como conhecido na técnica, os coeficientes LPC definem um filtro de síntese que cerca de modelos o trato vocal humano, e quando conduzido por um sinal de excitação, modelos essenciais do fluxo e ar através das cordas vocais. Este filtro de síntese é modelado usando a previsão linear através do analisador LP 62. A taxa em que a mudança da forma das faixas vocais é limitada, e portanto, o analisador LP 62 pode usar uma taxa de atualização adaptada para a limitação e diferentes a partir de quadros -taxa de quadros 32 para atualizações do coeficiente da previsão linear. O analisador LP realizado através do analisador 62 fornece informações sobre certos filtros para elementos 60, 64 e 66, tais como: • o filtro de síntese da previsão linear H(z); • o filtro inverso do mesmo, nomeadamente o filtro analisador da previsão linear ou filtro de clareamento A(z) com H(z )=A®' • um filtro de ponderação perceptivo tais como
Figure img0001
onde λ é um fator de ponderação
[0042] analisador LP 62 transmite informações sobre os coeficientes LPC para multiplexador 68 para sendo inseridos no fluxo de bits 36. Essa informação 72 pode representar o coeficiente da previsão linear quantificado em um domínio apropriado tais como um domínio par espectral, ou o similar. Até mesmo a quantificação do coeficiente da previsão linear pode ser realizada neste domínio. Além disso, o analisador LPC 62 pode transmitir os coeficientes LPC ou a informação 72 do mesmo, em uma taxa maior que uma taxa em que o coeficiente LPC é realmente reconstruído no lado da decodificação. A última taxa de atualização é obtida, por exemplo, por interpolação entre os momentos de transmissão LPC. Obviamente, o decodificador apenas tem acesso para os coeficientes quantificados LPC, e, portanto, os filtros acima mencionados definidos pelas previsões lineares reconstruídas correspondentes são denotados por H(z), Â(z) e W(z).
[0043] Como já delineados acima, o analisador LP 62 define um filtro de síntese LP H(z) e H(z), respectivamente, que, quando aplicado à respectiva excitação, recuperar ou reconstruir o conteúdo de áudio original, além disso, alguns pós-processamento, que, entretanto, não é considerado aqui para facilidade de explanação.
[0044] Geradores de excitação 60 e 66 são para definir esta excitação e transmitindo nela respectiva informação para o lado de descodificação através dos multiplexadores 68 e fluxo de bits 36, respectivamente. Até que gerador de excitação 60 do codificador TCX 16 é relacionada, mesmos códigos da excitação atual por sujeição de uma excitação adequada encontrada, por exemplo, através de alguma otimização do esquema para uma transformação tempo-para-domínio espectral a fim de produzir uma versão espectral da excitação, onde essa versão espectral da informação espectral 74 é encaminhada para o multiplexador 68 para inserção no fluxo de bits 36, com a informação espectral sendo quantificada e escalada, por exemplo, analogamente para o espectro em que o módulo 42 do codificador FD 12 opera.
[0045] Isto é, informação espectral 74 definindo a excitação do codificador TCX 16 do subquadro atual 52, pode ter coeficientes associados de transformação quantificados deste modo, que são escaladas de acordo com um único fator de escala que, por sua vez, é transmitido em relação a um quadro LPC dos elementos de sintaxe também chamado ganho global no que segue. Como no caso de ganho global do codificador FD 12, ganho global do codificador LPC 14 pode também ser definido no domínio logarítmico. Um aumento deste valor diretamente traduz em um aumento da intensidade da representação decodificada do conteúdo de áudio dos respectivos subquadros TCX como a representação decodificada é alcançada através do processamento dos coeficientes da transformação escalados dentro da informação 74 por operações lineares preservando o ajuste do ganho. Essas operações lineares são a transformada de momento de frequência inversa e, eventualmente, a síntese de filtragem LP. Como deve ser explicado em mais detalhes abaixo, entretanto, gerador de excitação 60 é configurado para codificar o ganho apenas mencionado da informação espectral 74 no fluxo de bits em uma resolução de tempo mais alta que na unidade de quadro LPC s. Particularmente, gerador de excitação 60 usa um elemento de sintaxe chamado ganho global delta a fim de diferencialmente codificar - diferencialmente ao elemento de fluxo de bits de ganho global - o ganho atual usado para definir o ganho do espectro da excitação. Ganho global delta pode também ser definido no domínio logaritmo. A condição diferencial pode ser realizada de modo que o ganho global delta pode ser definido como correção multiplicativa do ganho global no domínio linear.
[0046] Em contraste ao gerador de excitação 60, gerador de excitação 66 do codificador CELP 18 é configurado para codificar a excitação atual do subquadro atual usando índices do livro de códigos. Particularmente, o gerador de excitação 66 é configurado para determinar a excitação atual através de uma combinação de um livro de códigos de excitação adaptável e uma inovação de excitação do livro de códigos. Gerador de excitação 66 é configurado para construir o livro de códigos de excitação adaptável a um quadro atual a fim de ser definido por uma excitação passada, isto é a excitação usada a um previamente codificado CELP subquadro, por exemplo, e um índice do livro de códigos adaptável aos quadros atuais. O gerador de excitação 66 codifica o índice do livro de códigos adaptável 76 no fluxo de bits encaminhando o mesmo ao multiplexador 68. Além disso, o gerador de excitação 66 constrói a inovação de excitação do livro de códigos definidos por uma inovação índice do livro de códigos para o quadro atual e codifica o índice de invocação do livro de códigos78 no fluxo de bits encaminhando o mesmo para o multiplexador 68 para inserção no fluxo de bits 36. De fato, ambos os índices podem ser integrados em um elemento de sintaxe comum. Juntos, mesmo permite o decodificador para recuperar a excitação do livro de códigos assim determinado pelo gerador de excitação. A fim de garantir a sincronização da situação interna do codificador e decodificador, o gerador 66 não apenas determina os elementos de sintaxe para permitir o decodificador recuperar a excitação do livro de códigos atual, o mesmo bit também atualiza realmente sua situação gerando realmente o mesmo a fim de usar a excitação do livro de códigos atual como um ponto de partida, isto são a excitação passada, para codificação os próximos quadros CELP.
[0047] O gerador de excitação 66 pode ser configurado para, na construção do livro de códigos de excitação adaptável e a inovação de excitação do livro de códigos, minimiza uma medida de distorção perceptiva de peso, em relação ao conteúdo de áudio do subquadro atual considerando que o resultante da excitação está sujeito à síntese de filtragem LP no lado da decodificação para reconstrução. Com efeito, os índices 76 e 78 certas tabelas de índice disponível no codificador 10 assim como o lado da decodificação a fim de índice ou de outro modo determinar vetores que servem como uma entrada de excitação do filtro de síntese LP. Ao contrário, para a excitação adaptável do livro de códigos, a inovação de excitação do livro de códigos é determinada independente da excitação passada. Na realidade, gerador de excitação 66 pode ser configurado para determinar o livro de códigos de excitação adaptável para o quadro atual usando o passado e reconstruindo a excitação do previamente codificado CELP subquadro modificando a última usando um certo retorno e valor do ganho e uma filtragem predeterminada (interpolação), para que a excitação adaptável do livro de códigos resultante do quadro atual minimiza uma diferença de um certo alvo para o livro de códigos de excitação adaptável recuperação, quando filtrado pelo filtro de síntese, o conteúdo do áudio original. O retorno apenas mencionado e ganho e filtragem é indicado pelo índice do livro de códigos adaptável. A discrepância restante é compensada pela inovação de excitação do livro de códigos. Novamente, gerador de excitação 66 adequadamente define o índice do livro de códigos para encontrar uma inovação ideal da excitação do livro de códigos que, quando combinado com (tais como adicionado a), o livro de códigos de excitação adaptável à excitação atual para o quadro atual (com então servindo como a excitação passada quando construção o livro de códigos de excitação adaptável do subquadro CELP em seguida). Em até mesmo outras palavras, a pesquisa do livro de códigos adaptável pode ser realizada sobre uma base do subquadro e consiste da realização de uma pesquisa da frequência do circuito fechado, então computando o vetor de código adaptável por interpolação da excitação passada na defasagem do frequência selecionado fracionário. Na realidade, o sinal de excitação u(n) é definido pelo gerador de excitação 66 como um somatório ponderado do vetor do livro de códigos adaptável v(n) e a vetor de inovação do livro de códigos c(n) por
Figure img0002
[0048] A frequência do ganho gp é definida pelo índice do livro de códigos adaptável 76. A inovação do livro de códigos de ganho gc é determinada pelo inovador índice do livro de códigos78 e pelos elementos de sintaxe do ganho global acima mencionado para quadro LPC s determinado pela energia determinadora 64 como deve ser delineadas abaixo.
[0049] Isto é, quando otimizando a inovação do índice do livro de códigos78, o gerador de excitação 66 adota, e mantém-se inalterada, g a inovação do livro de códigos de ganho gc com meramente otimizando a inovação índice do livro de códigos para determinar posições e sinais de pulsos da inovação do vetor do livro de códigos, assim como o número desses pulsos.
[0050] Um primeiro método (ou alternativa) para definição do acima mencionado quadro LPC dos elementos de sintaxe do ganho global pela energia determinadora 64 com respeito à figura 2 a seguir. De acordo com ambas as alternativas descritas abaixo, os elementos de sintaxe do ganho global são determinados para cada quadro LPC 32. Esses elementos de sintaxe então servem como uma referência para os elementos de sintaxe do ganho global delta acima mencionado do subquadro TCX pertencentes ao respectivo quadro 32, assim como a inovação do livro de códigos do ganho g c acima mencionado que é determinado pelo ganho global como descrito abaixo.
[0051] Como mostrado na figura 2, energia determinadora 64 pode ser configurada para determinar os elementos de sintaxe do ganho global 80, e pode compreender um filtro analisador da previsão linear 82 controlado pelo analisador LP 62, uma energia do computador 84 e uma quantificação e estágio de codificação 86, assim como a estágio de decodificação 88 para requantificação. Como mostrado na figura 2, um filtro pré-emphasizer ou pré-ênfase 90 pode pré-enfatizar o conteúdo de áudio original 24 antes da última é ainda processado dentro da energia determinadora 64 como descritas abaixo. Embora não mostrado na figura 1, filtro pré-ênfase pode também estar presente no diagrama de blocos da figura 1 diretamente em frente a ambos, as entradas do analisador LP 62 e a energia determinadora 64. Em outras palavras, mesmo podem ser copropriedade ou co- usadas por ambas. O filtro pré-ênfase 90 pode ser dado por
Figure img0003
[0052] Assim, o filtro pré-ênfase pode ser um filtro passo alto. Aqui, é uma primeira ordem do filtro passa alto, mas mais geralmente, mesmo pode ser um nth-ordem-filtro passo alto. No presente caso, é exemplarmente uma primeira ordem filtro passo alto, com α definido a 0.68.
[0053] A entrada de energia determinadora 64 da figura 2 está conectada para a saída do filtro pré-ênfase 90. Entre a entrada e a saída 80 de energia determinadora 64, o analisador LP filtro 82, a energia do computador 84, e a quantificação e o estágio de codificação 86 são conectados serialmente na ordem mencionada. O estágio de codificação 88 tem sua entrada conectada para a saída de quantificação e estágio de codificação 86 e saídas do ganho quantificado como obter pelo decodificador.
[0054] Particularmente, o filtro analisador da previsão linear 82 A(z) aplicado para o pré-enfatizado conteúdo de áudio resultado em um sinal de excitação 92. Assim, a excitação 92 igual à versão pré- enfatizada do conteúdo de áudio original 24 filtrado pelo filtro de análise LPC A(z), isto é o conteúdo de áudio original 24 filtrado com
Figure img0004
[0055] Com base neste sinal de excitação 92, o ganho global comum para o quadro atual 32 é deduzido computando a energia sobre todas as 1024 amostras deste sinal de excitação 92 dentro do quadro atual 32.
[0056] Particularmente, energia do computador 84 médias a energia do sinal 92 por segmento de 64 amostras no domínio logarítmico por:
Figure img0005
[0057] O ganho g é então quantificado por quantificação e estágio de codificação 86 em 6 bits no domínio logarítmico com base em energia média nrg por:
Figure img0006
[0058] Este índice é então transmitido dentro do fluxo de bits como elementos de sintaxe 80, isto é como ganho global. Ele é definido no domínio logarítmico. Em outras palavras, a quantificação aumenta exponencialmente o tamanho da etapa. O ganho quantificado é obtido pelo estágio de decodificação 88 computando:
Figure img0007
[0059] A quantificação usada aqui tem a mesma granularidade como a quantificação do ganho global do modo FD, e, portanto, escalonamento das escalas do índice a intensidade do quadro LPC 32 na mesma maneira como escalonamento dos elementos de sintaxe do ganho global dos quadros FD 30, conseguindo assim uma maneira fácil do controle do ganho do fluxo de bits multimodo codificado 36 com nenhuma necessidade para realizar um desvio de decodificação e recodificação, e mantendo ainda a qualidade.
[0060] Como deve ser delineadas em mais detalhes abaixo no que diz respeito ao decodificador, por causa da sincronia da manutenção acima mencionada entre codificador e decodificador (atualização da excitação), o gerador de excitação 66 pode, em otimização ou após ter otimizado os índices do livro de códigos, a) computar, com base do ganho global, uma previsão do ganho gc' e b) multiplicar o ganho previsto g' com a inovação do livro de códigos do fator de correção f para produzir a inovação atual do livro de códigos ganho gc c) realmente gerar a excitação do livro de códigos combinando o livro de códigos de excitação adaptável e a inovação de excitação do livro de códigos com ponderação da última com a inovação atual do livro de códigos de ganho gc.
[0061] Particularmente, de acordo com a presente alternativa, quantificação estágio de codificação 86 transmite gíndice dentro do fluxo de bits e o gerador de excitação 66 aceita o ganho quantificado g como um referência fixada predefinida para otimizar a inovação de excitação do livro de códigos.
[0062] Particularmente, gerador de excitação 66 otimiza a inovação do livro de códigos de ganho gc usando (isto é com otimizando) apenas a inovação índice do livro de códigos que também definem f que é a inovação do livro de códigos do ganho do fator de correção. Particularmente, a inovação do livro de códigos de ganho fator de correção determina a inovação do livro de códigos ganho gc para ser
Figure img0008
[0063] Como deve ser ainda descrito abaixo, o ganho TCX é codificado para transmitir o elemento do ganho global delta codificado em 5 bits:
Figure img0009
[0064] É decodificado como segue:
Figure img0010
[0065] Então
Figure img0011
[0066] ganho subquadros CELP e o subquadro TCX são respeitadas, de acordo com a primeira alternativa descritas com respeito à figura 2, o ganho global gíndice é assim codificado em 6 bits por quadro ou superquadro 32. Isso resultada na mesma granularidade do ganho como para a codificação do ganho global do modo FD. Neste caso, o superquadro do ganho global gíndice é codificado apenas em 6 bits, embora o ganho global no modo FD seja enviado em 8 bits. Assim, o elemento do ganho global não é o mesmo para o LPD (previsão linear domínio) e modos FD. Entretanto, como a granularidade do ganho é semelhante, um controle do ganho unificado pode facilmente ser aplicado. Particularmente, o domínio logarítmico para codificação do ganho global no FD e modo LPD é vantajosamente realizado na mesma base logarítmica 2.
[0067] A fim de harmonizar completamente ambos os elementos globais seriam simples para estender a codificação em 8 bits até mesmo até que os quadros LPD são respeitados . Até que os subquadros CELP são respeitados, os elementos de sintaxe gíndice assumem completamente a tarefa de controle do ganho. Os elementos do ganho global dentam acima mencionados do subquadro TCX pode ser codificado em 5 bits diferenciados a partir do superquadro do ganho global. Comparado ao caso onde o esquema multimodo de codificação acima seria implementado por normais AAC, ACELP e TCX, o conceito acima de acordo com a da figura 2 alternativa, resultaria em 2 bits menores para codificação no caso de um superquadro 32 consistindo meramente de subquadros TCX 20 e/ou ACELP, e consumiria 2 ou 4 bits adicionais por superquadro no caso dos respectivos superquadro compreendendo um subquadro TCX 40 e TCX 80, respectivamente.
[0068] Em termos do processamento do sinal, o superquadro do ganho global gíndice representa a média de energia residual LPC sobre o superquadro 32 e quantificada sobre uma escala logarítmica. Em (A) CELP, é usado em vez de do elemento "energia médio" geralmente usado no ACELP para estimar a inovação do livro de códigos ganho. A nova estimativa de acordo com a presente primeira alternativa de acordo com a figura 2 tem mais resolução de amplitude do que no padrão ACELP, mas também menor resolução de tempo como gíndice é meramente transmitido por superquadros, em vez de subquadro. Entretanto, foi descoberto que a energia residual é um estimador fraco e usado como um indicador de causa da faixa de ganho. Como uma consequência, a resolução de tempo é provavelmente mais importante. Para evitar qualquer problema durante transitórios, o gerador de excitação 66 pode ser configurado para subestimar sistematicamente o inovador do livro de códigos do ganho e deixar o ajuste de ganho recuperar a lacuna. Esta estratégia pode contrabalançar a falta de tempo de resolução.
[0069] Além disso, o superquadro do ganho global é também usado no TCX como uma estimativa do elemento "ganho global" determinando o ganho do escalonamento como mencionado acima. Porque o superquadro do ganho global gíndice representa a energia do residual LPC e o TCX global representa sobre a energia do sinal ponderado, o ganho diferencial de codificação através do uso do ganho global delta inclui implicitamente alguns ganhos LP. Contudo, o ganho diferencial ainda mostra menor amplitude que o plano "ganho global".
[0070] Para mono 12 kbps e 24 kbps, alguns testes perceptivos foram realizadas focando principalmente na qualidade da expressão limpa. A qualidade foi encontrada muito perto para um do USAC atual diferente a partir da modalidade acima em que o controle normal do ganho dos padrões AAC e ACELP/TCX tenha sido utilizado. Entretanto, para certos itens da expressão, a qualidade tende a ser ligeiramente pior.
[0071] Após ter descrita a modalidade da figura 1 de acordo com a alternativa da figura 2, a segunda alternativa é descrita com respeito às figuras 1 e 3. De acordo com o segundo método para o modo LPD, algumas desvantagens da primeira alternativa são solucionados: • A previsão do ganho de inovação ACELP falhou por alguns subquadros de alta amplitude quadros dinâmicos. Foi principalmente devido à computação de energia que foi geometricamente média. Embora, o SNR médio foi melhor do que o ACELP original, o ajuste de ganho do livro de códigos foi mais frequentemente saturado. Era para ser o principal motivo da degradação percebida ligeira para certos itens da expressão . • Além disso, a previsão do ganho da inovação ACELP também não foi ideal. Com efeito, o ganho é optimizado no domínio ponderada enquanto que a previsão de ganho é computada no domínio residual LPC A ideia da seguinte alternativa é realizar a previsão no domínio ponderado. • A previsão do ganho global individual TCX não foi ideal como a energia transmitida foi computada para o residual LPC enquanto computa TCX seu ganho no domínio ponderado.
[0072] A principal diferença a partir do esquema anterior é que o ganho global representa agora a energia do sinal ponderado em vez de a energia de excitação.
[0073] Em termos de fluxo de bitss, as modificações comparadas ao primeiro método, são as seguintes: • Um ganho global de codificado em 8 bits com o mesmo quantificador como no modo FD. Agora, tanto os modos LPD e FD compartilham o mesmo elemento de fluxo de bits. Descobriu-se que o ganho global no AAC tem boas razões para ser codificadas em 8 bits com tais quantificadores. 8 bits é definitivamente muito para o ganho global do modo LPD, que pode ser codificado apenas em 6 bits. No entanto, é o preço a pagar para a unificação. • Codificar o ganho global individual de TCX com uma codificação diferencial, usando: o 1 bit para TCX1024, códigos de comprimento fixados. o 4 bits na média para TCX256 e TCX 512, códigos de comprimento variáveis (Huffman)
[0074] Em termos de consumo, o segundo método difere a partir do primeiro em que: • Para ACELP: mesmo consumo de bit antes • Para TCX1024: +2 bits • Para TCX512:+2 bits na média • Para TCX256: mesma média de consumo do bit como antes
[0075] Em termos de qualidade, o segundo método difere a partir do primeiro em que: • Porções de áudio TCX deveriam soar mesmo como a quantificação global da granularidade mantida inalterada. • Porções de áudio ACELP poderiam ser esperadas para serem ligeiramente melhoradas como a previsão foi realçada. Estatísticas coletadas mostram menores valore internos no ajuste de ganho do que no ACELP atual.
[0076] Veja, por exemplo, figura 3. Figura 3 mostra o gerador de excitação 66 como compreendendo um filtro de ponderação W(z) 100, seguida por uma energia do computador 102 e uma quantificação e estágio de codificação 104, assim como um estágio de decodificação 106. Na realidade, estes elementos estão dispostos com respeito em todos os outros como os elementos 82 e 88 onde na figura 2.
[0077] O filtro de ponderação é definido como:
Figure img0012
[0078] onde λ é um fator de ponderação perceptivo que pode ser definido a 0.92.
[0079] Assim, de acordo com o segundo método, o ganho global comum para TCX e subquadros CELP 52 é deduzido a partir de uma energia de cálculo realizada cada 2024 amostras no sinal ponderado, isto é na unidade do quadro LPC s 32. O sinal ponderado é computado no codificador dentro filtro 100 por filtragem do sinal original 24 pelo filtro de ponderação W(z) deduzido a partir dos coeficientes LPC como saída pelo analisador LP 62. Pela maneira, a pré-ênfase acima mencionada não é parte de W(z). É apenas usada antes computando os coeficientes LPC, isto são dentro ou em frente do analisador LP 62, e antes do ACELP, isto é dentro ou em frente do gerador de excitação 66. Em uma maneira a pré-ênfase é já refletida no coeficiente de A(z).
[0080] Energia do computador 102 então determina a energia para ser:
Figure img0013
[0081] Quantificação e estágio de codificação 104 então quantifica o ganho global em 8 bits no domínio logarítmico com base na energia média nrg por:
Figure img0014
[0082] O ganho global quantificado é então obtido pelo estágio de decodificação 106 por:
Figure img0015
[0083] Como deve ser delineadas em mais detalhes abaixo no que diz respeito ao decodificador, por causa da sincronia da manutenção acima mencionada entre codificador e decodificador (atualização da excitação), o gerador de excitação 66 pode, otimizando ou tendo otimizado após o índices do livro de códigos, a) estimar a inovação da energia de excitação do livro de códigos como determinado por uma primeira informação contida dentro da - candidato provisório ou transmitidos finalmente - índice da inovação do livro de códigos, nomeadamente o número acima mencionado, posições e sinais da vetor de inovação do livro de códigos pulsos, com filtragem da respectiva inovação do vetor do livro de códigos com o filtro de síntese LP, ponderado entretanto, com o filtro de ponderação W(z) e o filtro de ênfase, isto é o inverso do filtro ênfase, (filtro H2(z), veja abaixo), e determinando a energia do resultado, b) a partir de uma taxa entre a energia assim derivada e uma energia E = 20.log (g) determinada pelo ganho global a fim de obter um ganho previsto g' c) multiplicar a ganho previsto g' com a inovação do livro de códigos fator de correção f para produzir a inovação atual do livro de códigos ganho gc d) realmente gerar a excitação do livro de códigos combinando o livro de códigos de excitação adaptável e a inovação de excitação do livro de códigos com ponderação d a última com a inovação atual do livro de códigos ganho gc.
[0084] Particularmente, a quantificação assim alcançada tem a mesma granularidade como a quantificação do ganho global do modo FD. Novamente, o gerador de excitação 66 pode adotar, e tratar como constante, o ganho global quantificado g otimizando a inovação de excitação do livro de códigos. Particularmente, o gerador de excitação 66 pode definir a inovação de excitação do livro de códigos do fator de correção f encontrando a inovação ideal do índice do livro de códigos para que a quantificada fixada ideal do livro de códigos ganho resulta, nomeadamente de acordo com:
Figure img0016
[0085] com obediência:
Figure img0017
[0086] onde cw é a inovação é o vetor de inovação c[n] no domínio ponderado obtido por um enrolamento de n = 0 a 63 de acordo com : cw [n ]=
Figure img0018
[0087] onde h2 é a resposta de impulso do filtro de síntese ponderado
Figure img0019
[0088] com y = 0.92 e α = 0.68, por exemplo.
[0089] O ganho TCX é codificado transmitindo o elemento ganho global delta codificado com o Código do Comprimento Variável .
[0090] Se o TCX tem um tamanho de 1024 apenas 1 bits é usado para o elemento do ganho global delta, enquanto o ganho global é recalculado e requantificado :
Figure img0020
[0091] É decodificado como segue:
Figure img0021
[0092] Caso contrário, para os outros tamanhos de TCX, o ganho global delta é codificado como segue:
Figure img0022
[0093] O ganho TCX é então decodificado como segue:
Figure img0023
[0094] ganho global delta pode ser diretamente codificado em 7 bits ou usando códigos Huffman, que podem produzir 4 bits em media
[0095] Finalmente e em ambos os casos o ganho final é deduzido :
Figure img0024
[0096] No que segue, um decodificador correspondente de áudio multimodo correspondente à modalidade da figura 1 com respeito às duas alternativas descritas com respeito à figura 2 e 3 é descritas com respeito à figura 4.
[0097] O decodificador de áudio multimodo da figura 4 é geralmente indicado com sinal de referência 120 e compreende um demultiplexador 122, um decodificador FD 124, e decodificador LPC 126 composto de um decodificador TCX 128 e um decodificador CELP 130, e uma sobreposição / manipulador de transição 132.
[0098] O demultiplexador compreende uma entrada 134 formando concorrentemente a entrada do decodificador de áudio multimodo 120. Fluxo de bits 36 da figura 1 entra na entrada 134. Demultiplexador 122 compreende diversas saídas conectada a decodificadores 124, 128, e 130, e distribui elementos de sintaxe composto em fluxo de bits 134 para a máquina de decodificação individual. Na realidade, o multiplexador 132 distribui os quadros 34 e 35 do fluxo de bits 36 com o respectivo decodificador 124, 128 e 130, respectivamente.
[0099] Cada um dos descodificadores 124, 128 e 130 compreende uma saída de domínio de tempo ligada a uma entrada respectiva de manipulador de sobreposição/transação 132. Manipulador de sobreposição/transação 132 é responsável para realizar a respectiva manipulação sobreposição/transação em transições entre quadros consecutivos. Por exemplo, manipulador de sobreposição/transação 132 pode realizar o procedimento de sobreposição/adição janelas consecutivo relativo dos quadros FD. O mesmo se aplica aos subquadros TCX. Embora não descrito um detalhes com respeito à figura 1, por exemplo, até mesmo gerador de excitação 60 usa seguidas janelas por uma transformação espectral do tempo-para- domínio a fim de obter a coeficiente de transformação para representar a excitação, e as janelas pode sobreposição cada outro. Quando transição para / de subquadros CELP, manipulador de sobreposição/transação 132 pode realizar medidas especiais a fim de evitar o serrilhado. Para este fim, manipulador de sobreposição/transação 132 pode ser controlado pelo respectivo elemento de sintaxe transmitido através do fluxo de bits 36. Entretanto, como estas medidas de transmissão exceder o foco da presente aplicação, a referência é feita para, por exemplo, o padrão ACELP W+ para soluções exemplares ilustrativas a este respeito.
[00100] O decodificador FD 124 compreende um decodificador sem predas 134, a de quantificação e módulo de reescala 136, e um retransformador 138, que são conectados serialmente entre o demultiplexador 122 e o manipulador de sobreposição/transação 132 nesta ordem. O decodificador sem predas 134 recupera, por exemplo, a escalada dos fatores a partir do fluxo de bits que são, por exemplo, diferencialmente codificado nele. A quantificação e módulo de reescala 136 recuperam a coeficiente de transformação por, por exemplo, escalonamento para o valor do coeficiente de transformação para as linhas espectrais individuais com a escalada correspondente dos fatores das bandas de fatores de escala para que estes valores do coeficiente de transformação pertençam. Retransformador 138 realiza uma transformação do tempo espectral-a-domínio para a assim obtida coeficiente de transformação como MDCT inverso, a fim de obter um sinal de domínio de tempo para ser encaminhado para o manipulador de sobreposição/transação 132. Qualquer desquantificação e módulo de reescala 136 ou retransformador 138 usa o elemento de sintaxe do ganho global transmitidos dentro do fluxo de bits para todos os quadros FD, de modo que o sinal de domínio de tempo resultante da transformação é escalada pelos elementos de sintaxe (isto é linearmente escalado com algumas funções exponenciais nela). Na realidade, o escalonamento pode ser realizado antes da transformação do tempo espectral-a-domínio ou subsequentemente nele.
[00101] O decodificador TCX 128 compreende um gerador de excitação 140, um antigo espectro 142, e um conversor de coeficiente LP 144. Gerador de excitação 140 e antigo espectro 142 são conectados serialmente entre demultiplexador 122 e outra entrada do manipulador de sobreposição/transação 132, e conversor de coeficiente LP 144 fornece uma entrada adicional do antigo espectro 142 com espectro dos valores de ponderação obtidos a partir dos coeficientes LPC transmitidos através do fluxo de bits. Particularmente, o decodificador TCX 128 opera no subquadro TCX entre subquadros 52. Gerador de excitação 140 trata o espectro da informação da entrada semelhante aos componentes 134 e 136 do decodificador FD 124. Isto é, o gerador de excitação 140 desquantificadores e reescala do valor do coeficiente de transformação transmitida dentro do fluxo de bits a fim de representar a excitação no domínio do espectro. O coeficiente de transformação assim obtido é escalada pelo gerador de excitação 140 com um valor correspondente a uma soma dos elementos de sintaxe ganho global delta transmitidos para o atual subquadro TCX 52 e os elementos de sintaxe do ganho global transmitidos para o quadro atual 32 para o qual o atual subquadro TCX 52 pertence. Assim, o gerador de excitação 140 das saídas de um espectro representação da excitação para o subquadro atual da escalada de acordo com o ganho global delta e ganho global. Conversor LPC 134 converte os coeficientes LPC transmitidos dentro do fluxo de bits por meio de, por exemplo, interpolação e codificação diferencial, ou o similar, em valores de ponderação do espectro, nomeadamente um valor de ponderação do espectro por coeficiente de transformação do espectro da excitação saída pelo gerador de excitação 140. Particularmente, o conversor de coeficiente LP 144 determina este espectro dos valores de ponderação de modo que se assemelha mesmo a um filtro de síntese da previsão linear da função de transferência. Em outras palavras, assemelham-se uma função de transferência do filtro de síntese LPH(z) . Antigo espectro 140 pesos espectralmente a transformação de entrada coeficientes pelo gerador de excitação 140 pelo peso do espectro obtido pelo conversor de coeficiente LP 144 a fim de obter espectralmente ponderado o coeficiente de transformação que são então sujeitos a uma transformação do tempo espectral-a-domínio no retransformador 146 para que o retransformador 146 saia de uma versão reconstruída ou representação decodificada do conteúdo de áudio do atual subquadro TCX. Entretanto, é observado que, como já observado acima, um pós- processamento de pode ser realizado sobre a saída do retransformador 146 encaminhando antes o sinal de domínio de tempo para o manipulador de sobreposição/transação 132. Em qualquer caso, o nível do sinal de domínio de tempo saído pelo retransformador 146 é novamente controlado pelos elementos de sintaxe do ganho global dos respectivos quadros LPC 32.
[00102] O decodificador CELP 130 da figura 4 compreende uma inovação do livro de códigos construtor 148, um livro de códigos adaptável construtor 150, um adaptador de ganho 152, um combinador 154, e um filtro de síntese LP 156. Inovação do livro de códigos construtores 148, adaptador de ganho 152, combinador 154, e filtro de síntese LP 156 são conectados serialmente entre o demultiplexador 122 e o manipulador de sobreposição/transação 132. Livro de códigos adaptável construtor 150 tem uma entrada conectada ao demultiplexador 122 e uma saída conectada a uma entrada adicional do combinador 154, que por sua vez, pode ser incorporado como um adicionador como indicado na figura 4. Uma entrada adicional do livro de códigos adaptável construtor 150 é conectada a uma saída do adicionador 154 a fim de obter a excitação passada dele. Adaptador de ganho 152 e filtro de síntese LP 156 tendo entradas LPC conectada a uma certa saída do multiplexador 122.
[00103] Após ter descrito a estrutura do decodificador TCX e decodificador CELP, a funcionalidade do mesmo é descrita em mais detalhes abaixo. O inicio da descrição com a funcionalidade do decodificador TCX 128 primeiro e então procede para a descrição da funcionalidade do decodificador CELP 130. Como já descritas acima, quadros LPC 32 são subdivididos em um ou mais subquadros 52. Geralmente, subquadros CELP 52 são restritos a ter um comprimento de 256 amostras de áudio. Subquadro TCX 52 pode ter diferentes comprimentos. subquadros TCX 20 ou TCX 256 52, por exemplo, tem uma amostra do comprimento de 256. Também, TCX 40 (TCX 512) subquadros 52 tem um de 512 amostras de áudio, e TCX 80 (TCX 1024) subquadros pertencem a uma comprimento da amostra de 1024, isto é, pertencem ao conjunto do quadro LPC 32. TCX 40 subquadros pode meramente ser posicionado com os dois quartos principais do quadro LPC 32 atual, ou os dois quartos traseiros dos mesmos. Assim, completamente, existem 26 diferentes combinações de diferentes subquadro tipos em que um quadro LPC 32 pode ser subdividido.
[00104] Assim, como apenas mencionado, subquadros TCX 52 são de diferentes comprimentos. Considerando a amostra dos comprimentos recém-descritos, nomeadamente 256, 512, e 1024, pode-se pensar que estes subquadro TCX não se sobrepõem a cada outro. Entretanto, isso não é correto até que o comprimento da janela e o comprimento da transformação sejam medidos em amostras é relacionada, e que seja usado a fim de realizar a decomposição do espectro da excitação. O comprimento das transformações usadas pelo windower 38 se estende, por exemplo, mais adiante a direção e extremidade traseira de cada atual subquadro TCX e a janela correspondente usada para janelas à excitação é adaptada para prontamente se estender em regiões mais adiante as extremidades traseiras e direção dos respectivos atuais subquadro TCX , a fim de compreender porções não zero da sobreposição anterior e subquadros sucessivos do subquadro atual para permitindo o cancelamento serrilhado tal como é conhecido a partir da codificação FD, por exemplo. Assim, o gerador de excitação 140 recebe quantificados coeficientes espectrais do fluxo de bits e reconstruir o espectro de excitação dele. Este espectro é escalada dependendo de uma combinação de ganho global delta do atual subquadro TCX e quadro global do quadro atual 32 no qual o subquadro atual pertence. Particularmente, a combinação pode envolver uma multiplicação entre ambos os valores no domínio linear (correspondente a uma soma no domínio logaritmo), em que ambos os ganhos dos elementos de sintaxe são definidos. Portanto, o espectro de excitação é assim escalado de acordo com os elementos de sintaxe do ganho global. Antigo espectro 142 então realiza um LPC baseado no domínio do ruído da frequência para moldar o coeficientes espectrais resultante seguida pelo transformação inversa MDCT realizada por retransformador 146 para obter o sinal de síntese de domínio. O manipulador de sobreposição/transação 132 pode realizar uma sobreposição adiciona processo entre subquadro TCX s consecutivos.
[00105] O decodificador CELP 130 atua sobre os subquadros CELP acima mencionado que tem, como observado acima, um comprimento de 256 amostras de áudio cada. Como já observado acima, o decodificador CELP 130 é configurado para construir a excitação atual como uma combinação ou adição de escalada do livro de códigos adaptável e inovação do vetor do livro de códigos. O livro de códigos adaptável construtor 150 usa o índice do livro de códigos adaptável que é recuperado a partir do fluxo de bits através do demultiplexador 122 para encontrar uma interação da parte fracionada de uma lacuna da frequência. O livro de códigos adaptável construtor 150 pode então encontrar um livro de códigos de excitação adaptável inicial do vetor v’(n) através da interpolação da excitação passada u(n) na frequência retorno e fase , isto é fração , usando um filtro de interpolação FIR. O livro de códigos de excitação adaptável é computado para o tamanho de 64 amostras. Dependendo de um elemento de sintaxe chamado índice de filtro adaptável recuperado pelo fluxo contínuo de dados, do livro de códigos adaptável construtor pode decidir se o filtrado livro de códigos adaptável é v(n) = v'(n) ou v(n) = 0.18 v'(n)+0.64 v' (n-1) + 0.18 v'(n-2).
[00106] A inovação do livro de códigos construtor 148 usa a inovação do índice do livro de códigos recuperado a partir do fluxo de bits para extrair posições e amplitudes, isto são sinais, de excitação de pulsos dentro de um algébrica vetor de códigos, isto é o vetor de inovação de código c(n). Isto é,
Figure img0025
[00107] Onde mi e si são os pulsos das posições e sinais e M é o número de pulsos. Uma vez que o vetor de código algébrico c(n) é decodificado, procedimento de nitidez da frequência é realizado. Primeiro o c(n) é filtrado por um filtro pré-ênfase definido como segue:
Figure img0026
[00108] O filtro pré-ênfase tem o papel de reduzir a energia de excitação em baixas frequências. Naturalmente, o filtro pré-ênfase pode ser definido em outro maneira. Em seguida, uma periodicidade pode ser realizada pelo inovador livro de códigos construtor 148. Essa a periodicidade do aperfeiçoamento pode ser realizada por meio de um pré-filtro adaptável com uma função de transferência definida como:
Figure img0027
[00109] onde n é a posição atual nas unidades de imediatamente grupos consecutivos de 64 amostras de áudio, e onde T é uma versão arredondada da parte inteira T0 e parte fracionada T0, frac da perda da frequência fundamental como determinado por:
Figure img0028
[00110] O pré-filtro adaptável Fp(z) de cores do espectro pelo amortecimento inter-harmônico das frequências, que são irritantes ao ouvido humano no caso de sinais de voz.
[00111] A inovação recebida e o índice do livro de códigos adaptável dentro do fluxo de bits diretamente fornece o livro de códigos adaptável ganho gp e a inovação do livro de códigos ganho fator de correção f. A inovação do livro de códigos ganho é então computado multiplicando o ganho do fator de correção f por um número estimado de inovações do livro de códigos ganho f' . Isto é c realizada pelo adaptador de ganho 152.
[00112] De acordo com a primeira alternativa acima mencionada, o adaptador de ganho 152 realiza as seguintes etapas:
[00113] Primeiro, Eque é transmitido através do ganho global transmitido e representa a média energia de excitação por superquadro 32, serve como um ganho estimado G' em db, isto é
[00114] A média inovador energia de excitação em um superquadro 32, E, é assim codificado com 6 bits por superquadro através do ganho global, e E é derivada a partir do ganho global através da sua its versão quantificada g por: E = 20.log( g)
[00115] A ganho previsto no domínio linear é então derivada pelo adaptador de ganho 152 por:
[00116] O fixo-livro de códigos quantificada ganho é então computado através do adaptador de ganho 152 por gc =1 ■ g' .
[00117] Como descrito, o adaptador de ganho 152 então escala a inovação de excitação do livro de códigos com gc, enquanto livro de códigos adaptável construtor 150 escalas o livro de códigos de excitação adaptável com gp, e uma soma ponderada de ambas as excitação do livro de códigos é formada no combinador 154.
[00118] De acordo com o segundo alternativa das alternativas delineadas acima, o estimado fixado -livro de códigos ganho g é formado pelo adaptador de ganho 152 como segue:
[00119] Primeiro, a inovação média da energia é encontrada. A inovação média da energia Ei representa a energia de inovação no domínio ponderado. É calculado pela convoluting a inovação codificada com a resposta ao impulso h2 do filtro de síntese pesado a seguir:
Figure img0029
[00120] A inovação no domínio ponderado é então obtida por um enrolamento do n=0 a 63: cw[n]=c[n]*h2[n]
[00121] A energia é então:
Figure img0030
[00122] Então, o ganho estimado G' em db é encontrada por
Figure img0031
[00123] onde, novamente, E é transmitido através do ganho global transmitido e representa a média energia de excitação por superquadro 32 no domínio ponderado. A energia média em um superquadro 32, E, é assim codificado com 8 bits por superquadro através do ganho global, e E é derivada a partir do ganho global através da sua versão quantificada g por:
Figure img0032
[00124] O ganho previsto no domínio linear é então derivado pelo adaptador de ganho 152 por:
Figure img0033
[00125] O quantificado fixo-livro de códigos ganho é então derivado pelo adaptador de ganho 152 por
Figure img0034
[00126] A descrição acima não entrar em detalhes até que a determinação do ganho TCX do espectro de excitação de acordo com as acima delineadas duas alternativas seja relacionada. O ganho TCX, pelo qual o espectro é escalado, é - como já foi descrito acima - codificado pela transmissão do elemento ganho global delta codificado em 5 bits no lado da codificação de acordo com:
Figure img0035
[00127] É decodificado pelo gerador de excitação 140, por exemplo, como segue:
Figure img0036
[00128] com g denota a versão quantificada do ganho global de gn acordo com g = 2 4 , com , por sua vez, ganho global apresentado dentro do fluxo de bits para o quadro LPC 32 ao qual o atual quadro TCX pertence.
[00129] Então, gerador de excitação 140 escala o espectro de excitação multiplicando cada coeficiente de transformação com g com
Figure img0037
[00130] De acordo com o segundo método apresentado acima, o ganho TCX é codificado pela transmissão do elemento ganho global delta codificado com Código do Comprimento Variável, por exemplo. Se o subquadro TCX atualmente sob consideração tem um tamanho de 1024 apenas 1-bit pode ser usado pelo elemento do ganho global delta, enquanto ganho global pode ser recalculado e requantificado no lado da codificação, de acordo com :
Figure img0038
[00131] Gerador de excitação 140 então deriva do ganho TCX por gindex
Figure img0039
[00132] Então computando
Figure img0040
[00133] Contudo, para os outros tamanhos de TCX, o ganho global delta pode ser computado pelo gerador de excitação 140 como segue:
Figure img0041
[00134] O ganho TCX é então decodificado pelo gerador de excitação 140 como segue:
Figure img0042
então computando
Figure img0043
[00135] A fim de obter o ganho através da qual o gerador de excitação 140 escala cada coeficiente de transformação.
[00136] Por exemplo, ganho global delta pode ser diretamente codificado em 7-bits ou usando códigos Huffman que pode produzir 4- bits em média. Assim, de acordo com a modalidade acima, é possível codificar o conteúdo de áudio usando múltiplos-modos. Na modalidade acima, três modos de codificação têm sido utilizados, nomeadamente FD, TCX e ACELP. Apesar de usar os três modo diferente é fácil ajustar a intensidade das respectivas representações decodificada a do conteúdo de áudio codificado no fluxo de bits 36. Particularmente, de acordo com ambas os método como descrito acima, é meramente necessário para igualmente aumentar / diminuir o elementos de sintaxe do ganho global contida em cada dos quadros 30 e 32, respectivamente. Por exemplo, todos estes elementos de sintaxe do ganho global pode ser aumentado por 2 a fim de aumentar igualmente a intensidade através dos diferentes modos de codificação, ou diminuir por 2 a fim de diminuir igualmente a intensidade através dos diferentes modos de partes de codificação.
[00137] Depois de ter descrito uma modalidade da presente aplicação, nas seguintes, outras modalidades são descritas que são mais genéricas e individualmente concentrar-se em aspectos da vantagem individual do codificador multimodo de áudio e decodificador descritos acima. Em outras palavras, a modalidade descritas acima representa um implementação possível para cada uma das subsequentemente delineadas três modalidades. Aa modalidade acima incorpora todas as vantagens dos aspectos para o qual as modalidades abaixo-delineadas meramente individuais se referem.
[00138] Cada uma das modalidades subsequentemente descritas concentra-se em um aspecto da acima - explicado codec de áudio multimodo que é vantajoso mais adiante à implantação especificada usadas na modalidade anterior, isto é que pode implementar diferentemente do que antes. Os aspectos as quais as modalidades abaixo-delineadas pertencem, podem ser realizados individuais e não têm de ser implementado concorrentemente como ilustrativamente descrito com respeito à modalidade acima-delineada.
[00139] Portanto, quando descrevendo as modalidades abaixo, os elementos dos respectivos codificador e decodificador modalidades são indicadas pelo uso de novas sinais de referência . Entretanto, por trás desses sinais de referência, números de referência de elementos das figuras 1 a 4 são apresentados entre parênteses, com a última elementos representando a possível implementação dos respectivos elemento dentro das subsequentemente figuras descritas. Em outras palavras, os elementos nas figuras descritas abaixo, pode ser implementado como descritas acima com respeito aos elementos indicado nos parênteses atrás da respectiva referência numeral do elemento dentro das figuras descritas abaixo, individuais ou com respeito a todos os elementos das respectivas figuras descritas abaixo.
[00140] Figuras 5a e 5b mostram um codificador de áudio multimodo e um codificador de áudio multimodo de acordo com um primeiro modalidade. O codificador de áudio multimodo da figura 5a geralmente indicado em 300 é configurado para codificar um conteúdo de áudio 302 em um codificador de fluxo de bits 304 com codificação de um primeiro subconjunto de quadros 306 em um primeiro modo de codificação 308 e um segundo subconjunto de quadros 310 em um segundo modo de codificação 312, em que o segundo subconjunto de quadros 310 é respectivamente composto de um ou mais subquadros 314, onde o codificador de áudio multimodo 300 é configurado para determinar e codificar um valor do ganho global (ganho global) por quadros, e determinar e codificar, por subquadro de pelo menos um subconjunto 316 dos subquadros do segundo subconjunto, um elemento de fluxo de bits correspondente (ganho global delta ) diferencialmente para o valor do ganho global 318 dos respectivos quadros , onde o codificador de áudio multimodo 300 é configurado de modo que uma mudança do valor do ganho global (ganho global) dos quadros dentro do fluxo de bits codificados 304 resultados em um ajuste de um nível de saída de uma representação decodificada do conteúdo de áudio no lado da decodificação .
[00141] O decodificador de áudio multimodo 320 correspondente é mostrado na figura 5b. Decodificador 320 é configurado para fornecer uma representação decodificada 322 do conteúdo de áudio 302 com base de um fluxo de bits codificados 304. Para este fim, o decodificador de áudio multimodo 320 decodifica um valor do ganho global (ganho global) por quadro 324 e 326 do fluxo de bits codificados 304, um primeiro subconjunto 324 dos quadros sendo codificado em um primeiro modo de codificação e um segundo subconjunto 326 dos quadros sendo codificado em um segundo modo de codificação , com cada quadro 326 do segundo subconjunto sendo composto de mais que um subquadro 328 e decodificar, por subquadro 328 de pelo menos um subconjunto dos subquadros 328 do segundo subconjunto 326 de quadros, um elemento de fluxo de bits correspondente (ganho global delta ) diferencialmente para o valor do ganho global dos respectivos quadros, e a codificação completa do fluxo de bits usando o valor do ganho global (ganho global) e o elemento de fluxo de bits correspondente (ganho global delta ) e decodificação os subquadros de pelo menos um subconjunto de subquadros do segundo subconjunto 326 de quadros e o valor do ganho global (ganho global) na decodificação o primeiro subconjunto de quadros, em que o decodificador de áudio multimodo 320 é configurado de modo que uma mudança no valor do ganho global (ganho global) dos quadros 324 e 326 dentro do fluxo de bits codificados 304 resultados em um ajuste 330 de um nível de saída 332 da representação decodificada 322 do conteúdo do áudio.
[00142] Como foi o caso com as modalidades da figura 1 a 4, o primeiro modo de codificação pode ser um domínio da frequência modo de codificação, enquanto o segundo modo de codificação é um modo de codificação da previsão linear. Entretanto, a modalidade da figura 5a e 5b não se restringem ao presente caso. Entretanto, modos de codificação de prevenção linear tendem a exigir um tempo menor na granularidade até que o controle do ganho global é relacionado, e, portanto, usando um modo de codificação da previsão linear para quadros 326 e um domínio da frequência modo de codificação para quadros 324 é para ser preferidos sobre ao caso contrário, de acordo com que domínio da frequência modo de codificação foi usadas para quadros 326 e um modo de codificação da previsão linear para quadros 324.
[00143] Além do mais, a modalidade das figuras 5a e 5b não se restringem para o caso onde os modos TCX e ACLEP existam para codificação dos subquadros 314. Mais, a modalidade da figura 1 a 4 pode, por exemplo, também ser implementado de acordo com a modalidade das figuras 5a e 5b, se um modo de codificação CELP está ausente. Neste caso, a condição diferencial de ambos os elementos, nomeadamente ganho global e ganho global delta permitiria uma conta para a maior sensibilidade do modo de codificação TCX contra as variações e do ganho de fixação com, no entanto, evitando dando-se as vantagens proporcionadas por um controlo de ganho global sem o desvio de decodificação e recodificação, e sem um aumento indevido de informações necessário lado.
[00144] Contudo, o decodificador de áudio multimodo 320 pode ser configurado a, na conclusão da decodificação do fluxo de bits codificados 304, decodificar os subquadros de pelo menos um subconjunto dos subquadros do segundo subconjunto 326 de quadros usando transformação da excitação previsão linear codificação (nomeadamente os quatro subquadros do quadro esquerdo 326 na figura 5b), e decodificar um subconjunto não ligado dos subquadros do segundo subconjunto 326 dos quadros pelo uso do CELP. A este respeito, o decodificador de áudio multimodo 220 pode ser configurado para decodificar, por quadro do segundo subconjunto dos quadros, um elemento adicional de fluxo de bits revelando uma decomposição dos respectivos quadro em um ou mais subquadros. Na modalidade acima mencionada, por exemplo, cada quadro LPC pode ter uma elementos de sintaxe contida nele, que identifica uma das vinte e seis possibilidades de decomposição atuais acima mencionadas do quadro LPC no quadros TCX e ACELP. Entretanto, novamente, a modalidade das figuras 5a e 5b não se restringem ao ACELP, e as duas alternativas específicas descritas acima com respeito à energia média definição de acordo com os elementos de sintaxe do ganho global.
[00145] Analogamente a modalidade acima das figuras 1 a 4, o quadro 326 pode corresponder ao quadro 310 tendo, quadros 326 ou pode ter, uma comprimento da amostra de 1024 amostras, e pelo menos subconjunto dos subquadros do segundo subconjunto de quadros para o qual o elemento de fluxo de bits ganho global delta é transmitido , pode ter uma variação o comprimento da amostra selecionado do grupo consistindo de 256, 512, e 1024 amostras, e não ligadas ao subconjunto dos subquadros pode ter uma comprimento da amostra de 256 amostras cada. Os quadros 324 do primeiro subconjunto pode ter um comprimento da amostra igual a cada outro. Como descritas acima. O decodificador de áudio multimodo 320 pode ser configurado para decodificar o valor do ganho global em 8-bits e o elemento de fluxo de bits no número variável de bits, o número dependendo de um comprimento da amostra dos respectivos subquadro. Também, o decodificador de áudio multimodo pode ser configurado para decodificar o valor do ganho global em 6-bits e para decodificar os elementos de fluxo de bits em 5-bits. Deve ser observado que aqui são diferentes possibilidades para diferencialmente codificação os elementos ganho global delta.
[00146] Como se conforme o caso com a modalidade acima das figuras 1 a 4, o ganho elementos globais pode ser definido no domínio logarítmico, nomeadamente linear com a intensidade da amostra do áudio. O mesmo se aplica ao ganho global delta. A fim de codificar ganho global delta, o codificador de áudio multimodo 300 pode sujeitar a uma taxa de um ganho linear elemento dos respectivos subquadros 316, tais como acima mencionada o ganho_TCX (tais como o primeiro fator diferencialmente codificado da escala), e o ganho quantificado global do quadro correspondente 310, isto é o linearizado (aplicado a uma função exponencial) versão do ganho global, para um logaritmo tais como o logaritmo para a base 2, a fim de obter os elementos de sintaxe ganho global delta no domínio logaritmo. Como e conhecido na técnica, o mesmo resultado pode ser obtido realizando uma subtração no domínio logaritmo. Portanto, o decodificador de áudio multimodo 320 pode ser configurado primeiramente, retransmissão dos elementos de sintaxe ganho global delta e ganho global por uma funções exponenciais para o domínio linear a fim de multiplicar os resultados no domínio linear a fim de obter o ganho com que o decodificador de áudio multimodo tem para escala do atual subquadros tais como o codificado TCX da excitação e o espectro coeficiente de transformação do mesmo, como descritas acima. Como é conhecido na técnica, o mesmo resultado pode ser obtido adicionando ambos os elementos de sintaxe no domínio do logaritmo antes da transição para o domínio linear.
[00147] Além disso, como descritas acima, o codec de áudio multimodo das figuras 5a e 5b podem ser configurados de modo que o valor do ganho global é codificado no número fixo de, por exemplo, oito bits e o elemento de fluxo de bits em um número variável de bits, o número dependendo de um comprimento da amostra dos respectivos subquadro. Alternativamente, o valor do ganho global pode ser codificado em um número fixo de, por exemplo, seis bits e o elemento de fluxo de bits em, por exemplo, cinco bits.
[00148] Assim, as modalidades das figuras 5a e 5b usadas nas vantagens de codificação diferenciais do ganho elementos de sintaxe do subquadros a fim de contar para as diferentes necessidades de modos de codificação misturados até que o momento e o bit de granularidade no controle do ganho seja relacionado, a fim de por um lado, evitar deficiências da qualidade indesejadas e para contudo alcançar as vantagens envolvidas com o controle de ganho global, nomeadamente evitando a necessidade de decodificar e recodificar a fim de realizar um escalonamento da intensidade.
[00149] Em seguida, com respeito às figuras 6a e 6b, outro modalidade para a codec de áudio multimodo e o codificador correspondente e decodificador é descrito. Figura 6a mostra um codificador de áudio multimodo 400 configurado para codificar e conteúdo de áudio 402 em um fluxo de bits codificados 404 por codificação CELP um primeiro subconjunto de quadros do conteúdo de áudio 402 denotados 406 na figura 6a, e transformação da codificação de um segundo subconjunto dos quadros denotados 408 na figura 6a. O codificador de áudio multimodo 400 compreende um codificador CELP 410 e um codificador de transformação 412. O codificador CELP 410, por sua vez, compreende um analisador LP 414 e um gerador de excitação 416. O codificador CELP é configurado para codificar um quadro atual do primeiro subconjunto. Para este fim, o analisador LP 414 gera LPC filtro coeficiente 418 para o quadro atual e codifica mesma no fluxo de bits codificados 404. O gerador de excitação 416 determina uma excitação atual do quadro atual do primeiro subconjunto, que quando filtrado por um filtro de síntese da previsão linear com base em os coeficientes dos filtros de previsão linear 418 dentro do fluxo de bits codificados 404, recuperar um quadro atual do primeiro subconjunto, definido por uma excitação passada 420 e um índice do livro de códigos para o quadro atual do primeiro subconjunto e codificação o índice do livro de códigos422 no fluxo de bits codificados 404. O codificador de transformação 412 é configurado para codificar um quadro atual do segundo subconjunto 408 pela realização de uma transformação tempo-para-domínio espectral em um sinal de domínio de tempo para o quadro atual para obter espectro da informação e codificar a espectro da informação 424 no fluxo de bits codificados 404. O codificador de áudio multimodo 400 é configurado para codificar um valor do ganho global 426 no fluxo de bits codificados 404, o valor do ganho global 426 dependendo de uma energia de uma versão do conteúdo de áudio do quadro atual do primeiro subconjunto 406 filtrado com um filtro analisador da previsão linear dependendo no coeficiente da previsão linear, ou uma energia de sinal do domínio de tempo. No caso da modalidade acima da figura 1 a 4, por exemplo, o codificador de transformação 412 foi implementado como um codificador TCX e o sinal de domínio de tempo foram à excitação dos respectivos quadros. Também, o resultado da filtragem o conteúdo de áudio 402 do quadro atual do primeiro subconjunto (CELP) filtrado com o filtro analisador da previsão linear - ou a versão modificada do mesmo na forma do filtro de ponderação A (z/n) - dependendo do coeficiente de previsão linear 418, resultados em uma representação da excitação. O valor do ganho global 426 assim depende sobre ambas as energias de excitação de ambos os quadros.
[00150] Entretanto, a modalidade das figuras 6a e 6b não se restringem a codificação da transformação TCX. É imaginável que outra transformação do esquema de codificação, tais como AAC, se misturado com a codificação CELP do codificador CELP 410.
[00151] Figura 6b mostra o decodificador de áudio multimodo correspondente ao codificador da figura 6a. Como mostrado nele, o decodificador da figura 6b geralmente indicado em 430 é configurado para fornecer uma representação decodificada 432 de um conteúdo de áudio com base de um fluxo de bits codificados 434, um primeiro subconjunto de quadros dos quais é CELP codificado (indicado com "1" na figura 6b), e um segundo subconjunto de quadros dos quais é transformações codificadas (indicado com "2" na figura 6b). O decodificador 430 compreende um decodificador CELP 436 e um decodificador de transformação 438. O decodificador CELP 436 compreende um gerador de excitação 440 e um filtro de síntese da previsão linear 442.
[00152] O decodificador CELP 440 é configurado para decodificar um quadro atual do primeiro subconjunto. Para este fim, o gerador de excitação 440 gera uma excitação atual 444 do quadro atual através da construção de uma excitação do livro de códigos com base em uma excitação passada 446, e um índice do livro de códigos 448 do quadro atual do primeiro subconjunto dentro do fluxo de bits codificados 434, e definição um ganho da excitação do livro de códigos com base em um valor do ganho global 450 dentro do fluxo de bits codificados 434. O filtro de síntese da previsão linear é configurado para filtrar a excitação atual 444 com base em coeficientes dos filtros de previsão linear 452 do quadro atual dentro do fluxo de bits codificados 434. O resultado da representa síntese de filtragem, ou é usado, para obter a representação decodificada432 no quadro correspondente para o quadro atual dentro fluxo de bits 434. O decodificador de transformação 438 é configurado para decodificar um quadro atual do segundo subconjunto de quadros através da informação espectral da construção 454 para o quadro atual do segundo subconjunto a partir do fluxo de bits codificados 434 e realização de uma transformação do tempo espectral-a-domínio na informação espectral para obter um sinal de domínio de tempo de modo que um nível do sinal de domínio de tempo depende no valor do ganho global 450. Como observado acima, a informação espectral pode ser o espectro da excitação no caso de um decodificador de transformação sendo um TCX decodificador, ou o conteúdo de áudio original no caso de um modo de codificação FD.
[00153] O gerador de excitação 440 pode ser configurado para, gerando uma excitação atual 444 do quadro atual do primeiro subconjunto, construir um livro de códigos de excitação adaptável com base em uma excitação passada e um índice do livro de códigos adaptável do quadro atual do primeiro subconjunto dentro do fluxo de bits codificados , construir uma inovação de excitação do livro de códigos com base em uma inovação índice do livro de códigos para o quadro atual do primeiro subconjunto dentro do fluxo de bits codificados, definido, como o ganho da excitação do livro de códigos , um ganho da inovação excitação do livro de códigos com base em o valor do ganho global dentro do fluxo de bits codificados , e combinar o livro de códigos de excitação adaptável e a inovação de excitação do livro de códigos para obter a excitação atual 444 do quadro atual do primeiro subconjunto. Isto é, um gerador de excitação 444 pode ser incorporado como descritas acima com respeito à Figura 4, mas não faz necessariamente têm a fazê-lo.
[00154] Além disso, o decodificador de transformação pode ser configurado de modo que a espectro da informação refere-se a uma excitação atual dos quadros atuais, e o decodificador de transformação 438 pode ser configurado para, na decodificação um quadro atual do segundo subconjunto, espectralmente da excitação atual do quadro atual do segundo subconjunto de acordo com um filtro de síntese da previsão linear função de transferência definido por coeficientes dos filtros de previsão linear para o quadro atual do segundo subconjunto dentro do fluxo de bits codificados 434, para que a realização da transformação do tempo espectral-a-domínio na espectro da informação resultados in a representação do decodificador 432 do conteúdo do áudio. Em outras palavras, o decodificador de transformação 438 pode ser incorporado como um codificador TCX, como descrito acima com respeito à Figura 4, mas isto não e obrigatório.
[00155] O decodificador de transformação 438 pode, além disso, ser configurado para realizar a espectro da informação convertendo os coeficientes dos filtros de previsão linear em uma previsão linear do espectro e ponderação do espectro da informação da excitação atual com a previsão linear espectro. Isto tem sido descrito acima com respeito a 144. Como também descrito acima, o decodificador de transformação 438 pode ser configurado para escalar o espectro informação com o valor do ganho global 450. Como tal, o decodificador de transformação 438 pode ser configurado para construir a espectro da informação para o quadro atual do segundo subconjunto pelo uso só espectro coeficiente de transformação dentro do fluxo de bits codificados, e escalada dos fatores dentro do fluxo de bits codificados para escalonamento o espectro coeficiente de transformação no espectro granularidade e bandas de fatores de escala, com escalonamento a escalada dos fatores com base no valor do ganho global, assim como para obter a representação decodificada 432 do conteúdo do áudio.
[00156] A modalidade das figuras 6a e 6b realçar os aspectos vantajoso da modalidade das figuras 1 a 4, de acordo com o qual é o ganho da excitação do livro de códigos de acordo com o qual o ajuste de ganho da parte codificada CELP é acoplada a ajustabilidade do ganho ou habilidade de controle da parte das transformações codificadas.
[00157] As próximas modalidades descritas com respeito às figuras 7a e 7b concentram-se no codec CELP porções descritas nas modalidades acima mencionadas sem necessitando da existência do outro modo de codificação. Mais, o conceito de codificação CELP , descrito com respeito às figuras 7a e 7b, concentra-se no segundo alternativa descritas com respeito às figuras 1 a 4 de acordo com que a habilidade de controle do ganho dos dados codificados CELP é realizada implementando o habilidade de controle do ganho no domínio ponderado, a fim de alcançar um ajuste de ganho da reprodução do decodificador com uma possível granularidade fina que não é possível alcançar em um CELP convencional. Além do mais, computando o ganho no domínio ponderado acima mencionado pode melhorar a qualidade do áudio.
[00158] Novamente, Figura 7a mostra o codificador e Figura 7b mostra o decodificador correspondente. O codificador CELP da figura 7a compreende um analisador LP 502, e gerador de excitação 504, e uma energia determinadora 506. O analisador de previsão linear é configurado para gerar coeficiente da previsão linear 508 para o quadro atual 510 de um conteúdo de áudio 512 e codificar os coeficientes dos filtros de previsão linear 508 em um fluxo de bits 514. O gerador de excitação 504 é configurado para determinar a excitação atual 516 do quadro atual 510 como uma combinação 518 de um livro de códigos de excitação adaptável 520 e uma inovação de excitação do livro de códigos 522, que quando filtrado por um filtro de síntese da previsão linear com base em os coeficientes dos filtros de previsão linear 508, recuperar um quadro atual 510, pela construção do livro de códigos de excitação adaptável 520 por uma excitação passada 524 e um índice do livro de códigos adaptável 526 para o quadro atual 510 e codificação o índice do livro de códigos adaptável 526 no fluxo de bits 514, e construção a inovação de excitação do livro de códigos definido por uma inovação índice do livro de códigos528 para o quadro atual 510 e codificação a inovação índice do livro de códigos no fluxo de bits 514.
[00159] A energia determinadora 506 é configurado para determinar uma energia de uma versão do conteúdo de áudio 512 do quadro atual 510, filtrado por um filtro de ponderação emitido a partir (do derivada de) a análise de previsão linear para obter um valor do ganho 530, e codificação o valor do ganho 530 no fluxo de bits 514, o filtro de ponderação sendo construído a partir do coeficiente da previsão linear 508.
[00160] De acordo com a descrição acima, o gerador de excitação 504 pode ser configurado a, na construção o livro de códigos de excitação adaptável 520 e a inovação de excitação do livro de códigos 522, minimiza uma medida da distorção perceptiva em relação a o conteúdo de áudio 512. Além disso, o analisador de previsão linear 502 pode ser configurado para determinar os coeficientes dos filtros de previsão linear 508 por análise da previsão linear aplicado para uma janela e, de acordo com a predeterminado filtro pré-ênfase , versão pré-enfatizada do conteúdo do áudio. O gerador de excitação 504 pode ser configurado para, na construção o livro de códigos de excitação adaptável e a inovação de excitação do livro de códigos , minimiza a perceptivo ponderado distorção medida em relação a o conteúdo de áudio usando a perceptivo ponderação filtro: W (z)= A (z /Y), onde Y é um fator de ponderação perceptivo e A(z) é 1/H(z), onde H(z) é a previsão linear filtro de síntese, e em que o energia determinadora é configurado para usar o filtro de ponderação perceptivo como um filtro de ponderação. Particularmente , a minimização pode ser realizada usando um perceptivo ponderado da distorção medida em relação a o conteúdo de áudio usando a ponderação perceptiva do filtro de síntese:
Figure img0044
[00161] onde Y é a perceptivo fator de ponderação , A (z) é uma versão quantificada do filtro de síntese da previsão linear
Figure img0045
um fator de alta frequência ênfase, e em que o energia determinadora (506) é configurado para usar o filtro de ponderação perceptivo W(z) = A(z /y) como um filtro de ponderação.
[00162] Além disso, para causar a manutenção síncrona entre o codificador e o decodificador, o gerador de excitação 504 pode ser configurado para realizar uma atualização da excitação, por a) estimar uma inovação de excitação do livro de códigos energia como determinado por uma primeira informação contida dentro da inovação índice do livro de códigos (como transmitidas dentro do fluxo de bits), tais como o número acima mencionado, posições e sinais da inovação do vetor do livro de códigos pulsos, com filtragem da respectiva inovação do vetor do livro de códigos com H2(z), e determinando a energia do resultado, b) a partir de uma taxa entre a energia assim derivada e uma energia determinado pelo ganho global a fim de obter um ganho previsto gc' c) multiplicar o ganho previsto g' com a inovação do livro de códigos do fator de correção, isto é o segundo informação contida dentro da inovação do índice do livro de códigos, para produzir a inovação atual do livro de códigos do ganho. d) realmente gerar a excitação do livro de códigos - servindo como a excitação passada para o próximo quadro para ser o CELP ser codificado - através da combinação do livro de códigos de excitação adaptável e da inovação de excitação do livro de códigos com a ponderação da última com a inovação atual da excitação do livro de códigos .
[00163] Figura 7b mostra o decodificador correspondente CELP como tendo um gerador de excitação 450 e um filtro de síntese LP 452. O gerador de excitação 440 pode ser configurado para gerar uma excitação atual 542 para o quadro atual 544, construindo um livro de códigos de excitação adaptável 546 com base em uma excitação passada 548 e um índice do livro de códigos adaptável 550 para o quadro atual 544, dentro do fluxo de bits, construção uma inovação de excitação do livro de códigos 552 com base em uma inovação índice do livro de códigos554 para o quadro atual 544 dentro do fluxo contínuo de dados, computando um estimativa de uma energia da inovação excitação do livro de códigos espectralmente ponderado por um filtro de síntese ponderado da previsão linear H2 construído dos coeficientes dos filtros de previsão linear 556 dentro do fluxo contínuo de dados, definição um ganho 558 da inovação excitação do livro de códigos 552 com base em uma taxa entre um valor do ganho 560 dentro do fluxo de bits e a energia estimada, e combinando o livro de códigos de excitação adaptável e inovação excitação do livro de códigos para obter a excitação atual 542. O filtro de síntese da previsão linear 542 filtros a excitação atual 542 com base em os coeficientes dos filtros de previsão linear 556.
[00164] O gerador de excitação 440 pode ser configurado para, na construção o livro de códigos de excitação adaptável 546, filtro a excitação passada 548 com a filtro dependendo no índice do livro de códigos adaptável 546. Além disso, o gerador de excitação 440 pode ser configurado para, na construção a inovação de excitação do livro de códigos 554 de modo que a última compreende um vetor zero com um número de pulsos não zero, o número e posições dos pulsos não zero sendo indicado pela inovação do índice do livro de códigos 554. O gerador de excitação 440 pode ser configurado para computar a estimativa da energia da inovação da excitação do livro de códigos 554, e o filtro da inovação de excitação do livro de códigos 554 com
Figure img0046
[00165] em que o filtro de síntese da previsão linear é configurado para filtrar a excitação atual 542 de acordo com 1 A (z) , onde W(z) = A(z/y) e Y é um fator de ponderação perceptivo, Hemph ~1 _ a z e α é um fator de alta frequência ênfase, em que o gerador de excitação 440 é além disso configurado para computar uma soma quadrática das amostras da inovação filtrada da excitação do livro de códigos para obter a estimativa da energia.
[00166] O gerador de excitação 540 pode ser configurado para, na combinando o livro de códigos de excitação adaptável 556 e a inovação de excitação do livro de códigos 554, a partir de uma soma ponderado do livro de códigos de excitação adaptável 556 ponderado com uma ponderação fator dependendo no índice do livro de códigos adaptável 556, e a inovação de excitação do livro de códigos 554 ponderado com o ganho.
[00167] Considerações adicionais para modo LPD são delineadas na lista a seguir: • Qualidade melhorias pode ser alcançada reciclando o ganho VQ no ACELP para corresponder mais com precisão as estatísticas do novo ajuste do ganho. • O ganho global codificação no AAC poderia ser modificado por • codificá-lo em 6/7 bits em vez de 8 bits, como é feito em TCX. Pode funcionar para os pontos de exploração atuais, mas pode ser uma limitação quando a entrada de áudio tem uma resolução superior a 16 bits. • aumentar a resolução do ganho global unificada para coincidir com a quantificação TCX (isto corresponde à segunda abordagem descrita acima): a maneira como os fatores de escala são aplicadas na AAC, não é necessário dispor de um tal quantificação precisas. Além disso, será implica uma série de modificações na estrutura de AAC e um maior consumo de bits para os fatores de escala. • Os ganhos de TCX globais podem ser quantificados antes da quantificação dos coeficientes espectrais: isso é feito desta forma, em AAC e permite para a quantização dos coeficientes espectrais para ser a única fonte de erro. Esta abordagem parece ser a maneira mais elegante de fazer. No entanto, os ganhos codificados TCX globais representam atualmente uma energia, a quantidade de que é também útil em ACELP. Esta energia foi usado nos acima mencionados ganho abordagens de controle de unificação como uma ponte entre o esquema de codificação para duas codificação dos ganhos.
[00168] As modalidades acima são transferíveis para concretizações onde SBR é utilizado. Os SBR codificação do envelope de energia podem ser realizados de tal modo que as energias de banda espectral para ser reproduzidos são transmitidas / codificadas em relação ao / diferencialmente à energia da energia de banda de base, ou seja, a energia da banda espectral para o qual o acima mencionado codec concretizações é aplicado.
[00169] No SBR convencional, o envelope de energia é independente a partir da energia de largura de banda do núcleo. O envelope de energia da banda estendida é então reconstruído totalmente. Em outras palavras, quando a largura de banda do núcleo é o nível ajustado isso não afetará a banda alargada que vai ficar inalterado.
[00170] No SBR, dois esquemas de codificação podem ser usados para transmitir as energias das bandas de frequência diferentes. O primeiro esquema consiste em uma condição diferencial na direção do momento. As energias dos diferentes bandas são diferencialmente codificadas a partir de bandas correspondentes do quadro anterior. Ao utilizar este sistema de codificação, as energias quadro atual será automaticamente ajustado em caso das energias quadro anteriores já foram processados.
[00171] O esquema de codificação segundo é um delta de codificação das energias na direção de frequência. A diferença entre a energia da banda corrente e a energia da banda anterior em frequência é quantificada e transmitida. Só a energia da primeira banda é absolutamente codificada. A codificação desta primeira energia da banda pode ser modificada e pode ser feita em relação à energia da largura de banda do núcleo. Deste modo, a largura de banda estendida é automaticamente nível ajustado quando a largura de banda do núcleo é modificado.
[00172] Outro método para a codificação do envelope SBR de energia podem utilizar alterando a etapa de quantificação da energia da primeira banda quando se utiliza o delta de codificação em direção frequência a fim de obter a granularidade mesmo que para o elemento de ganho global comum do núcleo codificador. Desta forma, um ajuste do nível total poderia ser alcançado através da modificação tanto o índice do ganho global comum do codificador do núcleo e do índice da energia primeira banda de SBR quando delta codificação em direção frequência é usada.
[00173] Assim, em outras palavras, um decodificador de SBR pode compreender qualquer um dos decodificadores acima como um decodificador de núcleo para decodificar parte do núcleo-codificador de um fluxo de bits. O decodificador de SBR pode então decodificar as energias de envelope para uma banda espectral para ser replicada, a partir de uma parte de SBR a corrente de bits, determinar uma energia do sinal de banda base e dimensionar as energias de envelope de acordo com uma energia do sinal de banda de base. Fazendo isso, a banda replicada espectral da representação reconstruída do conteúdo de áudio tem uma energia que inerentemente escalas com os acima mencionados elementos de sintaxe ganho global.
[00174] Assim, de acordo com as modalidades acima, a unificação do ganho global para USAC pode funcionar da seguinte maneira : não existe atualmente um ganho global de 7-bits para cada quadro TCX(comprimento 256, 512 ou 1024 amostras), ou correspondentemente um 2-bit valor de energia média para cada quadro ACELP-(comprimento 256 amostras). Não há nenhum valor global por 1024 quadro, em contraste com a quadros AAC. Para unificar isso, um valor global por 1024 quadro com 8 bits poderia ser introduzido para as partes TCX / ACELP, e os valores correspondentes por quadros TCX / ACELP podem ser diferencialmente codificados para este valor global. Devido a esta codificação diferencial, o número de bits para estas diferenças individuais podem ser reduzidos.
[00175] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos também representarem uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou uma característica de uma etapa do método. Analogamente, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou característica de um aparelho correspondente. Algumas ou todas as etapas do método pode ser executado por (ou usando) um hardware aparelho, como por exemplo, um microprocessador, um computador programável ou um circuito electrónico. Em algumas modalidades, alguns um ou mais dos etapas mais importantes do método pode ser executado por um tal aparelho.
[00176] O sinal codificado inventivo de áudio pode ser armazenado em um meio de armazenamento digital ou podem ser transmitidos através de um meio de transmissão, tais como um meio de transmissão sem fios ou um meio de transmissão com fios tal como a Internet.
[00177] Dependendo dos requisitos de implementação determinada, modalidades da invenção pode ser implementado em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma ROM, a PROM, uma EPROM, uma EEPROM ou memória flash, ter o controle eletronicamente legível sinais armazenados nela, que cooperam (ou são capazes de cooperar) com um sistema de computador programável de tal modo que o respectivo método seja realizado. Portanto, o meio de armazenamento digital pode ser legível para computador.
[00178] Algumas modalidades de acordo com a invenção compreendem um suporte de dados tendo sinais de controle de leitura eletrônica, que são capazes de cooperar com um sistema de computador programável, de tal modo que um dos métodos aqui descrito é executado.
[00179] Geralmente, modalidades da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código do programa sendo operativo para a realização de um dos métodos, quando o produto programa de computador é executado num computador. O código do programa pode, por exemplo, ser armazenado numa portadora legível pela máquina.
[00180] Outras modalidades compreendem o programa de computador para a realização de um dos métodos aqui descritos, armazenados numa máquina portadora legível.
[00181] Em outras palavras, uma modalidade do método inventivo é, por conseguinte, um programa de computador tendo um código de programa para a realização de um dos métodos aqui descritos, quando o programa de computador é executado em um computador.
[00182] Uma outra modalidade dos métodos da invenção é, portanto, um transportador de dados (ou um meio de armazenamento digital, ou um meio legível pelo computador) que compreende, nela gravada, o programa de computador para a realização de um dos métodos aqui descritos. O transportador de dados, o meio de armazenamento digital ou o meio são tipicamente registados tangível e / ou não-transitória.
[00183] Uma modalidade adicional do método inventivo é, portanto, uma fluxo de dados ou uma sequência de sinais que representam o programa de computador para a realização de um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais podem, por exemplo, ser configurados para ser transferidos através de uma ligação de comunicação de dados, por exemplo, através da Internet.
[00184] Uma modalidade compreende ainda um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado para ou adaptado para executar um dos métodos aqui descritos.
[00185] Uma outra modalidade compreende um computador tendo instalado no mesmo o programa de computador para a realização de um dos métodos aqui descritos.
[00186] Uma outra modalidade de acordo com a invenção compreende um aparelho ou um sistema configurado para transferir (por exemplo, por via eletrônica ou opticamente) um programa de computador para a realização de um dos métodos aqui descritos para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhante. O aparelho ou sistema pode, por exemplo, compreender um servidor de ficheiros para transferir o programa de computador para o receptor.
[00187] Em algumas modalidades, um dispositivo lógico programável (por exemplo um campo de matriz programável portão) pode ser usado para executar algumas ou todas as funcionalidades dos métodos aqui descritos. Em algumas modalidades, um campo de matriz programável portão pode cooperar com um microprocessador, a fim de realizar um dos métodos aqui descritos. Geralmente, os métodos são de preferência realizados por qualquer aparelho de hardware.
[00188] As modalidades acima descritas são meramente ilustrativas dos princípios do presente invenção. Entende-se que modificações e variações dos arranjos e os detalhes aqui descritos, serão evidentes para os outros peritos na técnica. É intenção, portanto, para ser limitada apenas pelo âmbito das reivindicações da patente pendentes e não pelos detalhes específicos apresentados a título de descrição e explicação das modalidades aqui descritas.

Claims (8)

1. Decodificador de áudio multimodo (120; 320) para fornecer uma representação decodificada (322) do conteúdo de áudio (24; 302) com base em um fluxo de bits codificados (36; 304), o decodificador de áudio multimodo (120; 320) caracterizado pelo fato de que é configurado para decodificar um valor do ganho global por quadro (324, 326) do fluxo de bits codificados (36; 304), em que um primeiro subconjunto (324) dos quadros sendo codificados em um primeiro modo de codificação e um segundo subconjunto (326) dos quadros sendo codificados em um segundo modo de codificação, com cada quadro do segundo subconjunto sendo composto de mais que um subquadro (328), decodificar, por subquadro de pelo menos um subconjunto dos subquadros (328) do segundo subconjunto de quadros, um elemento de fluxo de bits correspondente diferencialmente para o valor do ganho global dos respectivos quadros, e decodificação completa o fluxo de bits codificados (36; 304) usando o valor do ganho global e o elemento de fluxo de bits correspondente em decodificação dos subquadros de pelo menos um subconjunto dos subquadros (328) do segundo subconjunto de quadros e o valor do ganho global em decodificação do primeiro subconjunto de quadros, em que o decodificador de áudio multimodo é configurado de modo que uma mudança do valor do ganho global dos quadros dentro do fluxo de bits codificados (36; 304) resulta em um ajuste (330) de um nível de saída (332) da representação decodificada (322) do conteúdo de áudio (24; 302).
2. Decodificador de áudio multimodo de acordo com a reivindicação 1, caracterizado pelo fato de que o primeiro modo de codificação é um modo de codificação de frequência de domínio, e o segundo modo de codificação é um modo de codificação de previsão linear.
3. Decodificador de áudio multimodo de acordo com a reivindicação 2, caracterizado pelo fato de que o decodificador de áudio multimodo é configurado para, no preenchimento de uma decodificação do fluxo de bits codificados (36; 304), decodificar os subquadros de pelo menos um subconjunto dos subquadros (328) do segundo subconjunto de quadros (310) usando decodificação da previsão linear da transformação da excitação, e decodificar um subconjunto não ligado dos subquadros do segundo subconjunto dos quadros pelo uso do CELP.
4. Decodificador de áudio multimodo de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pelo fato de que o decodificador de áudio multimodo é configurado para decodificar, por quadro do segundo subconjunto (326) dos quadros, um elemento adicional de fluxo de bits revelando uma decomposição do respectivo quadro em um ou mais subquadros.
5. Decodificador de áudio multimodo de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que os quadros do segundo subconjunto são de iguais comprimentos, e pelo menos um subconjunto dos subquadros (328) do segundo subconjunto de quadros tem uma variação do comprimento da amostra selecionada do grupo que consiste em 256, 512 e 1024 amostras, e um subconjunto não ligado dos subquadros (328) tem um comprimento da amostra de 256 amostras.
6. Decodificador de áudio multimodo de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o decodificador de áudio multimodo é configurado para decodificar o valor do ganho global em um número fixo de bits e o elemento de fluxo de bits sobre um número variável de bits, o número dependendo sobre um comprimento da amostra do respectivo subquadro.
7. Decodificador de áudio multimodo de acordo com qualquer uma das reivindicações 1 a 5, caracterizado pelo fato de que o decodificador de áudio multimodo é configurado para decodificar o valor do ganho global no número fixo de bits e para decodificar o elemento de fluxo de bits no número fixo de bits.
8. Decodificador de áudio multimodo para fornecer uma representação decodificada (432) de um conteúdo de áudio com base de um fluxo de bits codificados (434), um primeiro subconjunto de quadros dos quais é CELP codificado e um segundo subconjunto de quadros dos quais é transformações codificadas, o decodificador de áudio multimodo caracterizado pelo fato de que compreende: um decodificador CELP (436) configurado para decodificar um quadro atual do primeiro subconjunto, o decodificador CELP compreendendo: um gerador de excitação (440) configurado para gerar uma excitação atual (444) do quadro atual do primeiro subconjunto construindo uma excitação do livro de códigos com base em uma excitação passada (446) e um índice do livro de códigos (448) do quadro atual do primeiro subconjunto dentro do fluxo de bits codificados , e definição de um ganho da excitação do livro de códigos com base em um valor do ganho global (450) dentro do fluxo contínuo de bits codificado (434); e um filtro de síntese da previsão linear (442) configurado para filtrar a excitação atual (444) com base em coeficientes dos filtros de previsão linear (452) para o quadro atual do primeiro subconjunto dentro do fluxo de bits codificados; um decodificador de transformação (438) configurado para decodificar um quadro atual do segundo subconjunto por
BR112012009490-4A 2009-10-20 2010-10-19 ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados BR112012009490B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US25344009P 2009-10-20 2009-10-20
US61/253,440 2009-10-20
PCT/EP2010/065718 WO2011048094A1 (en) 2009-10-20 2010-10-19 Multi-mode audio codec and celp coding adapted therefore

Publications (2)

Publication Number Publication Date
BR112012009490A2 BR112012009490A2 (pt) 2016-05-03
BR112012009490B1 true BR112012009490B1 (pt) 2020-12-01

Family

ID=43335046

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112012009490-4A BR112012009490B1 (pt) 2009-10-20 2010-10-19 ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados

Country Status (18)

Country Link
US (3) US8744843B2 (pt)
EP (1) EP2491555B1 (pt)
JP (2) JP6214160B2 (pt)
KR (1) KR101508819B1 (pt)
CN (2) CN102859589B (pt)
AU (1) AU2010309894B2 (pt)
BR (1) BR112012009490B1 (pt)
CA (3) CA2862712C (pt)
ES (1) ES2453098T3 (pt)
HK (1) HK1175293A1 (pt)
MX (1) MX2012004593A (pt)
MY (2) MY167980A (pt)
PL (1) PL2491555T3 (pt)
RU (1) RU2586841C2 (pt)
SG (1) SG10201406778VA (pt)
TW (1) TWI455114B (pt)
WO (1) WO2011048094A1 (pt)
ZA (1) ZA201203570B (pt)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2311034B1 (en) * 2008-07-11 2015-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
ES2805349T3 (es) 2009-10-21 2021-02-11 Dolby Int Ab Sobremuestreo en un banco de filtros de reemisor combinado
TW201214415A (en) * 2010-05-28 2012-04-01 Fraunhofer Ges Forschung Low-delay unified speech and audio codec
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
SG191771A1 (en) 2010-12-29 2013-08-30 Samsung Electronics Co Ltd Apparatus and method for encoding/decoding for high-frequency bandwidth extension
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
MY166394A (en) 2011-02-14 2018-06-25 Fraunhofer Ges Forschung Information signal representation using lapped transform
CN103477387B (zh) 2011-02-14 2015-11-25 弗兰霍菲尔运输应用研究公司 使用频谱域噪声整形的基于线性预测的编码方案
BR112013020482B1 (pt) 2011-02-14 2021-02-23 Fraunhofer Ges Forschung aparelho e método para processar um sinal de áudio decodificado em um domínio espectral
KR101525185B1 (ko) 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
PL2676265T3 (pl) 2011-02-14 2019-09-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób do kodowania sygnału audio z stosowaniem zrównanej części antycypacji
EP3373296A1 (en) 2011-02-14 2018-09-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise generation in audio codecs
ES2639646T3 (es) 2011-02-14 2017-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
PL2676264T3 (pl) 2011-02-14 2015-06-30 Fraunhofer Ges Forschung Koder audio estymujący szum tła podczas faz aktywnych
KR101551046B1 (ko) 2011-02-14 2015-09-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
US9626982B2 (en) * 2011-02-15 2017-04-18 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
EP2681734B1 (en) 2011-03-04 2017-06-21 Telefonaktiebolaget LM Ericsson (publ) Post-quantization gain correction in audio coding
NO2669468T3 (pt) 2011-05-11 2018-06-02
KR102070429B1 (ko) * 2011-10-21 2020-01-28 삼성전자주식회사 에너지 무손실 부호화방법 및 장치, 오디오 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 오디오 복호화방법 및 장치
EP2862167B1 (en) * 2012-06-14 2018-08-29 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for scalable low-complexity audio coding
JP6133422B2 (ja) * 2012-08-03 2017-05-24 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法
EP2922052B1 (en) * 2012-11-13 2021-10-13 Samsung Electronics Co., Ltd. Method for determining an encoding mode
CN103915100B (zh) * 2013-01-07 2019-02-15 中兴通讯股份有限公司 一种编码模式切换方法和装置、解码模式切换方法和装置
CA2899542C (en) 2013-01-29 2020-08-04 Guillaume Fuchs Noise filling without side information for celp-like coders
WO2014118156A1 (en) * 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program
SI3848929T1 (sl) * 2013-03-04 2023-12-29 Voiceage Evs Llc Naprava in metoda za zmanjšanje šuma kvantizacije v dekoderju časovne domene
JP2016520854A (ja) * 2013-03-21 2016-07-14 インテレクチュアル ディスカバリー カンパニー リミテッド オーディオ信号大きさの制御方法及び装置
CN105247614B (zh) * 2013-04-05 2019-04-05 杜比国际公司 音频编码器和解码器
CN107818789B (zh) 2013-07-16 2020-11-17 华为技术有限公司 解码方法和解码装置
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
PL3069338T3 (pl) 2013-11-13 2019-06-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder do kodowania sygnału audio, system przesyłania audio i sposób określania wartości korekcji
US9502045B2 (en) * 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
CN110444219B (zh) * 2014-07-28 2023-06-13 弗劳恩霍夫应用研究促进协会 选择第一编码演算法或第二编码演算法的装置与方法
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
EP2996269A1 (en) * 2014-09-09 2016-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio splicing concept
WO2016108655A1 (ko) 2014-12-31 2016-07-07 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
KR20160081844A (ko) * 2014-12-31 2016-07-08 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
EP3067886A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
TWI693594B (zh) 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP3079151A1 (en) * 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
KR102398124B1 (ko) 2015-08-11 2022-05-17 삼성전자주식회사 음향 데이터의 적응적 처리
US9787727B2 (en) 2015-12-17 2017-10-10 International Business Machines Corporation VoIP call quality
US10109284B2 (en) 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals
WO2019099658A2 (en) * 2017-11-17 2019-05-23 Skywave Networks Llc Method of encoding and decoding data transferred via a communications link
WO2020253941A1 (en) * 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs
KR20210158108A (ko) 2020-06-23 2021-12-30 한국전자통신연구원 양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기
CN114650103B (zh) * 2020-12-21 2023-09-08 航天科工惯性技术有限公司 一种泥浆脉冲数据传输方法、装置、设备及存储介质

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL95753A (en) * 1989-10-17 1994-11-11 Motorola Inc Digits a digital speech
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
IT1257065B (it) * 1992-07-31 1996-01-05 Sip Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.
IT1257431B (it) * 1992-12-04 1996-01-16 Sip Procedimento e dispositivo per la quantizzazione dei guadagni dell'eccitazione in codificatori della voce basati su tecniche di analisi per sintesi
CN1111959C (zh) * 1993-11-09 2003-06-18 索尼公司 量化装置、量化方法、高效率编码装置、高效率编码方法、解码装置和高效率解码装置
JP3317470B2 (ja) * 1995-03-28 2002-08-26 日本電信電話株式会社 音響信号符号化方法、音響信号復号化方法
EP0880235A1 (en) * 1996-02-08 1998-11-25 Matsushita Electric Industrial Co., Ltd. Wide band audio signal encoder, wide band audio signal decoder, wide band audio signal encoder/decoder and wide band audio signal recording medium
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
JP3802219B2 (ja) * 1998-02-18 2006-07-26 富士通株式会社 音声符号化装置
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6260010B1 (en) * 1998-08-24 2001-07-10 Conexant Systems, Inc. Speech encoder using gain normalization that combines open and closed loop gains
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6658382B1 (en) * 1999-03-23 2003-12-02 Nippon Telegraph And Telephone Corporation Audio signal coding and decoding methods and apparatus and recording media with programs therefor
US6604070B1 (en) 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
ATE420432T1 (de) * 2000-04-24 2009-01-15 Qualcomm Inc Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
FI110729B (fi) * 2001-04-11 2003-03-14 Nokia Corp Menetelmä pakatun audiosignaalin purkamiseksi
US6963842B2 (en) * 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
US7043423B2 (en) * 2002-07-16 2006-05-09 Dolby Laboratories Licensing Corporation Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding
JP2004281998A (ja) * 2003-01-23 2004-10-07 Seiko Epson Corp トランジスタとその製造方法、電気光学装置、半導体装置並びに電子機器
WO2004084182A1 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Decomposition of voiced speech for celp speech coding
RU2316059C2 (ru) * 2003-05-01 2008-01-27 Нокиа Корпорейшн Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
KR100923156B1 (ko) * 2006-05-02 2009-10-23 한국전자통신연구원 멀티채널 오디오 인코딩 및 디코딩 시스템 및 방법
US20080002771A1 (en) 2006-06-30 2008-01-03 Nokia Corporation Video segment motion categorization
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US8112271B2 (en) * 2006-08-08 2012-02-07 Panasonic Corporation Audio encoding device and audio encoding method
JPWO2009125588A1 (ja) 2008-04-09 2011-07-28 パナソニック株式会社 符号化装置および符号化方法

Also Published As

Publication number Publication date
RU2586841C2 (ru) 2016-06-10
ZA201203570B (en) 2013-05-29
CN102859589A (zh) 2013-01-02
US9495972B2 (en) 2016-11-15
SG10201406778VA (en) 2015-01-29
US20140343953A1 (en) 2014-11-20
CN104021795A (zh) 2014-09-03
KR101508819B1 (ko) 2015-04-07
ES2453098T3 (es) 2014-04-04
JP2013508761A (ja) 2013-03-07
CA2778240A1 (en) 2011-04-28
PL2491555T3 (pl) 2014-08-29
US8744843B2 (en) 2014-06-03
EP2491555A1 (en) 2012-08-29
US20160260438A1 (en) 2016-09-08
HK1175293A1 (en) 2013-06-28
RU2012118788A (ru) 2013-11-10
CA2862715A1 (en) 2011-04-28
JP2015043096A (ja) 2015-03-05
TW201131554A (en) 2011-09-16
CN104021795B (zh) 2017-06-09
AU2010309894B2 (en) 2014-03-13
CA2862712A1 (en) 2011-04-28
US20120253797A1 (en) 2012-10-04
MY167980A (en) 2018-10-09
EP2491555B1 (en) 2014-03-05
MX2012004593A (es) 2012-06-08
MY164399A (en) 2017-12-15
WO2011048094A1 (en) 2011-04-28
TWI455114B (zh) 2014-10-01
JP6214160B2 (ja) 2017-10-18
JP6173288B2 (ja) 2017-08-02
AU2010309894A1 (en) 2012-05-24
KR20120082435A (ko) 2012-07-23
CA2778240C (en) 2016-09-06
CN102859589B (zh) 2014-07-09
US9715883B2 (en) 2017-07-25
CA2862715C (en) 2017-10-17
BR112012009490A2 (pt) 2016-05-03
CA2862712C (en) 2017-10-17

Similar Documents

Publication Publication Date Title
BR112012009490B1 (pt) ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados
JP7469350B2 (ja) マルチチャンネル信号を符号化するためのオーディオエンコーダおよび符号化されたオーディオ信号を復号化するためのオーディオデコーダ
EP2491556B1 (en) Audio signal decoder, corresponding method and computer program
US7490036B2 (en) Adaptive equalizer for a coded speech signal
ES2683077T3 (es) Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
BRPI0612987A2 (pt) dispositivo de codificaÇço/decodificaÇço hierÁrquica
BR112013020587B1 (pt) esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral
BR112013020699B1 (pt) Aparelho e método para codificar e decodificar um sinal de áudio utilizando uma parte antecipada alinhada
BR122019023924B1 (pt) Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
BRPI0409970B1 (pt) “Método para codificar um sinal de som amostrado, método para decodificar um fluxo de bit representativo de um sinal de som amostrado, codificador, decodificador e fluxo de bit”
Yoon et al. An efficient transcoding algorithm for G. 723.1 and G. 729A speech coders

Legal Events

Date Code Title Description
B15K Others concerning applications: alteration of classification

Ipc: G10L 19/12 (2013.01), G10L 19/03 (2013.01), G10L 1

B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Notification to applicant to reply to the report for non-patentability or inadequacy of the application [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 01/12/2020, OBSERVADAS AS CONDICOES LEGAIS.