BR112012009447B1 - Codificador de sinal de áudio, decodificador de stnai, de áudio, método para codificar ou decodificar um sinal de áudio usando um cancelamento de aliasing - Google Patents

Codificador de sinal de áudio, decodificador de stnai, de áudio, método para codificar ou decodificar um sinal de áudio usando um cancelamento de aliasing Download PDF

Info

Publication number
BR112012009447B1
BR112012009447B1 BR112012009447-5A BR112012009447A BR112012009447B1 BR 112012009447 B1 BR112012009447 B1 BR 112012009447B1 BR 112012009447 A BR112012009447 A BR 112012009447A BR 112012009447 B1 BR112012009447 B1 BR 112012009447B1
Authority
BR
Brazil
Prior art keywords
domain
encoded
linear prediction
aliasing
representation
Prior art date
Application number
BR112012009447-5A
Other languages
English (en)
Other versions
BR112012009447A2 (pt
Inventor
Bruno Bessette
Max Neuendorf
Ralf Geiger
Philippe Gournay
Roch Lefebvre
Bernhard Grill
Jérémie Lecomte
Stefan Bayer
Nikolaus Rettelbach
Lars Villemoes
Redwan Salami
Albertus C. Den Brinker
Original Assignee
Voiceage Corporation
Koninklijke Philips Electronics N.V
Dolby International Ab
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Voiceage Corporation, Koninklijke Philips Electronics N.V, Dolby International Ab, Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Voiceage Corporation
Publication of BR112012009447A2 publication Critical patent/BR112012009447A2/pt
Publication of BR112012009447B1 publication Critical patent/BR112012009447B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/0008Algebraic codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

codificador de sinal de áudio, decodificador de sinal de áudio, método para codificar ou decodificar um sinal de áudio usando um cancelamento de aliasing um decodificador de sinal de áudio (200) para fornecer urna representação decodificada (212) de um conteúdo de áudio com base em uma representação codificada (310) do conteúdo de áudio compreende um caminho de domínio de transformação (230, 240, 242, 250, 260) configurado para obter uma representação de domínio de tempo (212) de uma porção do conteúdo de áudio codificada em um modo de domínio de transformação com base em um primeiro conjunto (220) de coeficientes espectrais, uma representação (224) de um sinal de estímulo de cancelamento de aliasing e uma pluralidade de parâmetros de domínio de previsão linear (222). o caminho de domínio de transformação compreende um processador de espectro (230) configurado para aplicar uma modelagem de espectro ao primeiro conjunto de coeficientes espectrais em dependência de pelo menos um subconjunto dos parâmetros de domínio de previsão linear, para obter uma versão modelada de forma espectral (232) do primeiro conjunto de coeficientes espectrais.

Description

Campo Técnico
As realizações de acordo com a invenção criam um decodificador de sinal de áudio para fornecer uma representação decodificada de um conteúdo de áudio com base em uma representação codificada do conteúdo de áudio.
As realizações de acordo com a invenção criam um codificador de sinal de áudio para fornecer uma representação codificada de um conteúdo de áudio compreendendo um primeiro conjunto de coeficientes espectrais, uma representação de um sinal de estimulo de cancelamento de aliasinge uma pluralidade de parâmetros de domínio de previsão linear com base em uma representação do conteúdo de áudio de entrada.
As realizações de acordo com a invenção criam um método para fornecer uma representação decodificada de um conteúdo de áudio com base em uma representação codificada do conteúdo de áudio.
As realizações de acordo com a invenção criam um método para fornecer uma representação codificada de um conteúdo de áudio com base em uma representação do conteúdo de áudio de entrada.
As realizações de acordo com a invenção criam um programa de computador para realizar um dos referidos métodos.
As realizações de acordo com a invenção criam um conceito para uma unificação de codificação unificada de fala e áudio (também designada brevemente como ÜSAC) gestão de janela e transições de estrutura. * ~
Histórico da Invenção
A seguir, algum histórico da invenção será explicado com a finalidade de facilitar o entendimento da invenção 5 e suas vantagens.
Durante a última década, o grande esforço foi feito para criar a possibilidade de digitalmente armazenar e distribuir o conteúdo de áudio. Uma realização importante com relação a isso é a definição da Norma Internacional ISO/IEC 14496-
A parte 3 dessa Norma é relacionada a uma codificação e decodificação dos conteúdos de áudio, e subparte 4 da parte 3 é relacionada à codificação geral de áudio. ISO/IEC 14496, parte 3, subparte 4 define um conceito para codificar e decodificar o conteúdo de áudio geral. Além disso, as melhorias adicionais foram propostas com a finalidade de melhorar a qualidade e/ou reduzir a taxa de bit exigida. Além do mais, foi averiguado que o desempenho dos codificadores de áudio com base em dominio de frequência não é ideal para conteúdos de áudio compreendendo a fala. Recentemente, um codec unificado de fala e áudio foi proposto que eficientemente combina as técnicas de ambas as palavras, isto é, codificação de fala e codificação de áudio. Para alguns detalhes, a referência é feita à publicação "Um Novo Esquema para Fala Unificada de Baixa Taxa de Bit e Codificação de Áudio - MPEG-RMO" de M. Neuendorf et al. (apresentada na 126° Convenção da Sociedade de Engenharia de Áudio, 7-10 de maio de 2009, Munique, Alemanha).
Em tal codificador de áudio, algumas estruturas de áudio são codificadas no dominio de frequência e algumas estruturas de áudio são codificadas no dominio de previsão linear.
Entretanto, foi averiguado que é difícil mudar entre estruturas codificadas em diferentes domínios sem sacrificar uma quantidade significativa de taxa de bit.
Considerando essa situação, existe um desejo para criar um conceito para codificar e decodificar um conteúdo de áudio compreendendo ambos o áudio de fala e geral, que permite a realização eficiente de transições entre as porções codificadas usando diferentes modos.
Sumário da Invenção
As realizações de acordo com a invenção criam um decodificador de sinal de áudio para fornecer uma representação decodificada de um conteúdo de áudio com base em uma representação codificada de um conteúdo de áudio. O decodificador de sinal de áudio compreende um caminho de domínio de transformação (por exemplo, um caminho de domínio de previsão linear de excitação codificada por transformação) configurado para obter uma representação do conteúdo de áudio de domínio de tempo codificada em um modo de domínio de transformação com base em um primeiro conjunto de coeficientes espectrais, uma representação de um sinal de estímulo de cancelamento de aliasing,e uma pluralidade de parâmetros de domínio de previsão linear (por exemplo, coeficientes de filtro de codificação de previsão linear). O aminho de domínio de transformação compreende um processador de espectro configurado para aplicar uma modelagem espectral ao (primeiro) conjunto de coeficientes espectrais em dependência de pelo menos um subconjunto de parâmetros de domínio de previsão linear para obter uma versão modelada de forma espectral do primeiro conjunto de coeficientes espectrais. O caminho de domínio de transformação também compreende um (primeiro) conversor de domínio de frequência a domínio de tempo configurado para obter uma representação do conteúdo de áudio de domínio de tempo com base na versão modelada de forma espectral do primeiro conjunto de coeficientes espectrais. O caminho de domínio de transformação também compreende um filtro de estímulo de cancelamento de aliasingconfigurado para filtrar o sinal de estímulo de cancelamento de aliasingem dependência de pelo menos um subconjunto dos parâmetros de domínio de previsão linear, para derivar um sinal de síntese de cancelamento de aliasinga partir do sinal de estímulo de cancelamento de aliasing. O caminho de domínio de transformação também compreende um combinador configurado para combinar a representação do conteúdo de áudio de domínio de tempo com o sinal de síntese de cancelamento de aliasing,ou sua versão pós-processada, para obter um sinal de domínio de tempo reduzido por aliasing.
Esta realização da invenção é com base no achado de que um decodificador de áudio que realiza uma modelagem espectral dos coeficientes espectrais do primeiro conjunto de 20 coeficientes espectrais no domínio de frequência, e que computa um sinal de síntese de cancelamento de aliasingpor filtragem de domínio de tempo de um sinal de estimulo de cancelamento de aliasing,caracterizado pelo fato de que ambas a modelagem espectral dos coeficientes espectrais e a filtragem de domínio de 25 tempo do sinal de estímulo de cancelamento de aliasingsão realizadas em dependência dos parâmetros de domínio de previsão linear, é bem adequado para transições de e para porções (por estruturas) do sinal de áudio codificado com diferente modelagem de som e também para transições de ou para estruturas que são codificadas em diferentes dominios. De forma correspondente, as transições (por exemplo, entre estruturas de sobreposição ou não sobreposição) do sinal de áudio, que são codificadas em diferentes modos de um sinal de codificação de áudio multimodo, podem ser prestadas pelo decodificador de sinal de áudio com boa qualidade auditiva e em um nível moderado de overhead. Por exemplo, a realização da modelagem espectral do primeiro conjunto de coeficientes no dominio de frequência permite ter as transições entre as porções (por exemplo, as estruturas) do conteúdo de áudio codificado usando diferentes conceitos de modelagem de som no domínio de transformação, caracterizado pelo fato de que um cancelamento de aliasingpode ser obtido com boa eficiência entre as diferentes porções do conteúdo de áudio codificado usando diferentes métodos de modelagem de som (por exemplo, modelagem de som com base em fator de escala e modelagem de som com base em parâmetro de domínio de previsão linear). Além do mais, os conceitos acima descritos também permitem uma redução eficiente dos artefatos de aliasing entre as porções (por exemplo, as estruturas) do conteúdo de áudio codificado em diferentes domínios (por exemplo, um no dominio de transformação e um no domínio de previsão linear excitada por código algébrico). A utilização de uma filtragem de domínio de tempo do sinal de estimulo de cancelamento de aliasingpermite um cancelamento de aliasingna transição de e para uma porção do conteúdo de áudio codificado no modo de previsão linear excitada por código algébrico mesmo se a modelagem de som da porção atual do conteúdo de áudio (que pode ser codificada, por exemplo, em um modo de domínio de previsão linear de excitação codificada por transformação) for realizada no domínio de frequência, ao invés de, por uma filtragem de domínio de tempo.
Para resumir o acima, as realizações de acordo com a presente invenção permitem uma boa troca entre uma informação lateral exigida e uma qualidade perceptual de transições entre as porções do conteúdo de áudio codificadas em três diferentes modos (por exemplo, modo de domínio de frequência, 10 modo de domínio de previsão linear de excitação codificada por transformação e modo de previsão linear excitada por código algébrico).
Em uma realização preferida, o decodificador de sinal de áudio é um decodificador de sinal de áudio multimodo configurado para comutar entre uma pluralidade de modos de codificação. Neste caso, a derivação de domínio de transformação é configurada para seletivamente obter o sinal de síntese de cancelamento de aliasingpara uma porção do conteúdo de áudio após uma porção anterior do conteúdo de áudio que não permite uma 20 operação de sobreposição e adição de cancelamento de aliasingou seguido por uma porção subsequente do conteúdo de áudio que não permite uma operação de sobreposição e adição de cancelamento de aliasing. Foi averiguado que a aplicação de uma modelagem de som, que é realizada pela modelagem espectral dos coeficientes 25 espectrais do primeiro conjunto de coeficientes espectrais, permite uma transição entre as porções do conteúdo de áudio codificadas no domínio de transformação e usando diferentes conceitos de modelagem de som (por exemplo, um conceito de modelagem de som com base em fator de escala e um conceito de modelagem de som com base em parâmetro de dominio de previsão linear) sem usar os sinais de cancelamento de aliasing,pois a utilização do primeiro conversor de dominio de frequência para dominio de tempo após a modelagem espectral permite um cancelamento eficiente de aliasing entre as estruturas subsequentes codificadas no dominio de transformação, mesmo se diferentes abordagens de modelagem de som forem usadas nas estruturas subsequentes de áudio. Dessa forma, a eficiência de 10 taxa de bit pode ser obtida ao seletivamente obter o sinal de sintese de cancelamento de aliasingsomente para transições de ou para uma porção do conteúdo de áudio codificada em um dominio de não transformação (por exemplo, em um modo de previsão linear excitada por código algébrico).
Em uma realização preferida, o decodificador de sinal de áudio é configurado para comutar entre um modo de dominio de previsão linear de excitação codificada por transformação, que usa uma informação de excitação codificada por transformação e uma informação de parâmetro de dominio de previsão linear, e um modo 20 de dominio de frequência, que usa uma informação de coeficiente espectral e uma informação de fator de escala. Neste caso, o caminho de dominio de transformação é configurado para obter o primeiro conjunto de coeficientes espectrais com base na informação de excitação codificada por transformação e para obter 25 os parâmetros de dominio de previsão linear com base na informação de parâmetro de dominio de previsão linear. O decodificador de sinal de áudio compreende um caminho de dominio de frequência configurado para obter uma representação do conteúdo de áudio de dominio de tempo codificada no modo de dominio de frequência com base em um conjunto de modo de dominio de frequência dos coeficientes espectrais descritos pela informação de coeficiente espectral e em dependência de um conjunto de fatores de escala 5 descrito pela informação de fator de escala. 0 caminho do dominio de frequência compreende um processador de espectro configurado para aplicar uma modelagem espectral ao conjunto de modo de dominio de frequência dos coeficientes espectrais, ou a sua versão pré-processada, em dependência dos fatores de escala para obter um 10 conjunto de modo de dominio de frequência modelado de forma espectral dos coeficientes espectrais. O caminho do dominio de frequência também compreende um conversor de dominio de frequência para dominio de tempo configurado para obter uma representação do conteúdo de áudio de dominio de tempo com base no conjunto de modo 15 de dominio de frequência modelado de forma espectral dos coeficientes espectrais. 0 decodificador de sinal de áudio é configurado de modo que as representações de dominio de tempo de duas porções subsequentes do conteúdo de áudio, uma das quais de duas porções subsequentes do conteúdo de áudio é codificada no 20 modo de dominio de previsão linear de excitação codificada por transformação, e uma das quais de duas porções subsequentes do conteúdo de áudio é codificada no modo de dominio de frequência, compreendem uma sobreposição temporal de cancelar um aliasingde dominio de tempo causado pela conversão de dominio de frequência 25 para dominio de tempo.
Conforme já discutido, o conceito de acordo com as realizações da invenção é bem adequado para transições entre porções do conteúdo de áudio codificadas no modo de dominio de predicação linear de excitação codificada por transformação e no modo de dominio de frequência. Um cancelamento de aliasingde qualidade muito boa é obtido devido ao fato de que a modelagem espectral é realizada no dominio de frequência no modo de dominio 5 de previsão linear de excitação codificada por transformação.
Em uma realização preferida, o decodificador de sinal de áudio é configurado para comutar entre um modo de dominio de previsão linear de excitação codificada por transformação que usa uma informação de excitação codificada por transformação e uma 10 informação de parâmetro de dominio de previsão linear, e um modo de previsão linear excitada por código algébrico, que usa uma informação de excitação de código algébrico e uma informação de parâmetro de dominio de previsão linear. Neste caso, o caminho de dominio de transformação é configurado para obter o primeiro 15 conjunto de coeficientes espectrais com base na informação de excitação codificada por transformação e para obter os parâmetros de dominio de previsão linear com base na informação de parâmetro de dominio de previsão linear. O decodificador de sinal de áudio compreende um caminho de previsão linear excitada por código 20 algébrico configurado para obter uma representação do conteúdo de áudio de dominio de tempo codificada no modo de previsão linear excitada por código algébrico (também designada brevemente com ACELP a seguir) , com base na informação de excitação de código algébrico e informação de parâmetro de dominio de previsão linear.
Neste caso, o caminho ACELP compreende um processador de excitação ACELP configurado para fornecer um sinal de excitação de dominio de tempo com base na informação de excitação de código algébrico e um filtro de sintese configurado para realizar uma filtragem de dominio de tempo, para fornecer um sinal reconstruído com base no sinal de excitação de domínio de tempo e em dependência dos coeficientes de filtro de domínio de previsão linear, obtidos com base na informação de parâmetro de domínio de previsão linear. O caminho de dominio de transformação é configurado para seletivamente fornecer o sinal de sintese de cancelamento de aliasingpara uma porção do conteúdo de áudio codificada no modo de dominio de previsão linear de excitação codificada por transformação após uma porção do conteúdo de áudio codificada no modo ACELP e para uma porção do conteúdo codificado no modo de domínio de previsão linear de excitação codificada por transferência precedente a uma porção do conteúdo de áudio codificada no modo ACELP. Foi averiguado que o sinal de síntese de cancelamento de aliasingé muito bem adequado para as transições entre porções (por exemplo, estruturas) codificadas no modo de domínio de previsão linear de excitação codificada por transformação (a seguir também brevemente designado como TCX-LPD) e modo ACELP.
Em uma realização preferida, o filtro de estímulo de cancelamento de aliasingé configurado para filtrar os sinais de estímulo de cancelamento de aliasingem dependência dos parâmetros de filtro de domínio de previsão linear que correspondem a um ponto de dobragem de aliasingde lado esquerdo do primeiro conversor de domínio de frequência para dominio de tempo para uma porção do conteúdo de áudio codificada no modo TCX- LPD após uma porção do conteúdo de áudio codificada no modo ACELP. 0 filtro de estímulo de cancelamento de aliasingé configurado para filtrar o sinal de estímulo de cancelamento de aliasingem dependência dos parâmetros de filtro de domínio de previsão linear que correspondem a um ponto de dobragem de aliasingde lado direito do segundo conversor de domínio de frequência para domínio de tempo para uma porção do conteúdo de áudio codificada no modo 5 de previsão linear de excitação codificada por transformação precedente a uma porção do conteúdo de áudio codificada no modo ACELP. Ao aplicar os parâmetros de filtro de domínio de previsão linear, que correspondem aos pontos de dobragem de aliasing,um cancelamento extremamente eficiente de aliasingpode ser obtido.
Da mesma forma, os parâmetros de filtro de domínio de previsão linear, que correspondem aos pontos de dobragem de aliasing,são tipicamente passíveis de obtenção de forma fácil conforme os pontos de dobragem de aliasingestão frequentemente na transição de uma estrutura â próxima, de modo que a transmissão dos 15 referidos parâmetros de filtro de domínio de previsão linear é exigida de qualquer modo. De forma correspondente, os overheads são mantidos em um mínimo.
Em uma realização adicional, o decodificador de sinal de áudio é configurado para inicializar valores de memória 20 do filtro de estimulo de cancelamento de aliasinga zero para fornecer o sinal de síntese de cancelamento de aliasing,e alimentar as amostras M do sinal de estímulo de cancelamento de aliasingao filtro de estímulo de cancelamento de aliasingpara obter as amostras correspondentes de resposta de entrada não zero 25 do sinal de síntese de cancelamento de aliasing,e para ainda obter uma pluralidade de amostras de resposta de entrada zero do sinal de síntese de cancelamento de aliasing. O combinador é preferivelmente configurado para combinar conteúdo de áudio de domínio de tempo com as amostras de resposta de entrada não zero e as amostras subsequentes de resposta de entrada zero, para obter um sinal de domínio de tempo reduzido por aliasingem uma transição a partir de uma porção do conteúdo de 5 áudio codificada no modo ACELP a uma porção do conteúdo de áudio codificada no modo TCX-LPD após a porção do conteúdo de áudio codificada no modo ACELP. Ao explorar ambos, as amostras de resposta de entrada não zero e amostras de resposta de entrada zero, uma utilização muito boa pode ser feita do filtro de estímulo de cancelamento de aliasing.Da mesma forma, um sinal muito regular de síntese de cancelamento de aliasingpode ser obtido enquanto mantém um número de amostras exigidas do sinal de estímulo de cancelamento de aliasingtão pequeno quanto possível. Além do mais, foi averiguado que um formato do sinal de síntese de cancelamento de aliasingé muito bem adaptado aos artefatos típicos de aliasingao usar o conceito acima mencionado. Dessa forma, uma troca muito boa entre a eficiência de codificação e cancelamento de aliasingpode ser obtida.
Em uma realização preferida, o decodificador de sinal de áudio é configurado para combinar uma versão com gestão de janela e dobrada de pelo menos uma porção de uma representação de domínio de tempo obtida usando o. modo ACELP com uma representação de domínio de tempo de uma porção subsequente do conteúdo de áudio obtida usando o modo TCX-LPD, para pelo menos parcialmente cancelar um aliasing.Foi averiguado que a utilização de tais mecanismos de cancelamento de aliasing,além da geração do sinal de síntese de cancelamento de aliasing,fornece a possibilidade de obter um cancelamento de aliasingde uma forma muito eficiente de taxa de bit. Especificamente, o sinal exigido de estímulo de cancelamento de aliasingpode ser codificado com alta eficiência se o sinal de síntese de cancelamento de aliasing for suportado, no cancelamento de aliasing,pela versão com gestão 5 de janela e dobrada de pelo menos uma porção de uma representação de domínio de tempo obtida usando o modo ACELP.
Em uma realização preferida, o decodificador de sinal de áudio é configurado para combinar uma versão com gestão de janela de uma resposta de impulso zero do filtro de síntese da 10 derivação ACELP com uma representação de domínio de tempo de uma porção subsequente do conteúdo de áudio obtida usando o modo TCX- LPD, para pelo menos parcialmente cancelar um aliasing.Foi averiguado que a utilização de tal resposta de impulso zero também pode auxiliar a melhorar a eficiência de codificação do sinal de 15 estímulo de cancelamento de aliasing,pois a resposta de impulso zero do filtro de síntese da derivação ACELP tipicamente cancela pelo menos uma parte do aliasingna porção do conteúdo de áudio codificada por TCX-LPD. De forma correspondente, a energia do sinal de síntese de cancelamento de aliasingé reduzida, que, por 20 sua vez, resulta em uma redução da energia do sinal de estímulo de cancelamento de aliasing.Entretanto, os sinais de codificação com uma energia menor são tipicamente possíveis com exigências reduzidas de taxa de bit.
Em uma realização preferida, o decodificador de 25 sinal de áudio é configurado para comutar entre um modo TCX-LPD, em que uma transformação limitada de domínio de frequência para dominio de tempo é usada, um modo de domínio de frequência, em que uma transformação explorada de domínio de frequência para domínio de tempo é usada, bem como, um modo de previsão linear excitada por código algébrico. Neste caso, o decodificador de sinal de áudio é configurado para pelo menos parcialmente cancelar um aliasingem uma transição entre uma porção do conteúdo de áudio codificada no modo TCX-LPD e uma porção do conteúdo de áudio codificada no modo de dominio de frequência ao realizar uma operação de sobreposição e adição entre as amostras de dominio de tempo de porções subsequentes do conteúdo de áudio de sobreposição. Da mesma forma, o decodificador de sinal de áudio é 10 configurado para pelo menos parcialmente cancelar um aliasingem uma transição entre uma porção do conteúdo de áudio codificada no modo TCX-LPD e uma porção do conteúdo de áudio codificada no modo ACELP usando o sinal de síntese de cancelamento de aliasing.Foi averiguado que o decodificador de sinal de áudio também é bem adequado para comutar entre diferentes modos de operação, caracterizado pelo fato de que o aliasingcancela muito eficientemente.
Em uma realização preferida, o decodificador de sinal de áudio é configurado para aplicar um valor de ganho comum 20 para um escalonamento de ganho de uma representação de domínio de tempo fornecida pelo primeiro conversor de domínio de frequência para domínio de tempo do caminho de domínio de transformação (por exemplo, caminho de TCX-LPD) e para um escalonamento de ganho do sinal de estímulo de cancelamento de aliasingou sinal de síntese de cancelamento de aliasing.Foi averiguado que um reuso desse valor de ganho comum tanto para o escalonamento da representação de domínio de tempo fornecida pelo primeiro conversor de dominio de frequência parà domínio de tempo e para o escalonamento do sinal de estímulo de cancelamento de aliasingou sinal de síntese de cancelamento de aliasingpermite a redução da taxa de bit exigida em uma transição entre as porções do conteúdo de áudio codificadas em diferentes modos. Isso é muito importante, conforme 5 uma exigência de taxa de bit é aumentada pela codificação do sinal de estímulo de cancelamento de aliasingno ambiente de uma transição entre as porções do conteúdo de áudio codificadas nos diferentes modos.
Em uma realização preferida, o decodificador de sinal de áudio é configurado para aplicar, além da modelagem espectral realizada em dependência de pelo menos o subconjunto dos parâmetros de domínio de previsão linear, uma desmodelagem de espectro de pelo menos um subconjunto do primeiro conjunto de coeficientes espectrais. Neste caso, o decodificador de sinal de áudio é configurado para aplicar a desmodelagem de espectro para pelo menos um subconjunto de um conjunto dos coeficientes espectrais de cancelamento de aliasinga partir dos quais o sinal de estímulo de cancelamento de aliasingé derivado. A aplicação de ambas uma desmodelagem espectral, ao primeiro conjunto dos coeficientes espectrais, e aos coeficientes espectrais de cancelamento de aliasinga partir dos quais o sinal de estimulo de cancelamento de aliasingé derivado, garante que o sinal de síntese de cancelamento de aliasingseja bem adaptado ao conteúdo de sinal de áudio "principal" fornecido pelo primeiro conversor de domínio de frequência para domínio de tempo. Novamente, a eficiência de codificação para codificar o sinal de estímulo de cancelamento de aliasingé melhorada.
Em um ambiente preferido, o decodificador de sinal de áudio compreende um segundo conversor de dominio de frequência para dominio de tempo configurado para obter uma representação de domínio de tempo do sinal de estímulo de cancelamento de aliasingem dependência de um conjunto de 5 coeficientes espectrais representando o sinal de estimulo de cancelamento de aliasing.Neste caso, o primeiro conversor de domínio de frequência para domínio de tempo é configurado para realizar uma transformação explorada, que compreende um aliasing de domínio de tempo. O segundo conversor de domínio de frequência para domínio de tempo é configurado para realizar uma transformação não explorada. De forma correspondente, uma alta eficiência de codificação pode ser mantida ao usar a transformação explorada para a síntese de sinal "principal". Não obstante, o cancelamento de aliasingatingido usando uma conversão adicional de domínio de frequência para domínio de tempo, que é não explorado. Entretanto, foi averiguado que á combinação da conversão explorada de domínio de frequência para domínio de tempo e a conversão não explorada de domínio de frequência para domínio de tempo permite uma codificação mais eficiente das transições que 20 uma única transição não explorada de domínio de frequência para domínio de tempo.
Uma realização de acordo com a invenção cria um codificador de sinal de áudio para fornecer uma representação codificada de um conteúdo de áudio compreendendo um primeiro conjunto de coeficientes espectrais, uma representação de um sinal de estímulo de cancelamento de aliasinge uma pluralidade de parâmetros de dominio de previsão linear com base em uma representação do conteúdo de áudio de entrada. O codificador de sinal de áudio compreende um conversor de dominio de tempo para dominio de frequência configurado para processar a representação do conteúdo de áudio de entrada, para obter uma representação de dominio de frequência do conteúdo de áudio. 0 codificador de sinal de áudio também compreende um processador espectral configurado para aplicar uma modelagem espectral a um conjunto de coeficientes espectrais, ou a sua versão pré-processada, em dependência de um conjunto de parâmetros de dominio de previsão linear para uma porção do conteúdo de áudio a ser codificada no dominio de previsão linear, para obter uma representação de dominio de frequência modelada de forma espectral do conteúdo de áudio, O codificador de sinal de áudio também compreende um prestador de informação de cancelamento de aliasingconfigurado para fornecer uma representação de um sinal de estimulo de cancelamento de 15 aliasing,de modo que uma filtragem do sinal de estimulo de cancelamento de aliasingem dependência de pelo menos um subconjunto dos parâmetros de dominio de previsão linear resulta em um sinal de sintese de cancelamento de aliasingpara cancelar artefatos de aliasingem um decodificador de sinal de áudio.
O codificador de sinal de áudio aqui discutido é bem adequado para cooperação com o codificador de sinal de áudio acima descrito. Especificamente, o codificador de sinal de áudio é configurado para fornecer uma representação do conteúdo de áudio em que um overheadde taxa de bit exigido para cancelar o aliasing 25 nas transições entre porções (por exemplo, estruturas ou subestruturas) do conteúdo de áudio codificado em diferentes modos é mantido razoavelmente pequeno.
As realizações adicionais de acordo com a invenção criam um método para fornecer uma representação decodificada do conteúdo de áudio e um método para fornecer uma representação codificada de um conteúdo de áudio. Os referidos métodos são com base nas mesmas ideais que o mecanismo acima 5 discutido.
As realizações de acordo com a invenção criam os programas de computador para realizar um dos referidos métodos. Os programas de computador também são com base nas mesmas considerações.
Breve Descrição das Figuras
As realizações de acordo com a presente invenção serão subsequentemente descritas com referência às figuras anexas, em que: Fig. 1 mostra um diagrama esquemático em bloco 15 de um codificador de sinal de áudio, de acordo com uma realização da invenção; Fig. 2 mostra um diagrama esquemático em bloco de um decodificador de sinal de áudio, de acordo com uma realização da invenção; Fig. 3a mostra um diagrama esquemático em bloco de um decodificador de sinal de áudio de referência de acordo com a minuta de trabalho 4 da norma de minuta de Codificação Unificada de Fala e Áudio (USAC); Fig. 3b mostra um diagrama esquemático em bloco 25 de um decodificador de sinal de áudio, de acordo com outra realização da invenção; Fig. 4 mostra uma representação gráfica de uma transição de janela de referência de acordo com a minuta de trabalho 4 da norma de minuta USAC; Fig. 5 mostra uma representação esquemática das transições de janela que podem ser usadas em um sinal de codificação de áudio, de acordo com uma realização da invenção; Fig. 6 mostra uma representação esquemática fornecendo uma visão geral sobre todos os tipos de janela usados em um codificador de sinal de áudio de acordo com uma realização da invenção ou um decodificador de sinal de áudio de acordo com uma realização da invenção; Fig. 7 mostra uma representação de tabela das sequências permitidas de janela, que podem ser usadas em um codificador de sinal de áudio de acordo com uma realização da invenção, ou e decodificador de sinal de áudio de acordo com uma realização da invenção; Fig. 8 mostra um diagrama esquemático detalhado em bloco de um codificador de sinal de áudio, de acordo com uma realização da invenção; Fig. 9 mostra um diagrama esquemático detalhado em bloco de um decodificador de sinal de áudio de acordo 20 com uma realização da invenção; Fig. 10 mostra uma representação esquemática das operações de decodificação de cancelamento de aliasing adiantado (FAC) para transições de e para ACELP; Fig. 11 mostra uma representação esquemática de 25 uma computação de um alvo FAC em um codificador; Fig. 12 mostra uma representação esquemática de uma quantização de um alvo FAC no contexto de uma modelagem de som de domínio de frequência (FDNS); Tabela 1 mostra as condições para a presença de determinado filtro LPC em uma corrente de bit; Fig. 13 mostra uma representação esquemática de um principio de um quantizador inverso de LPC algébrico ponderado; Tabela 2 mostra uma representação de possíveis modos absolutos e relativos de quantização e sinalização correspondente de corrente de bit de "mode_lpc"; Tabela 3 mostra uma representação de tabela dos modos de codificação para números de livro de código nk; 10 Tabela 4 mostra uma representação de tabela de um vetor de normalização W para quantização AVQ; Tabela 5 mostra uma representação de tabela de mapeamento para uma energia de excitação mediana E ; Tabela 6 mostra uma representação de tabela de 15 um número de coeficientes espectrais como uma função de "mod[];" Fig. . 14 mostra uma representação de uma sintaxe de uma corrente de canal de dominio de frequência "fd_ channel _stream()" f Fig, 15 mostra uma representação de uma sintaxe de uma corrente de canal de dominio de previsão linear "lpd_channel_stream()e Fig. 16 mostra uma representação de uma sintaxe dos dados adiantados de cancelamento de aliasing"fac_data()".
Descrição Detalhada das Realizações 1. Decodificador de sinal de áudio de acordo com a Fig. 1
A Fig. 1 mostra um diagrama esquemático em bloco de um codificador de sinal de áudio 100, de acordo com uma realização da invenção. O codificador de sinal de áudio 100 é configurado para receber uma representação de entrada 110 de um conteúdo de áudio e para fornecer, com base nisso, uma representação codificada 112 do conteúdo de áudio. A representação 5 codificada 112 do conteúdo de áudio compreende um primeiro conjunto 112a de coeficientes espectrais, uma pluralidade de parâmetros de domínio de previsão linear 112b e uma representação 112c de um sinal de estímulo de cancelamento de aliasing.
O codificador de sinal de áudio 100 compreende um conversor de domínio de tempo para domínio de frequência 120 que é configurado para processar a representação de entrada 110 do conteúdo de áudio (ou, de forma equivalente, sua versão pré- processada 110'), para obter uma representação de domínio de frequência 122 do conteúdo de áudio (que pode ter a forma de um conjunto de coeficientes espectrais).
O codificador de sinal de áudio 100 também compreende um processador espectral 130 que é configurado para aplicar uma modelagem espectral à representação de domínio de frequência 122 do conteúdo de áudio, ou sua versão pré-processada 122', em dependência de um conjunto 140 dos parâmetros de domínio de previsão linear para uma porção do conteúdo de áudio a ser codificada no domínio de previsão linear, para obter uma representação de dominio de frequência modelada de forma espectral 132 do conteúdo de áudio. 0 primeiro conjunto 112a dos coeficientes espectrais pode ser igual à representação de domínio de frequência modelada de forma espectral 132 do conteúdo de áudio, ou pode ser derivado a partir da representação de domínio de frequência modelada de forma espectral 132 do conteúdo de áudio.
O codificador de sinal de áudio 100 também compreende um prestador de informação de cancelamento de aliasing 150, que é configurado para fornecer uma representação 112c de um sinal de estimulo de cancelamento de aliasing,de modo que uma filtragem do sinal de estimulo de cancelamento de aliasingem dependência de pelo menos um subconjunto dos parâmetros de dominio de previsão linear 140 resulta em um sinal de síntese de cancelamento de aliasingpara cancelar os artefatos de aliasingem 10 um decodificador de sinal de áudio.
Deve-se observar também que os parâmetros de dominio de previsão linear 112b podem, por exemplo, ser iguais aos parâmetros de domínio de previsão linear 140.
O codificador de sinal de áudio 110 fornece a informação que é bem adequada para uma reconstrução do conteúdo de áudio, mesmo se diferentes porções (por exemplo, estruturas ou subestruturas) do conteúdo de áudio forem codificadas em diferentes modos. Para uma porção do conteúdo de áudio codificada no domínio de previsão linear, por exemplo, em um modo de domínio 20 de previsão linear de excitação codificada por transformação, a modelagem espectral, que provoca uma modelagem de som e, portanto, permite uma quantização do conteúdo de áudio com uma taxa de bit comparativamente pequena, é realizada após a conversão de domínio de tempo para domínio de frequência. Isso permite uma sobreposição 25 e adição de cancelamento de aliasingde uma porção do conteúdo de áudio codificado no domínio de previsão linear com uma porção precedente ou subsequente do conteúdo de áudio codificado em um modo de domínio de frequência. Ao usar os parâmetros de domínio de previsão linear 140 para a modelagem espectral, a modelagem espectral é bem adaptada para conteúdos de áudio semelhantes à fala, de modo que uma eficiência de codificação especificamente boa possa ser obtida para os conteúdos de áudio semelhantes à 5 fala. Além do mais, a representação do sinal de estimulo de cancelamento de aliasingpermite um cancelamento eficiente de aliasingnas transições a partir de ou em direção a uma porção (por exemplo, estrutura ou subestrutura) do conteúdo de áudio codificado no modo de previsão linear excitada por código 10 algébrico. Ao fornecer a representação do sinal de estimulo de cancelamento de aliasingem dependência dos parâmetros de dominio de previsão linear, uma representação especificamente eficiente do sinal de estimulo de cancelamento de aliasingé obtida, que pode ser decodificada no lado do decodificador considerando os 15 parâmetros de dominio de previsão linear, que são conhecidos no decodificador de qualquer modo.
Para resumir, o codificador de sinal de áudio 100 é bem adequado para ativar transições entre as porções do conteúdo de áudio codificadas em diferentes modos de codificação e é capaz 20 de fornecer uma informação de cancelamento de aliasingde uma forma especificamente compacta.
2. Decodificador de sinal de áudio de acordo com a Fig. 2
A Fig. 2 mostra um diagrama esquemático em bloco 25 de um decodificador de sinal de áudio 200 de acordo com uma realização da invenção. O decodificador de sinal de áudio 200 é configurado para receber uma representação codificada 210 do conteúdo de áudio e para fornecer, com base nisso, a representação decodificada 212 do conteúdo de áudio, por exemplo, na forma de um sinal de dominio de tempo reduzido por aliasing.
O decodificador de sinal de áudio 200 compreende um caminho de dominio de transformação (por exemplo, um caminho de dominio de previsão linear de excitação codificada por transformação) configurado para obter uma representação de dominio de tempo 212 do conteúdo de áudio codificado em um modo de dominio de transformação com base em um (primeiro) conjunto 220 de coeficientes espectrais, uma representação 224 de um sinal de estimulo de cancelamento de aliasinge uma pluralidade de parâmetros de domínio de previsão linear 222. O caminho de domínio de transformação compreende um processador de espectro 230 configurado para aplicar uma modelagem espectral ao (primeiro) conjunto 220 de coeficientes espectrais em dependência de pelo menos um subconjunto dos parâmetros de domínio de previsão linear 222, para obter uma versão modelada de forma espectral 232 do primeiro conjunto 220 de coeficientes espectrais. O caminho de domínio de transformação também compreende um (primeiro) conversor de domínio de frequência para domínio de tempo 240 configurado para obter uma representação de domínio de tempo 242 do conteúdo de áudio com base na versão modelada de forma espectral 232 do (primeiro) conjunto 220 de coeficientes espectrais. O caminho de domínio de transformação também compreende um filtro de estímulo de cancelamento de aliasing250, que é configurado para filtrar o 25 sinal de estímulo de cancelamento de aliasing(que ê representado pela representação 224) em dependência de pelo menos um subconjunto dos parâmetros de domínio de previsão linear 222, para derivar um sinal de síntese de cancelamento de aliasing252 a partir do sinal de estimulo de cancelamento de aliasing. 0 caminho de dominio de transformação também compreende um combinador 260 configurado para combinar a representação de dominio de tempo 242 do conteúdo de áudio (ou, de forma equivalente, sua versão pós- 5 processada 242') com o sinal de síntese de cancelamento de aliasing252 (ou, de forma equivalente, sua versão pôs-processada 252'), para obter o sinal de domínio de tempo reduzido por aliasing212.
O decodificador de sinal de áudio 200 pode compreender um processamento opcional 270 para derivar o cenário do processador de espectro 230, que realiza, por exemplo, um escalonamento e/ou modelagem de som de domínio de frequência, a partir de pelo menos um subconjunto dos parâmetros de dominio de previsão linear. O decodificador de sinal de áudio 200 também compreende um processamento opcional 280, que é configurado para derivar o cenário do filtro de estimulo de cancelamento de aliasing250, que pode, por exemplo, realizar uma filtragem de síntese para sintetizar o sinal de síntese de cancelamento de aliasing252, a partir de pelo menos um subconjunto dos parâmetros de dominio de previsão linear 222.
O decodificador de sinal de áudio 200 é configurado para fornecer um sinal de domínio de tempo reduzido por aliasing212, que é bem adequado para uma combinação de ambos, 25 com um sinal de domínio de tempo representando um conteúdo de áudio e obtido em um modo de dominio de frequência de operação, e para/em combinação com um sinal de domínio de tempo representando um conteúdo de áudio e codificado em um modo ACELP de operação.
Especificamente, as boas características de sobreposição e adição existem entre as porções (por exemplo, estruturas) do conteúdo de áudio decodificado usando um modo de domínio de frequência de operação (usando um caminho do domínio de frequência não mostrado 5 na Fig, 2) e porções (por exemplo, uma estrutura ou subestrutura) do conteúdo de áudio decodificado usando o caminho de domínio de transformação da Fig. 2, conforme a modelagem de som é realizada pelo processador de espectro 230 no domínio de frequência, i.e., antes da conversão de domínio de frequência para domínio de tempo 10 24Q. Além do mais, especificamente os bons cancelamentos de aliasingtambém podem ser obtidos entre uma porção (por exemplo, uma estrutura ou subestrutura) do conteúdo de áudio decodificado usando o caminho de domínio de transformação da Fig. 2 e uma porção (por exemplo, uma estrutura ou subestrutura) do conteúdo de 15 áudio decodificado usando um caminho de decodificação ACELP devido ao fato de que o sinal de síntese de cancelamento de aliasing252 é fornecido com base em uma filtragem de um sinal de estímulo de cancelamento de aliasingem dependência dos parâmetros de domínio de previsão linear. Um sinal de síntese de cancelamento de 20 aliasing252, que é obtido dessa forma, é tipicamente bem adaptado aos artefatos de aliasingque ocorre na transição entre uma porção do conteúdo de áudio codificada no modo TCX-LPD e uma porção do conteúdo de áudio codificado no modo ACELP. Os detalhes opcionais adicionais referentes à decodificação de operação do sinal de 25 áudio serão descritos a seguir.
3. Decodificadores Comutados de Áudio de acordo com as Figs. 3a e 3b
A seguir, o conceito de um decodificador de sinal de áudio multimodo será brevemente discutido com referência às Figs. 3a e 3b.
3.1 Decodificador de sinal de áudio 300 de acordo com a Fig, 3a
A Fig. 3a mostra um diagrama esquemático em bloco de um decodificador de sinal de áudio de referência multimodo, e a Fig. 3b mostra um diagrama esquemático em bloco de um decodificador de sinal de áudio multimodo, de acordo com uma realização da invenção. Em outras palavras, a Fig. 3a mostra um 10 fluxo básico de sinal de decodificador de um sistema de referência (por exemplo, de acordo com a minuta de trabalho 4 da norma de minuta USAC) , e a Fig. 3b mostra um fluxo básico de sinal de decodificador de um sistema proposto de acordo com uma realização da invenção.
O decodificador de sinal de áudio 300 será descrito primeiro com referência à Fig. 3a. O decodificador de sinal de áudio 300 compreende um multiplexador de bit 310, que é configurado para receber uma corrente de bit de entrada e para fornecer a informação incluída na corrente de bit às unidades 20 adequadas de processamento das derivações de processamento.
O decodificador de sinal de áudio 300 compreende um modo de caminho do domínio de frequência 320, que é configurado para receber uma informação de fator de escala 322 e uma informação codificada de coeficiente espectral 324, e para 25 fornecer, com base nisso, uma representação de domínio de tempo 326 de uma estrutura de áudio codificada no modo de domínio de frequência. O decodificador de sinal de áudio 300 também compreende um dominio de previsão linear de excitação codificada por transformação caminho 330, que é configurado para receber uma informação codificada de excitação codificada por transformação 332 e uma informação de coeficiente de previsão linear 334, (também designada como uma informação de Codificação de previsão 5 linear, ou como uma informação de dominio de previsão linear ou como uma informação de filtro de codificação de previsão linear) e para fornecer, com base nisso, uma representação de dominio de tempo de uma estrutura de áudio ou subestrutura de áudio codificada no modo de dominio de previsão linear de excitação 10 codificada por transformação (TCX-LPD). O decodificador de sinal de áudio 300 também compreende um caminho de previsão linear excitada por código algébrico (ACELP) 340, que é configurado para receber uma informação de excitação codificada 342 e uma informação de codificação de previsão linear 344 (também designada 15 como üma informação de coeficiente de previsão linear ou as uma informação de dominio de previsão linear ou como uma informação de filtro de codificação de previsão linear) e para fornecer, com base nisso, uma informação de codificação de previsão linear de domínio de tempo, como representação de uma estrutura de áudio ou 20 subestrutura de áudio codificada no modo ACELP. O decodificador de sinal de áudio 300 também compreende uma gestão de janela de transição, que é configurada para receber as representações de domínio de tempo 326, 336, 346 das estruturas ou subestruturas do conteúdo de áudio codificadas em diferentes modos e para combinar 25 a representação de domínio de tempo usando uma gestão de janela de transição.
O caminho do domínio de frequência 320 compreende um decodificador aritmético 320a configurado para decodificar a representação espectral codificada 324, para obter uma representação espectral decodificada 320b, um quantizador inverso 320d configurado para fornecer uma representação espectral inversamente quantizada 320e com base na representação espectral decodificada 320br um escalonamento 320e configurado para escalonar a representação espectral inversamente quantizada 320d em dependência de fatores de escala, para obter uma representação espectral escalonada 320f e uma transformação de cosseno discreta modificada (inversa) 320g para fornecer uma representação de dominio de tempo 326 com base na representação espectral escalonada 320f.
A derivação TCX-LPD 330 compreende um decodificador aritmético 330a configurado para fornecer uma representação espectral decodificada 330b com base na representação espectral codificada 332, um quantizador inverso 330c configurado para fornecer uma representação espectral inversamente quantizada 330d com base na representação espectral decodificada 330b, uma transformação de cosseno discreta modificada (inversa) 330e para fornecer um sinal de excitação 330f 20 com base na representação espectral inversamente quantizada 330d, e um filtro de síntese de codificação de previsão linear 330g para fornecer a representação de dominio de tempo 336 com base no sinal de excitação 330f e coeficientes de filtro de codificação de previsão linear 334 (também por vezes designados como coeficientes de filtro de domínio de previsão linear).
A derivação ACELP 340 compreende um processador de excitação ACELP 340a configurado para fornecer um sinal de excitação ACELP 340b com base no sinal de excitação codificada 342 e um filtro de síntese de codificação de previsão linear 340c para fornecer a representação de domínio de tempo 346 com base no sinal de excitação ACELP 340b e coeficientes de filtro de codificação de previsão linear 344.
3.2 Gestão de janela de transição de acordo com a Fig. 4
Com referência agora à Fig. 4, a gestão de janela de transição 350 será descrita em mais detalhes. Primeiramente, a estrutura de enquadramento geral de um decodificador de sinal de áudio 300 será descrita. Entretanto, deve ser observado que uma estrutura de enquadramento muito semelhante com somente diferenças menores, ou ainda uma estrutura idêntica de enquadramento geral, será usada em outros codificadores ou decodificadores de sinal de áudio aqui descritos. Também deve ser observado que as estruturas de áudio tipicamente compreendem um comprimento de N amostras, caracterizado pelo fato de que N pode ser igual a 2048. As estruturas subsequentes do conteúdo de áudio podem ser sobrepostas em aproximadamente 50%, por exemplo, por N/2 amostras de áudio. Uma estrutura de áudio pode ser codificada no dominio de frequência, de modo que as N amostras de domínio de tempo de uma estrutura de áudio são representadas por um conjunto de, por exemplo, N/2 coeficientes espectrais. Alternativamente, as N amostras de dominio de tempo de uma estrutura de áudio podem também ser representadas por uma pluralidade de, por exemplo, oito conjuntos de, por exemplo, 128 coeficientes espectrais. De forma correspondente, uma resolução temporal superior pode ser obtida.
Se as N amostras de domínio de tempo de uma frequência usando um único conjunto de coeficientes espectrais, uma única janela, tal como, por exemplo, denominada janela "STOP_START", denominada janela "AAC Long", denominada janela "AAC Start"ou denominada janela "AAC Stop"pode ser aplicada para gestão de janela das amostras de domínio de tempo 326 fornecidas pela transformação inversa de cosseno discreta modificada 320g. Em contraste, uma pluralidade de janelas mais curtas, por exemplo, do tipo "AAC Short", pode ser aplicada para gestão de janela das representações de dominio de tempo obtidas usando diferentes conjuntos de coeficientes espectrais, se as N amostras de dominio de tempo de uma estrutura de áudio forem codificadas usando uma pluralidade de conjuntos de coeficientes espectrais. Por exemplo, as janelas curtas separadas podem ser aplicadas às representações de domínio de tempo obtidas com base em conjuntos individuais de coeficientes espectrais associados a uma única estrutura de áudio.
Uma estrutura de áudio codificada no modo de dominio de previsão linear pode ser subdividida em uma pluralidade de subestruturas, que são por vezes designadas como "estruturas". Cada uma das subestruturas pode ser codificada no modo TCX-LPD ou 20 no modo ACELP. De forma correspondente, entretanto, no modo TCX- LPD, duas ou ainda quatro subestruturas podem ser codificadas juntas usando um único conjunto de coeficientes espectrais descrevendo a excitação codificada de transformação.
Uma subestrutura (ou um grupo de duas ou quatro subestruturas) codificada no modo TCX-LPD pode ser representada por um conjunto de coeficientes espectrais e um ou mais conjuntos de coeficientes de filtro de codificação de previsão linear. Uma subestrutura do conteúdo de áudio codificada no domínio ACELP pode ser representada por um sinal codificado de excitação ACELP e um ou mais conjuntos de coeficientes de filtro de codificação de previsão linear.
Com referência agora à Fig. 4, a implantação de transições entre estruturas ou subestruturas será descrita. Na representação esquemática da Fig. 4, as abscissas 402a a 402i descrevem um tempo em termos de amostras de áudio, e ordenadas 404a a 404i descrevem as regiões de janelas e/ou temporais para as quais as amostras de dominio de tempo são fornecidas.
No numeral de referência 410, uma transição entre duas estruturas de sobreposição codificadas no dominio de frequência é representada. No numeral de referência 420, uma transição a partir de uma subestrutura codificada no modo ACELP a uma estrutura codificada no modo de dominio de frequência é mostrada. No numeral de referência 430, uma transição a partir de uma estrutura (ou uma subestrutura) codificada no modo TCX-LPD (também designada como modo "wLPT") a uma estrutura codificada no modo de dominio de frequência, conforme ilustrado. No numeral de referência 440, uma transição entre uma estrutura codificada no modo de dominio de frequência e uma subestrutura codificada no modo ACELP é mostrada. No numeral de referência 450, uma transição entre as subestruturas codificadas no modo ACELP é mostrada. No numeral de referência 460, uma transição a partir de uma subestrutura codificada no modo TCX-LPD a uma subestrutura codificada no modo ACELP é mostrada. No numeral de referência 47Ó, uma transição a partir de uma estrutura codificada no modo de dominio de frequência a uma subestrutura codificada no modo TCX- LPD é mostrada. No numeral de referência 480, uma transição entre uma subestrutura codificada no modo ACELP e uma subestrutura codificada no modo TCX-LPD é mostrada. No numeral de referência 490, uma transição entre as subestruturas codificadas no modo é mostrada.
De forma interessante, a transição a partir do modo TCX-LPD ao modo de domínio de frequência, que é mostrada no numeral de referência 430, é por vezes ineficiente ou ainda TCX- LPD muito ineficiente devido ao fato de que uma parte da informação transmitida ao decodificador é descartada. De forma 10 semelhante, as transições entre o modo ACELP e o modo TCX-LPD, que são mostradas no numeral de referências 460 e 480, são implantadas ineficientemente devido ao fato de que uma parte da informação transmitida ao decodificador é descartada.
3.3 Decodificador de sinal de áudio 360 de acordo 15 com a Fig. 3b
A seguir, o decodificador de sinal de áudio 360, de acordo com uma realização da invenção será descrito.
O sinal de áudio 360 compreende um multiplexador de bit ou analisador de corrente de bit 362, que é configurado para receber uma representação de corrente de bit 361 de um conteúdo de áudio e para fornecer, com base nisso, elementos de informação a diferentes derivações do decodificador de sinal de áudio 360.
O decodificador de sinal de áudio 360 compreende uma derivação de domínio de frequência 370 que recebe uma informação codificada de fator de escala 372 e uma informação espectral codificada 374 a partir da corrente de multiplexador de bit 362 e para fornecer, com base nisso, uma representação de dominio de tempo 37 6 de uma estrutura codificada no modo de dominio de frequência. O decodificador de sinal de áudio 360 também compreende um caminho de TCX-LPD 380 que é configurado para receber uma representação espectral codificada 382 e coeficientes 5 codificados de filtro de codificação de previsão linear 384 e para fornecer, com base nisso, uma representação de dominio de tempo 386 de uma estrutura de áudio ou subestrutura de áudio codificada no modo TCX-LPD.
O decodificador de sinal de áudio 360 compreende 10 um caminho ACELP 390 que é configurado para receber uma excitação ACELP codificada 392 e coeficientes codificados de filtro de codificação de previsão linear 394 e para fornecer, com base nisso, uma representação de dominio de tempo 396 de uma subestrutura de áudio codificada no modo ACELP.
O decodificador de sinal de áudio 360 também compreende uma gestão de janela de transição 398, que é configurada para aplicar uma gestão adequada de janela de transição âs representações de dominio de tempo 376, 386, 396 das estruturas e subestruturas codificadas nos diferentes modos, para 20 derivar um sinal contiguo de áudio.
Deve ser observado aqui que a derivação de dominio de frequência 370 pode ser idêntica em sua estrutura geral e funcionalidade à derivação de dominio de frequência 320, embora possam existir mecanismos diferentes ou adicionais de cancelamento 2.5 de aliasingna derivação de dominio de frequência 370. Além do mais, a derivação ACELP 390 pode ser idêntica à derivação ACELP 340 em sua estrutura geral e funcionalidade, de modo que a descrição acima também se aplica.
Entretanto, a derivação TCX-LPD 380 difere da derivação TCX-LPD 330 de modo que a modelagem de som é realizada antes da transformação de cosseno discreta modificada inversa na derivação TCX-LPD 380. Da mesma forma, a derivação TCX-LPD 380 5 compreende funcionalidades adicionais de cancelamento de aliasing.
A derivação TCX-LPD 380 compreende um decodificador aritmético 380a que é configurado para receber uma representação espectral codificada 382 e para fornecer, com base nisso, uma representação espectral decodificada 380b. A derivação 10 TCX-LPD 380 também compreende um quantizador inverso 380c configurado para receber a representação espectral decodificada 380b e para fornecer, com base nisso, uma representação espectral inversamente quantizada 380d. A derivação TCX-LPD 380 também compreende um escalonamento e/ou modelagem de som de domínio de 15 frequência 380e que é configurado para receber a representação espectral inversamente quantizada 380d e uma informação de modelagem espectral 380f e para fornecer, com base nisso, uma representação espectral modelada de forma espectral 380g a uma transformação de cosseno discreta modificada inversa 380h, que 20 fornece a representação de domínio de tempo 386 com base na representação espectral modelada de forma espectral 380g. A derivação TCX-LPD 380 também compreende um transformador de coeficiente de previsão linear para dominio de frequência 380i que é configurado para fornecer a informação de escalonamento 25 espectral 380f com base nos coeficientes de filtro de codificação de previsão linear 384.
Referente à funcionalidade do decodificador de sinal de áudio 360, pode ser dito que uma derivação de dominio de frequência 370 e uma derivação TCX-LPD 380 são muito semelhantes de modo que cada uma delas compreende uma cadeia de processamento tendo uma decodificação aritmética, uma quantização inversa, um escalonamento de espectro e uma transformação de cosseno discreta 5 modificada inversa na mesma ordem de processamento. De forma correspondente, os sinais de saída 376, 386 de uma derivação de dominio de frequência 370 e de uma derivação TCX-LPD 380 são muito semelhantes de modo que podem ser ambos os sinais de saída não filtrados (com a exceção de uma gestão de janela de transição) das 10 transformações de cosseno discretas modificadas inversas. De forma correspondente, os sinais de domínio de tempo 376, 386 são muito bem adequados para uma operação de sobreposição e adição, caracterizada pelo fato de que um cancelamento de aliasingde domínio de tempo é atingido pela operação de sobreposição e 15 adição. Dessa forma, as transições entre uma estrutura de áudio codificada no modo de domínio de frequência e uma estrutura de áudio ou subestrutura de áudio codificada no modo TCX-LPD podem ser eficientemente realizadas por uma simples operação de sobreposição e adição sem exigir qualquer informação adicional de 20 cancelamento de aliasinge sem descartar qualquer informação.
Dessa forma, uma quantidade mínima de informação lateral é suficiente.
Além do mais, deve ser observado que o escalonamento da representação espectral inversamente quantizada, que é realizada no caminho do domínio de frequência 370 em dependência de uma informação de fator de escala, efetivamente provoca uma modelagem de som do som de quantização introduzido pela quantização do lado de codificador e a quantização do lado de decodificador inversa 320c, cuja modelagem de som é bem adaptada aos sinais gerais de áudio, tais como, por exemplo, sinais de música. Em contraste, o escalonamento e/ou modelagem de som de dominio de frequência 380e, que é realizado em dependência dos 5 coeficientes de filtro de codificação de previsão linear, efetivamente provoca uma modelagem de som de um som de quantização causado por uma quantização do lado de codificador e quantização do lado de decodificador inversa 380c, que é bem adaptada aos sinais de áudio semelhantes à fala. De forma correspondente, a 10 funcionalidade da derivação de domínio de frequência 370 e da derivação TCX-LPD 380 meramente difere de modo que diferente modelagem de som é aplicada no dominio de frequência, de modo que uma eficiência de codificação (ou qualidade do áudio) é especificamente boa para sinais gerais de áudio ao usar a 15 derivação de domínio de frequência 370, e de modo que uma eficiência de codificação ou qualidade do áudio é especificamente alta para sinais de áudio semelhantes à fala ao usar a derivação TCX-LPD 380.
Deve ser observado que a derivação TCX-LPD 380 preferivelmente compreende mecanismos adicionais de cancelamento de aliasingpara transições entre estruturas de áudio ou subestruturas de áudio codificadas no modo TCX-LPD e no modo ACELP. Os detalhes serão abaixo descritos.
3.4 Gestão de janela de transição de acordo com a Fig 5
A Fig. 5 mostra uma representação gráfica de um exemplo de um esquema previsto de gestão de janela, que pode ser aplicada no decodificador de sinal de áudio 360 ou em quaisquer outros codificadores e decodificadores de sinal de áudio de acordo com a presente invenção. A Fig. 5 representa uma gestão de janela em possíveis transições entre as estruturas ou subestruturas codificadas em diferentes dos nós. As abscissas 502a a 502i 5 descrevem um tempo em termos de amostras de áudio e ordenadas 504a a 504i descrevem as janelas ou subestruturas para fornecer uma representação de dominio de tempo de um conteúdo de áudio.
Uma representação gráfica no numeral de referência 510 mostra uma transição entre estruturas subsequentes codificadas no modo de dominio de frequência. Conforme pode ser visto, as amostras de dominio de tempo fornecidas para uma primeira metade direita de uma estrutura (por exemplo, por uma transformação inversa de cosseno discreta modificada (MDCT) 320g) são providas de janela por uma metade direita 512 de uma janela, que pode, por exemplo, ser do tipo de janela "AAC Long"ou do tipo de janela "AAC Stop". De forma semelhante, as amostras de dominio de tempo fornecidas para uma metade esquerda de uma segunda estrutura subsequente (por exemplo, pelo MDCT 320g) podem sem providas de janela usando uma metade esquerda 514 de uma janela, que pode, por exemplo, ser do tipo de janela "AAC Long"ou "AAC Start". A metade direita 512 pode, por exemplo, compreender um declive de transição de lado direito comparativamente longo e a metade esquerda 514 da janela subsequente pode compreender um declive de transição de lado esquerdo comparativamente longo. Uma versão com gestão de janela da representação de dominio de tempo da primeira estrutura de áudio (provida de janela usando a metade direita de janela 512) e uma versão com gestão de janela da representação de dominio de tempo da segunda estrutura subsequente de áudio (provida de janela usando a metade esquerda de janela 514) podem ser sobrepostas e adicionadas. De forma correspondente, o aliasing,que surge do MDCT, pode ser eficientemente cancelado.
A representação gráfica no numeral de referência 520 mostra uma transição a partir de uma subestrutura codificada no modo ACELP a uma subestrutura codificada no modo de dominio de frequência. Um cancelamento adiantado de aliasingpode ser aplicado para reduzir artefatos de aliasingem tal transição.
Uma representação gráfica no numeral de referência 530 mostra uma transição a partir de uma subestrutura codificada no modo TCX-LPD a Uma subestrutura codificada no modo de dominio de frequência. Conforme pode ser visto, uma janela 532 é aplicada nas amostras de dominio de tempo fornecidas pelo MDCT inverso 380h do caminho de TCX-LPD, cuja janela 532 pode, por exemplo, ser do tipo de janela "TCX256", "TCX512" ou "TCX1024". A janela 532 pode compreender um declive de transição de lado direito 533 de comprimento de 128 amostras de dominio de tempo. Uma janela 534 é aplicada às amostras de dominio de tempo fornecidas pelo MDCT do caminho do dominio de frequência 370 para a estrutura subsequente de áudio codificada no modo de dominio de frequência. A janela 534 pode, por exemplo, ser do tipo de janela "Stop Start"ou "AAC Stop", e pode compreender um declive de transição de lado esquerdo 535 tendo um comprimento de, por exemplo, 128 amostras de dominio de tempo. As amostras de dominio de tempo da subestrutura de modo TCX-LPD que são providas de janela pelo declive de transição de lado direito 533 são sobrepostas e adicionadas com as amostras de dominio de tempo da estrutura subsequente de áudio codificada no modo de dominio de frequência que são providas de janela pelo declive de transição de lado esquerdo 535. Os declives de transição 533 e 535 são combinados, de modo que um cancelamento de aliasingé obtido na transição a partir da subestrutura codificada por modo TCX-LPD e 5 subestrutura subsequente codificada de modo de domínio de frequência. O cancelamento de aliasingé tornado possível pela execução do escalonamento/modelagem de som de domínio de frequência 380e antes da execução do MDCT inverso 380h. Em outras palavras, o cancelamento de aliasing é causado pelo fato de que ambos, o MDCT inverso 320g do caminho do dominio de frequência 370 e o MDCT inverso 380h do caminho de TCX-LPD 380, são alimentados com os coeficientes espectrais ao qual a modelagem de som já foi aplicada (por exemplo, na forma do escalonamento dependente de fator de escalonamento e o escalonamento dependente de coeficiente 15 de filtro LPC) .
Uma representação gráfica no numeral de referência 540 mostra uma transição a partir de uma estrutura de áudio codificada no modo de domínio de frequência a uma subestrutura codificada no modo ACELP. Conforme pode ser visto, um 20 cancelamento adiantado de aliasing(FAC) é aplicado com a finalidade de reduzir, ou ainda eliminar, artefatos de aliasingna referida transição.
Uma representação gráfica no numeral de referência 550 mostra uma transição a partir de uma subestrutura 25 de áudio codificada no modo ACELP para outra subestrutura de áudio codificada no modo ACELP. Nenhum processamento especifico de cancelamento de aliasingé exigido aqui em algumas realizações.
Uma representação gráfica no numeral de referência 560 mostra uma transição a partir de uma subestrutura codificada no modo TCX-LPD (também designada como modo wLPT) a uma subestrutura de áudio codificada no modo ACELP. Conforme pode ser visto, as amostras de dominio de tempo fornecidas pelo MDCT 380h da derivação TCX-LPD 380 são providas de janela usando uma janela 562, que pode, por exemplo, ser do tipo de janela "TCX256", "TCX512" ou "TCX1024". A janela 562 compreende um declive de transição de lado direito comparativamente curto 563. As amostras de domínio de tempo fornecidas para a subestrutura subsequente de áudio codificada no modo ACELP compreendem uma sobreposição temporal parcial com as amostras de áudio fornecidas para a subestrutura codificada por modo TCX-LPD de áudio precedente que são providas de janela pelo declive de transição de lado direito 563 da janela 562. As amostras de áudio de domínio de tempo fornecidas para a subestrutura de áudio codificada no modo ACELP são ilustradas por um bloco no numeral de referência 564.
Conforme pode ser visto, um sinal de cancelamento adiantado de aliasing 566 é adicionado na transição a partir da estrutura de áudio codificada no modo TCX-LPD à estrutura de áudio codificada no modo ACELP com a finalidade de reduzir ou ainda eliminar os artefatos de aliasing.Os detalhes referentes à provisão do sinal de cancelamento de aliasing566 serão abaixo descritos.
Uma representação gráfica no numeral de referência 570 mostra uma transição a partir de uma subestrutura codificada no modo de domínio de frequência a uma subestrutura subsequente codificada no modo TCX-LPD. As amostras de domínio de tempo fornecidas pelo MDCT inverso 320g da derivação de domínio de frequência 370 podem ser providas de janela por uma janela 572 tendo um declive de transição de lado direito comparativamente curto 573, por exemplo, por uma janela do tipo "Stop Start"ou uma janela do tipo "AAC Start". Uma representação de dominio de tempo fornecida pelo MDCT inverso 380h da derivação TCX-LPD 380 para a subestrutura subsequente de áudio codificada no modo TCX-LPD pode ser provida de janela por uma janela 574. compreendendo um declive de transição de lado esquerdo comparativamente curto 575, cuja janela 574 pode, por exemplo, ser do tipo de janela "TCX256", "TCX512" ou "TCX1024". As amostras de domínio de tempo providas de janela pelo declive de transição de lado direito 573 e amostras de dominio de tempo providas de janela pelo declive de transição de lado esquerdo 575 são sobrepostas e adicionadas pela gestão de janela de transição 398, de modo que os artefatos de aliasingsão reduzidos, ou ainda eliminados. De forma correspondente, nenhuma informação lateral adicional é exigida para realizar uma transição a partir de uma estrutura de áudio codificada no modo de domínio de frequência a uma subestrutura de áudio codificada no modo TCX- LPD.
Uma representação gráfica no numeral de referência 580 mostra uma transição a partir de uma estrutura de áudio codificada no modo ACELP a uma estrutura de áudio codificada no modo TCX-LPD (também designado como modo wLPT) . Uma região temporal para a qual as amostras de domínio de tempo são fornecidas pela derivação ACELP é designada com 582. Uma janela 584 é aplicada nas amostras de domínio de tempo fornecidas pelo MDCT inverso 380h da derivação TCX-LPD 380. A janela 584, que pode ser do tipo "TCX256", "TCX512" ou "TCX1024", pode compreender um declive de transição de lado esquerdo comparativamente curto 585.
O declive de transição de lado esquerdo 585 da janela 584 parcialmente sobrepõe-se com as amostras de domínio de tempo fornecidas pela derivação ACELP, que são representadas pelo bloco 5 582. Além disso, um sinal de cancelamento de aliasing586 é fornecido para reduzir, ou ainda eliminar, os artefatos de aliasingque ocorrem na transição a partir da subestrutura de áudio codificada no modo ACELP à subestrutura de áudio codificada no modo TCX-LPD. Os detalhes referentes à provisão do sinal de 10 cancelamento de aliasing586 serão abaixo discutidos. ma representação esquemática no numeral de referência 590 mostra uma transição a partir de uma subestrutura de áudio codificada no modo TCX-LPD para outra subestrutura de áudio codificada no modo TCX-LPD. As amostras de dominio de tempo 15 de uma primeira subestrutura de áudio codificada no modo: TCX-LPD são providas de janela usando uma janela 592, que pode, por exemplo, ser do tipo "TCX256", "TCX512" ou "TCX1024", e que podem compreender um declive de transição de lado direito comparativamente curto 593. As amostras de áudio de dominio de 20 tempo de uma segunda subestrutura de áudio codificada no modo TCX- LPD, que são fornecidas pelo MDCT inverso 380h da derivação TCX- LPD 380 são providas de janela, por exemplo, usando uma janela 594 que pode ser do tipo de janela "TCX256", "TCX512" ou "TCX1024" e que pode compreender um declive de transição de lado esquerdo 25 comparativamente curto 595. As amostras de domínio de tempo providas de janela usando o declive transicional de lado direito 593 e as amostras de domínio de tempo providas de janela usando o declive de transição de lado esquerdo 595 são sobrepostas e adicionadas pela gestão de janela transicional 398. De forma correspondente, o aliasing,que é causado pelo MDCT (inverso) 380h é reduzido, ou ainda eliminado.
4. Visão Geral sobre todos os Tipos de Janela
A seguir, uma visão geral de todos os tipos de janela será fornecida. Para essa finalidade, a referência é feita à Fig. 6, que mostra uma representação gráfica dos diferentes tipos de janela e suas características. Na tabela da Fig. 6, uma coluna 610 descreve um comprimento de sobreposição de lado 10 esquerdo, que pode ser igual a um comprimento de um declive de transição de lado esquerdo. A coluna 612 descreve um comprimento de transformação, i.e., um número de coeficientes espectrais usados para gerar a representação de dominio de tempo que é provida de janela pela respectiva janela. A coluna 614 descreve um 15 comprimento de sobreposição de lado direito, que pode ser igual a um comprimento de um declive de transição de lado direito. Uma coluna 616 descreve um nome do tipo de janela. A coluna 618 mostra uma representação gráfica da respectiva janela.
Uma primeira fileira 630 mostra as 20 características de uma janela do tipo "AAC Short". Uma segunda fileira 632 mostra as características de uma janela do tipo "TCX256". Uma terceira fileira 634 mostra as características de uma janela do tipo "TCX512". Uma quarta fileira 636 mostra as características de janelas dos tipos "TCX1024" e "Stop Start". Uma 25 quinta fileira 638 mostra as características de uma janela do tipo "AAC Long". Uma sexta fileira 640 mostra as características de uma janela do tipo "AAC Start", e uma sétima fileira 642 mostra as características de uma janela do tipo "AAC Stop".
Notavelmente, os declives de transição das janelas dos tipos "TCX256", "TCX512" e "TCX1024" são adaptados ao declive de transição de lado direito da janela do tipo "AAC Start"e ao declive de transição de lado esquerdo da janela do tipo "AAC 5 Stop", com a finalidade de permite um cancelamento de aliasingde domínio de tempo por sobreposição e adição das representações de domínio de tempo providas de janela usando diferentes tipos de janelas. Em uma realização preferida, os declives de janela de lado esquerdo (declives de transição) de todos os tipos de janela 10 possuem comprimentos idênticos de sobreposição de lado esquerdo podem ser idênticos, e os declives de transição de lado direito de todos os tipos de janela possuem comprimentos idênticos de sobreposição de lado direito podem ser idênticos. Da mesma forma, os declives de transição de lado esquerdo e os declives de 15 transição de lado direito que possuem comprimentos idênticos de sobreposição podem ser adaptados para permitir um cancelamento de aliasing,cumprindo as condições para o cancelamento de aliasing MDCT.
5. Sequências permitidas de janela
A seguir, as sequências permitidas de janela serão descritas, com referência â Fig. 7, que mostra uma representação de tabela de tais sequências permitidas providas de janela. Conforme pode ser visto a partir da tabela da Fig. 7, uma estrutura de áudio codificada no modo de domínio de frequência, as 25 amostras de domínio de tempo as quais são providas de janela usando uma janela do tipo "AAC Stop", podem ser seguidas por uma estrutura de áudio codificada no modo de domínio de frequência, as amostras de domínio de tempo as quais são providas de janela usando uma janela do tipo "AAC Long"ou uma janela do tipo "AAC Start".
Uma estrutura de áudio codificada no modo de domínio de frequência, as amostras de domínio de tempo ás quais são providas de janela usando uma janela do tipo "AAC Long"podem ser seguidas por uma estrutura de áudio codificada no modo de dominio de frequência, as amostras de domínio de tempo as quais são providas de janela usando uma janela do tipo "AAC Long"ou "AAC Start",
As estruturas de áudio codificadas no modo de previsão linear, as amostras de domínio de tempo as quais são providas de janela usando uma janela do tipo "AAC Start", usando oito janelas do tipo "AAC Short"ou usando uma janela do tipo "AAC StopStart", podem ser seguidas por uma estrutura de áudio codificada no modo de domínio de frequência, as amostras de domínio de tempo as quais são providas de janela usando oito janelas do tipo "AAC Short", usando uma janela do tipo "AAC Short"ou usando uma janela do tipo ”AAC StopStart". Alternativamente, as estruturas de áudio codificadas no modo de domínio de frequência, as amostras de domínio de tempo as quais são providas de janela usando uma janela do tipo "AAC Start", usando oito janelas do tipo "AAC Short"ou usando uma janela do tipo "AAC StopStart" podem ser seguidas por uma estrutura de áudio ou subestrutura codificada no modo TCX-LPD (também designado como LPD-TCX) ou por uma estrutura de áudio ou subestrutura de áudio codificada no modo ACELP (também designado como LPD ACELP).
Uma estrutura de áudio ou subestrutura de áudio codificada no modo TCX-LPD pode ser seguida por estruturas de áudio codificadas no modo de domínio de frequência, as amostras de domínio de tempo às quais são providas de janela usando oito janelas "AAC Short", e usando a janela "AAC Stop"ou usando uma janela "AAC StopStart", ou por uma estrutura de áudio ou 5 subestrutura de áudio codificada no modo TCX-LPD ou por uma estrutura de áudio ou subestrutura de áudio codificada no modo ACELP.
Uma estrutura de áudio codificada no modo ACELP pode ser seguida por estruturas de áudio codificadas no modo de 10 domínio de frequência, as amostras de dominio de tempo as quais são providas de janela usando oito janelas "AAC Short", usando uma janela "AAC Stop", usando uma janela "AAC StopStart", por uma estrutura de áudio codificada no modo TCX-LPD ou por uma estrutura de áudio codificada no modo ACELP. 15 Para as transições a partir de uma estrutura de áudio codificada no modo ACELP em direção a uma estrutura de áudio codificada no modo de domínio de frequência ou em direção a uma estrutura de áudio codificada no modo TCX-LPD, um denominado cancelamento adiantado de aliasing(FAC) é realizado. De forma correspondente, um sinal de síntese de cancelamento de aliasingé adicionado à representação de domínio de tempo em tal transição de estrutura, caso em que os artefatos de aliasingsão reduzidos, ou ainda eliminados. De forma semelhante, um FAC também é realizado ao comutar a partir de uma estrutura ou subestrutura codificada no modo de domínio de frequência, ou a partir de uma estrutura ou subestrutura codificada no modo TCX-LPD, a uma estrutura ou subestrutura codificada no modo ACELP.
Os detalhes referentes ao FAC serão abaixo discutidos.
6. Codificador de sinal de áudio de acordo com a Fig. 8
A seguir, um codificador de sinal de áudio 5 multimodo 800 será descrito com referência à Fig. 8.
O codificador de sinal de áudio 800 é configurado para receber uma representação de entrada 810 de um conteúdo de áudio e para fornecer, com base nisso, uma corrente de bit 812 representando o conteúdo de áudio. O codificador de sinal de áudio 10 800 é configurado para operar em diferentes modos de operação, isto é, um modo de dominio de frequência, um modo de dominio de previsão linear de excitação codificada por transformação e um modo de dominio de previsão linear excitada por código algébrico. O codificador de sinal de áudio 800 compreende um controlador de 15 codificação 814 que é configurado para selecionar um dos modos para codificar uma porção do conteúdo de áudio em dependência das características da representação de entrada 810 do conteúdo de áudio e/ou em dependência de uma eficiência ou qualidade de codificação atingível,
O codificador de sinal de áudio 800 compreende a derivação de domínio de frequência 820 que é configurada para fornecer coeficientes codificados espectrais 822, fatores codificados de escala 824, e opcionalmente, coeficientes codificados de cancelamento de aliasing826, com base na 25 representação de entrada 810 do conteúdo de áudio. O codificador de sinal de áudio 800 também compreende a derivação TCX-LPD 850 configurada para fornecer os coeficientes codificados espectrais 852, parâmetros codificados de dominio de previsão linear 854 e coeficientes codificados de cancelamento de aliasing856, em dependência da representação de entrada 810 do conteúdo de áudio. 0 decodificador de sinal de áudio 800 também compreende uma derivação ACELP 880 que é configurada para fornecer uma excitação 5 ACELP codificada 882 e parâmetros codificados de domínio de previsão linear 884 em dependência da representação de entrada 810 do conteúdo de áudio.
A derivação de domínio de frequência 820 compreende uma conversão de domínio de tempo para dominio de frequência 830 que é configurada para receber a representação de entrada 810 do conteúdo de áudio, ou sua versão pré-processada, e para fornecer, com base nisso, uma representação de dominio de frequência 832 do conteúdo de áudio. A derivação de domínio de frequência 820 também compreende uma análise psico-acústica 834, 15 que é configurada para avaliar os efeitos de mascaramento de frequência e/ou efeitos de mascaramento temporal do conteúdo de áudio, e para fornecer, com base nisso, uma informação de fator de escala 836 descrevendo os fatores de escala. A derivação de domínio de frequência 820 também compreende um processador 20 espectral 838 configurado para receber a representação de domínio de frequência 832 do conteúdo de áudio e a informação de fator de escala 836 e para aplicar um escalonamento dependente de frequência e dependente de tempo aos coeficientes espectrais da representação de domínio de frequência 832 em dependência da 25 informação de fator de escala 836, para obter uma representação escalonada de domínio de frequência 840 do conteúdo de áudio. A derivação de domínio de frequência também compreende uma quantização/codificação 842 configurada para receber a representação escalonada de domínio de frequência 840 e realizar uma quantização e uma codificação com a finalidade de obter os coeficientes codificados espectrais 822 com base na representação escalonada de domínio de frequência 840. A derivação de domínio de 5 frequência também compreende uma quantizaçâo/codificação 844 configurada para receber a informação de fator de escala 836 e para fornecer, com base nisso, uma informação codificada de fator de escala 824. Opcionalmente, a derivação de domínio de frequência 820 também compreende um cálculo de coeficiente de cancelamento de 10 aliasing846 que pode ser configurado para fornecer os coeficientes de cancelamento de aliasing826.
A derivação TCX-LPD 850 compreende uma conversão de domínio de tempo para domínio de frequência 860, que pode ser configurada para receber a representação de entrada 810 do 15 conteúdo de áudio, e para fornecer com base nisso, uma representação de domínio de frequência 861 do conteúdo de áudio. A derivação TCX-LPD 850 também compreende um cálculo de parâmetro de dominio de previsão linear 862 que é configurado para receber a representação de entrada 810 do conteúdo de áudio, ou sua versão pré-processada, e para derivar um ou mais parâmetros de domínio de previsão linear (por exemplo, coeficientes de filtro de codificação de previsão linear) 863 a partir da representação de entrada 810 do conteúdo de áudio. A derivação TCX-LPD 850 também compreende uma conversão de domínio de previsão linear para domínio espectral 864, que é configurada para receber os parâmetros de domínio de previsão linear (por exemplo, os coeficientes de filtro de codificação de previsão linear) e para fornecer uma representação de domínio espectral ou representação de dominio de frequência 865 com base nisso. A representação de dominio espectral ou representação de dominio de frequência dos parâmetros de dominio de previsão linear pode, por exemplo, representar uma resposta de filtro de um filtro definido pelos parâmetros de dominio de previsão linear em um dominio de frequência ou dominio espectral. A derivação TCX-LPD 850 também compreende um processador espectral 866, que é configurado para receber a representação de dominio de frequência 861, ou sua versão pré-processada 861', e a representação de domínio de frequência ou dominio espectral representação dos parâmetros de domínio de previsão linear 863. O processador espectral 866 é configurado para realizar uma modelagem espectral da representação de domínio de frequência 861, ou de sua versão pré-processada 861', caracterizado pelo fato de que a representação de domínio de 15 frequência ou domínio espectral representação 865 dos parâmetros de domínio de previsão linear 863 serve para ajustar o escalonamento de diferentes coeficientes espectrais da representação de domínio de frequência 861 ou de sua versão pré- processada 861' . De forma correspondente, o processador espectral 866 fornece uma versão modelada de forma espectral 867 da representação de dominio de frequência 8 61 ou de sua versão pré- processada 861', em dependência dos parâmetros de domínio de previsão linear 863. A derivação TCX-LPD 850 também compreende uma quantização/codificação 868 que é configurada para receber a 25 representação de domínio de frequência modelada de forma espectral 867 e para fornecer, com base nisso, os coeficientes codificados espectrais 852. A derivação TCX-LPD 850 também compreende outra quantização/codificação 869, que é configurada para receber os parâmetros de dominio de previsão linear 863 e para fornecer, com base nisso, os parâmetros codificados de dominio de previsão linear 854.
A derivação TCX-LPD 850 ainda compreende uma provisão de coeficiente de cancelamento de aliasingque é configurada para fornecer os coeficientes codificados de cancelamento de aliasing856. A provisão de coeficiente de cancelamento de aliasingcompreende uma computação de erro 870 que é configurada para computar uma informação de erro de aliasing871 em dependência dos coeficientes codificados espectrais, bem como, em dependência da representação de entrada 810 do conteúdo de áudio. A computação de erro 870 pode opcionalmente considerar uma informação 872 referente aos componentes adicionais de cancelamento de aliasing,que podem ser fornecidos por outros mecanismos. A provisão de coeficiente de cancelamento de aliasing também compreende uma computação de filtro de análise 873 que é configurada para fornecer uma informação 873a descrevendo uma filtragem de erro em dependência dos parâmetros de dominio de previsão linear 863. A provisão de coeficiente de cancelamento de aliasingtambém compreende uma filtragem de análise de erro 874, que é configurada para receber a informação de erro de aliasing 871 e a informação de configuração de filtro de análise 873a, e para aplicar uma filtragem de análise de erro, que é ajustada em dependência da informação de filtragem de análise 873a, á informação de erro de aliasing871, para obter uma informação filtrada de erro de aliasing874a. A provisão de coeficiente de cancelamento de aliasingtambém compreende uma conversão de dominio de tempo para domínio de frequência 875, que pode ter a funcionalidade de uma transformação de cosseno discreta do tipo IV, e que é configurada para receber a informação filtrada de erro de aliasing874a e para fornecer, com base nisso, uma representação de dominio de frequência 875a da informação filtrada 5 de erro de aliasing874a. A provisão de coeficiente de cancelamento de aliasingtambém compreende uma quantização/codificação 876 que é configurada para receber a representação de dominio de frequência 875a e, para fornecer com base nisso, os coeficientes codificados de cancelamento de 10 aliasing856, de modo que os coeficientes codificados de cancelamento de aliasing856 codificam a representação de dominio de frequência 875a,
A provisão de coeficiente de cancelamento de aliasingtambém compreende uma computação opcional 877 de uma 15 contribuição ACELP a um cancelamento de aliasing.A computação 877 pode ser configurada para computar ou estimar uma contribuição a um cancelamento de aliasingque pode ser derivado a partir de uma subestrutura de áudio codificada no modo ACELP que precede uma estrutura de áudio codificada no modo TCX-LPD. A computação da 20 contribuição ACELP ao cancelamento de aliasingpode compreender uma computação de uma sintese pós-ACELP, uma gestão de janela da sintese pós-ACELP e uma dobragem da sintese pós-ACELP provida de janela, para obter a informação 872 referente aos componentes adicionais de cancelamento de aliasing,que podem ser derivados a 25 partir de uma subestrutura precedente de áudio codificada no modo ACELP. Além disso, ou alternativamente, a computação 877 pode compreender uma computação de uma resposta de entrada zero de um filtro inicializado por uma decodificação de uma subestrutura precedente de áudio codificada no modo ACELP e uma gestão de janela da referida resposta de entrada zero, para obter a informação 872 sobre os componentes adicionais de cancelamento de aliasing.
A seguir, a derivação ACELP 880 será brevemente discutida. A derivação ACELP 880 compreende um cálculo de parâmetro de dominio de previsão linear 890 que é configurado para computar os parâmetros de domínio de previsão linear 890a com base na representação de entrada 810 do conteúdo de áudio. A derivação 10 ACELP 880 também compreende uma computação de excitação ACELP 892 configurada para computar uma informação de excitação ACELP 892 em dependência da representação de entrada 810 do conteúdo de áudio e os parâmetros de dominio de previsão linear 890a. A derivação ACELP 880 também compreende uma codificação 894 configurada para 15 codificar a informação de excitação ACELP 892, para obter a excitação ACELP codificada 882. Além disso, a derivação ACELP 880 também compreende uma quantização/codificação 896 configurada para receber os parâmetros de domínio de previsão linear 890a e para fornecer, com base nisso, os parâmetros codificados de domínio de 20 previsão linear 884.
O decodificador de sinal de áudio 800 também compreende um formatador de corrente de bit 898 que é configurado para fornecer a corrente de bit 812 com base nos coeficientes codificados espectrais 822, a informação codificada de fator de 25 escala 824, os coeficientes de cancelamento de aliasing826, os coeficientes codificados espectrais 852, os parâmetros codificados de domínio de previsão linear 852, os coeficientes codificados de cancelamento de aliasing856, a excitação ACELP codificada 882 e os parâmetros codificados de domínio de previsão linear 884.
Os detalhes referentes à provisão dos coeficientes codificados de cancelamento de aliasing852 serão abaixo descritos.
7. Decodificador de sinal de áudio de acordo com a Fig. 9
A seguir, um decodificador de sinal de áudio 900 de acordo com a Fig. 9 será descrito.
O decodificador de sinal de áudio 900 de acordo com a Fig. 9 é semelhante ao decodificador de sinal de áudio 200 de acordo com a Fig. 2 e também ao decodificador de sinal de áudio 360 de acordo com a Fig. 3b, de modó que as explicações acima também se aplicam.
O decodificador de sinal de áudio 900 compreende um multiplexador de bit 902 que é configurado para receber uma corrente de bit e para fornecer informação extraída a partir da corrente de bit aos caminhos correspondentes de processamento.
O decodificador de sinal de áudio 900 compreende a derivação de domínio de frequência 910, que é configurada para 20 receber os coeficientes codificados espectrais 912 e uma informação codificada de fator de escala 914. A derivação de dominio de frequência 910 é opcionalmente configurada para também receber os coeficientes codificados de cancelamento de aliasing, que permitem um denominado cancelamento adiantado de aliasing,por 25 exemplo, em uma transição entre uma estrutura de áudio codificada no modo de domínio de frequência e uma estrutura de áudio codificada no modo ACELP. O caminho do domínio de frequência 910 fornece uma representação de domínio de tempo 918 do conteúdo de áudio da estrutura de áudio codificada no modo de domínio de frequência.
O decodificador de sinal de áudio 900 compreende a derivação TCX-LPD 930, que é configurada para receber os 5 coeficientes codificados espectrais 932, parâmetros codificados de dominio de previsão linear 934 e coeficientes codificados de cancelamento de aliasing936, e para fornecer, com base nisso, uma representação de domínio de tempo de uma estrutura de áudio ou uma subestrutura codificada no modo TCX-LPD. O decodificador de sinal 10 de áudio 900 também compreende uma derivação ACELP 980, que é configurada para receber uma excitação ACELP codificada 982 e parâmetros codificados de domínio de previsão linear 984, e para fornecer, com base nisso, uma representação de domínio de tempo 986 de uma estrutura de áudio ou subestrutura de áudio codificada no modo ACELP.
7.1 Caminho de domínio de frequência
A seguir, os detalhes referentes ao caminho de domínio de frequência 910 serão descritos. Deve ser observado que o caminho do domínio de frequência é semelhante ao caminho do 20 domínio de frequência 320 do decodificador de áudio 300, de modo que a referência é feita à descrição acima. A derivação de domínio de frequência 910 compreende uma decodificação aritmética 920, que recebe os coeficientes codificados espectrais 912 e fornece, com base nisso, os coeficientes espectrais codificados 920a, e uma 25 quantização inversa 921 que recebe os coeficientes espectrais decodificados 920a, e fornece, com base nisso, coeficientes espectrais inversamente quantizados 921a. A derivação de dominio de frequência 910 também compreende uma decodificação de fator de escala 922, que recebe a informação codificada de fator de escala e fornece, com base nisso, uma informação decodificada de fator de escala 922a. A derivação de dominio de frequência compreende um escalonamento 923 que recebe os coeficientes espectrais 5 inversamente quantizados 921a e escalona os coeficientes espectrais inversamente quantizados em conformidade com os fatores de escala 922a, para obter os coeficientes espectrais escalonados 923a. Por exemplo, os fatores de escala 922a podem ser fornecidos para uma pluralidade de faixas de frequência, caracterizado pelo 10 fato de que uma pluralidade de bins de frequência dos coeficientes espectrais 921a é associada a cada faixa de frequência. De forma correspondente, o escalonamento de nível de faixa de frequência dos coeficientes espectrais 921a pode ser realizado. Dessa forma, um número de fatores de escala associado a uma estrutura de áudio 15 é tipicamente menor do que um número de coeficientes espectrais 921a associado à estrutura de áudio. A derivação de domínio de frequência 910 também compreende um MDCT inverso 924, que é configurado para receber os coeficientes espectrais escalonados 923a e para fornecer, com base nisso, uma representação de domínio 20 de tempo 924a do conteúdo de áudio da estrutura de áudio atual. A derivação de domínio de frequência 910 também, opcionalmente, compreende uma combinação 925, que é configurada para combinar a representação de domínio de tempo 924a com um sinal de síntese de cancelamento de aliasing929a, para obter a representação de 25 domínio de tempo 918. Entretanto, em algumas outras realizações, a combinação 925 pode ser omitida, de modo que a representação de domínio de tempo 924a é fornecida como a representação de domínio de tempo 918 do conteúdo de áudio.
Com a finalidade de fornecer o sinal de sintese de cancelamento de aliasing 929a, o caminho do dominio de frequência compreende uma decodificação 926a, que fornece os coeficientes decodificados de cancelamento de aliasing926b, com base nos coeficientes codificados de cancelamento de aliasing916, e um escalonamento 926c dos coeficientes de cancelamento de aliasing,que fornecem os coeficientes escalonados de cancelamento de aliasing926d com base nos coeficientes decodificados de cancelamento de aliasing926b. 0 caminho do domínio de frequência também compreende uma transformação de cosseno discreta inversa do tipo IV 927, que é configurada para receber os coeficientes escalonados de cancelamento de aliasing926d, e para fornecer, com base nisso, um sinal de estímulo de cancelamento de aliasing927a, que é inserido em uma filtragem de síntese 927b. A filtragem de síntese 927b é configurada para realizar uma operação de filtragem de síntese com base no sinal de estímulo de cancelamento de aliasing927a e em dependência dos coeficientes de filtragem de síntese 927c, que são fornecidos por uma computação de filtro de síntese 927d, para obter, como resultado da filtragem de sintese, o sinal de cancelamento de aliasing929a. A computação de filtro de síntese 927d fornece os coeficientes de filtro de síntese 927c em dependência dos parâmetros de domínio de previsão linear, que podem ser derivados, por exemplo, a partir dos parâmetros de domínio de previsão linear fornecidos na corrente de bit para uma subestrutura codificada no modo TCX-LPD, ou para uma estrutura fornecida no modo ACELP (ou podem ser iguais a tais parâmetros de domínio de previsão linear) .
De forma correspondente, a filtragem de síntese 927b é capaz de fornecer o sinal de síntese de cancelamento de aliasing929a, que pode ser equivalente ao sinal de sintese de cancelamento de aliasing522 mostrado na Fig. 5, ou ao sinal de sintese de cancelamento de aliasing542 mostrado na Fig. 5.
7,2 Caminho TCX-LPD
A seguir, o caminho de TCX-LPD do decodificador de sinal de áudio 900 será brevemente discutido. Os detalhes adicionais serão fornecidos abaixo.
O caminho de TCX-LPD 930 compreende uma síntese 10 principal de sinal 940 que é configurada para fornecer uma representação de domínio de tempo 940a do conteúdo de áudio de uma estrutura de áudio ou subestrutura de áudio com base nos coeficientes codificados espectrais 932 e parâmetros codificados de domínio de previsão linear 934. A derivação TCX-LPD 930 também 15 compreende um processamento de cancelamento de aliasingque será abaixo descrito.
A síntese principal de sinal 940 compreende uma decodificação aritmética 941 de coeficientes espectrais, caracterizados pelo fato de que os coeficientes espectraisdecodificados 941a são obtidos com base nos coeficientes codificados espectrais 932. A síntese principal de sinal 940 também compreende uma quantização inversa 942, que é configurada para fornecer os coeficientes espectrais inversamente quantizados 942 a com base nos coeficientes espectrais decodificados 941a. Um 25 enchimento de som opcional 943 pode ser aplicado aos coeficientes espectrais inversamente quantizados 942a para obter os coeficientes espectrais enchidos de som. O coeficiente espectral inversamente quantizado e enchido de som 943a também pode ser
Os coeficientes espectrais inversamente quantizados e enchidos de som 943a, r[i] podem ser processados por uma desmodelagem de espectro 944, para obter os coeficientes espectrais desmodelados de espectro 944a, que também são por vezes designados com r[i] . Um escalonamento 945 pode ser configurado como uma modelagem de som de dominio de frequência 945. Na modelagem de som de dominio de frequência 945, um conjunto modelado de forma espectral de coeficientes espectrais 945a é obtido, que é também designado com rr[i]. Na modelagem de som de dominio de frequência 945, as contribuições dos coeficientes espectrais desmodelados de forma espectral 944a nos coeficientes espectrais desmodelados de forma espectral 945a são determinadas pelos parâmetros de modelagem de som de dominio de frequência 945b, que são fornecidos por uma provisão de parâmetro de modelagem de som de dominio de frequência, que será discutido a seguir. Por meio da modelagem de som de dominio de frequência 945, os coeficientes espectrais do conjunto desmodelado de forma espectral dos coeficientes espectrais 944a recebem um peso comparativamente grande, se uma resposta de dominio de frequência de um filtro de previsão linear descrita pelos parâmetros de dominio de previsão linear 934 tiver um valor comparativamente pequeno para a frequência associado ao respectivo coeficiente espectral (a partir do conjunto 944a dos coeficientes espectrais) sob consideração. Em contraste, um coeficiente espectral a partir do conjunto 944a de coeficiente espectral recebe um peso comparativamente superior ao obter os coeficientes espectrais correspondentes do conjunto 945a de coeficientes espectrais desmodelados de forma espectral, se a resposta de dominio de frequência de um filtro de previsão linear descrito pelos parâmetros de dominio de previsão linear 934 tiver um valor comparativamente pequeno para a frequência associada ao coeficiente espectral (a partir do conjunto 944a) sob consideração. De forma correspondente, uma modelagem espectral, que é definida pelos parâmetros de dominio de previsão linear 934, é aplicada no dominio de frequência ao derivar o coeficiente espectral modelado de forma espectral 945a a partir do coeficiente espectral desmodelado de forma espectral 944a.
A sintese principal de sinal 940 também compreende um MDCT inverso 946, que é configurado para receber os coeficientes espectrais modelados de forma espectral 945a, e para fornecer, com base nisso, uma representação de dominio de tempo 946a. Um escalonamento de ganho 947 é aplicado à representação de 15 domínio de tempo 946a, para derivar a representação de domínio de tempo 940a do conteúdo de áudio a partir do sinal de dominio de tempo 946a. Um fator de ganho g é aplicado no escalonamento de ganho 947, que é preferivelmente uma operação independente de frequência (seletivo de não frequência).
A sintese principal de sinal também compreende um processamento dos parâmetros de modelagem de som de domínio de frequência 945b, que será descrito a seguir. Para os fins de fornecer os parâmetros de modelagem de som de domínio de frequência 945b, a sintese principal de sinal 940 compreende uma 25 decodificação 950, que fornece os parâmetros decodificados de domínio de previsão linear 950a com base nos parâmetros codificados de domínio de previsão linear 934. Os parâmetros decodificados de domínio de previsão linear podem, por exemplo, ter a forma de um primeiro conjunto LPC1 de parâmetros decodificados de dominio de previsão linear e um segundo conjunto LPC2 de parâmetros de domínio de previsão linear. O primeiro conjunto LPC1 dos parâmetros de domínio de previsão linear pode, 5 por exemplo, ser associado a uma transição de lado esquerdo de uma estrutura ou subestrutura codificada no modo TCX-LPD, e o segundo conjunto LPC2 de parâmetros de domínio de previsão linear pode ser associado uma transição de lado direito da estrutura de áudio ou subestrutura de áudio codificada por TCX-LPD. Os parâmetros 10 decodificados de domínio de previsão linear são alimentados em uma computação de espectro 951, que fornece uma representação de domínio de frequência de uma resposta de impulso definida pelos parâmetros de domínio de previsão linear 950a. Por exemplo, os conjuntos separados dos coeficientes de dominio de frequência 15 X0[k] podem ser fornecidos para o primeiro conjunto LPC1 e para o segundo conjunto LPC2 de parâmetros decodificados de domínio de previsão linear 950.
Uma computação de ganho 952 mapeia os valores espectrais X0[k] nos valores de ganho, caracterizado pelo fato de 20 que um primeiro conjunto de valores de ganho gi[k] é associado ao primeiro conjunto LPC1 de coeficientes espectrais e caracterizado pelo fato de que um segundo conjunto de valores de ganho g2[k] é associado ao segundo conjunto LPC2 de coeficientes espectrais. Por exemplo, os valores de ganho podem ser inversamente proporcionais 25 a uma magnitude dos coeficientes espectrais correspondentes. Uma computação de parâmetro de filtro 953 pode receber os valores de ganho 952a e fornecer, com base nisso, os parâmetros de filtro 945b para a modelagem de domínio de frequência 945. Por exemplo,
Os parâmetros de filtro a [ i ] e b[i] podem ser fornecidos. Os parâmetros de filtro 945d determinam a contribuição dos coeficientes espectrais desmodelados de forma espectral 944a nos coeficientes espectrais escalonados de forma espectral 945a. Os 5 detalhes referentes à possivel computação dos parâmetros de filtro serão fornecidos abaixo.
A derivação TCX-LPD 930 compreende uma computação de sinal de sintese de cancelamento de aliasingadiantada, que compreende duas derivações. Uma primeiro derivação da geração 10 (avançada) do sinal de sintese de cancelamento de aliasing compreende uma decodificação 960, que é configurada para receber os coeficientes codificados de cancelamento de aliasing936, e para fornecer com base nisso, os coeficientes decodificados de cancelamento de aliasing960a, que são escalonados por um escalonamento 961 em dependência de um valor de ganho g para obter os coeficientes escalonados de cancelamento de aliasing961a. O mesmo valor de ganho g pode ser usado para o escalonamento 961 dos coeficientes de cancelamento de aliasing960a e para o escalonamento de ganho 947 do sinal de dominio de tempo 946a 20 fornecido pelo MDCT inverso 946 em algumas realizações. A geração do sinal de sintese de cancelamento de aliasingtambém compreende uma desmodelagem de espectro 962, que pode ser configurada para aplicar uma desmodelagem de espectro aos coeficientes escalonados de cancelamento de aliasing961a, para obter os coeficientes de 25 cancelamento de aliasingescalonados de ganho e desmodelados de espectro 962a. A desmodelagem de espectro 962 pode ser realizada de uma forma semelhante na desmodelagem de espectro 944, que será descrita em mais detalhes abaixo. Os coeficientes de cancelamento de aliasingescalonados de ganho e desmodelados de espectro 962a são inseridos em uma transformação de cosseno discreta inversa do tipo IV, que é designada com o numeral de referência 963, e que fornece um sinal de estimulo de cancelamento de aliasing963a como resultado da transformação de cosseno discreta inversa que é realizada com base nos coeficientes de cancelamento de aliasing escalonados de ganho e desmodelados de forma espectral 962a. Uma filtragem de sintese 964 recebe o sinal de estimulo de cancelamento de aliasing963a e fornece um primeiro sinal 10 adiantado de sintese de cancelamento de aliasing964a por filtragem de sintese do sinal de estimulo de cancelamento de aliasing963a usando um filtro de sintese configurado em dependência dos coeficientes de filtro de sintese 965a, que são fornecidos pela computação de filtro de sintese 965 em dependência dos parâmetros de dominio de previsão linear LPC1, LPC2. Os detalhes referentes à filtragem de sintese 964 e à computação dos coeficientes de filtro de sintese 965a serão abaixo descritos.
O primeiro sinal de sintese de cancelamento de aliasing964a é consequentemente com base nos coeficientes de 20 cancelamento de aliasing936, bem como, nos parâmetros de dominio de previsão linear. Uma boa consistência entre o sinal de sintese de cancelamento de aliasing964a e a representação de dominio de tempo 940a do conteúdo de áudio é atingida ao aplicar o mesmo fator de escalonamento g tanto na provisão da representação de 25 dominio de tempo 940a do conteúdo de áudio e na provisão do sinal de sintese de cancelamento de aliasing964, e ao aplicar desmodelagem de espectro semelhante, ainda idêntica, 944, 962 na provisão da representação de dominio de tempo 940a do conteúdo de áudio e na provisão do sinal de sintese de cancelamento de aliasing964.
A derivação TCX-LPD 930 ainda compreende uma provisão de sinais adicionais de sintese de cancelamento de aliasing973a, 976a em dependência de uma estrutura ou subestrutura precedente ACELP. Essa computação 970 de uma contribuição ACELP ao cancelamento de aliasingé configurada para receber a informação ACELP, tal como, por exemplo, uma representação de dominio de tempo 986 fornecida pela derivação ACELP 980 e/ou um conteúdo de um filtro de sintese ACELP. A computação 970 da contribuição ACELP para o cancelamento de aliasingcompreende uma computação 971 da sintese pós-ACELP 971a, uma gestão de janela 972 da sintese pós-ACELP 971a e uma dobragem 973 da sintese pós-ACELP 972a. De forma correspondente, uma sintese pós-ACELP provida de janela e dobrada 973a é obtida pela dobragem da sintese pós-ACELP provida de janela 972a. Além disso, a computação 970 de uma contribuição ACELP ao cancelamento de aliasingtambém compreende uma computação 975 de uma resposta de entrada zero, que pode ser computada para um filtro de sintese usado para sintetizar uma representação de dominio de tempo de uma subestrutura anterior ACELP, caracterizado pelo fato de que o estado inicial do referido filtro de sintese pode ser igual ao estado do filtro de sintese ACELP no final da subestrutura anterior ACELP. De forma correspondente, uma resposta de entrada zero 975a é obtida, a qual uma gestão de janela 976 é aplicada com a finalidade de obter uma resposta de entrada zero provida de janela 976a. Além disso, os detalhes referentes à provisão da resposta de entrada zero provida de janela 976a serão descritos abaixo.
Finalmente, uma combinação 978 é realizada para combinar a representação de dominio de tempo 940a do conteúdo de áudio, o primeiro sinal adiantado de sintese de cancelamento de 5 aliasing964a, o segundo sinal adiantado de sintese de cancelamento de aliasing973a e o terceiro sinal adiantado de sintese de cancelamento de aliasing976a. De forma correspondente, a representação de dominio de tempo 938 da estrutura de áudio ou subestrutura de áudio codificada no modo TCX-LPD é fornecida como 10 resultado da combinação 978, conforme será descrita em mais detalhes abaixo.
7.3 Caminho ACELP
A seguir, a derivação ACELP 980 do decodificador de sinal de áudio 900 será brevemente descrita. A derivação ACELP 15 980 compreende uma decodificação 988 da excitação ACELP codificada 982, para obter uma excitação ACELP decodificada 988a. Subsequentemente, uma computação de sinal de excitação e pós- processamento 989 da excitação são realizadas para obter um sinal de excitação pós-processado 989a. A derivação ACELP 980 compreende 20 uma decodificação 990 dos parâmetros de dominio de previsão linear 984, para obter os parâmetros decodificados de dominio de previsão linear 990a. O sinal de excitação pós-processado 989a é filtrado, e a filtragem de sintese 991 realizada, em dependência dos parâmetros de dominio de previsão linear 990a para obter um sinal 25 ACELP sintetizado 991a. O sinal ACELP sintetizado 991a é então processado usando um pós-processamento 992 para obter a representação de dominio de tempo 986 de uma subestrutura de áudio codificada na carga ACELP.
7.4 Combinação
Finalmente, uma combinação 996 é realizada com a finalidade de obter a representação de domínio de tempo 918 de uma estrutura de áudio codificada no modo de dominio de frequência, a representação de domínio de tempo 938 de uma estrutura de áudio codificada no modo TCX-LPD, e a representação de domínio de tempo 986 de uma estrutura de áudio codificada no modo ACELP, para obter uma representação de domínio de tempo 998 do conteúdo de áudio.
Os detalhes adicionais serão descritos a seguir.
8. Detalhes de Codificador e Decodificador 8.1 Filtro LPC 8.1.1 Descrição de Ferramenta
A seguir, os detalhes referentes à codificação e decodificação usando os coeficientes de filtro de codificação de 15 previsão linear serão descritos.
No modo ACELP, os parâmetros transmitidos incluem os filtros LPC 984, índices de livro de código adaptáveis e fixos 982, ganhos de livro de código adaptáveis e fixos 982.
No modo TCX, os parâmetros transmitidos incluem os filtros LPC 934, parâmetros de energia e índices de quantização 932 dos coeficientes MDCT. Esta seção descreve a decodificação dos filtros LPC, por exemplo, dos coeficientes de filtro LPC ax a ai6, 950a, 990a.
8.1.2 Definições
A seguir, algumas definições serão fornecidas.,
O parâmetro "nb_lpc" descreve um número geral dos conjuntos de parâmetros LPC que são decodificados na corrente de bit.
O parâmetro de corrente de bit "mode_lpc"descreve um modo de codificação do conjunto de parâmetro LPC subsequente.
O parâmetro de corrente de bit "lpc[k][x]" descreve um número de parâmetro LPC x do conjunto k.
O parâmetro de corrente de bit "qn k" descreve um código binário associado aos números correspondentes de livro de código nk.
8.1.3 Número de Filtros LPC
O número efetivo de filtros LPC "nb_lpc" que são codificados dentro da corrente de bit depende da combinação de modo ACELP/TCX da superestrutura, caracterizado pelo fato de que uma superestrutura pode ser idêntica a uma estrutura compreendendo uma pluralidade de subestruturas. A combinação de modo ACELP/TCX é extraida a partir do campo "lpd_mode" que, por sua vez, determina os modos de codificação, "mod[k]" para k=0 a 3, para cada uma das estruturas (também designadas como subestruturas) compondo a superestrutura. 0 valor de modo é 0 para ACELP, 1 para TCX curto 20 (256 amostras), 2 para TCX de tamanho médio (512 amostras), 3 para TCX longo (10.24 amostras). Deve ser observado aqui que o parâmetro de corrente de bit "lpd_mode" que pode ser considerado como um "modo" de çampo de bit define os modos de codificação para cada uma das quatro estruturas dentro de uma superestrutura da cotrente 25 de canal de domínio de previsão linear (que corresponde a uma estrutura de áudio de modo de domínio de frequência, tal como, por exemplo, uma estrutura adiantada de codificação de áudio ou uma estrutura AAC) . Os modos de codificação são armazenados em um arranjo "mod[]" e obtêm os valores de 0 a 3. 0 mapeamento a partir do parâmetro de corrente de bit "LPD_mode" ao arranjo "mod[J" pode ser determinado a partir da tabela 7.
Referente ao arranjo "mod[0...3]", pode ser dito 5 que o arranjo "mod[]" indica os respectivos modos de codificação em cada estrutura. Para os detalhes, a referência é feita à tabela 8, que descreve os modos de codificação indicados pelo arranjo "mod [ ] .
Além disso, 1 a 4 filtros LPC da superestrutura, um filtro opcional LPC LPCO é transmitido para a primeira superestrutura de cada segmento codificado usando o codec de núcleo LPD. Isso é indicado ao procedimento de decodificação LPC por um conjunto de bandeira "first_lpd_flag"para 1.
A ordem em que os filtros LPC são normalmente encontrados na corrente de bit é: LPC4, LPCO opcional, LPC2, LPC1 e LPC3. A condição para a presença de determinado filtro LPC dentro da corrente de bit é resumida na Tabela 1.
A corrente de bit é analisada para extrair os índices de quantização correspondentes a cada um dos filtros LPC 20 exigido pela combinação de modo ACELP/TCX. O seguinte descreve as operações necessárias para decodificar um dos filtros LPC.
8.1.4 Principio Geral do Quantizador Inverso
A quantização inversa de um filtro LPC, que pode ser realizada na decodificação 950 ou na decodificação 990, é 25 realizada conforme descrito na Fig. 13. Os filtros LPC são quantizados usando a representação de frequência espectral de linha (LSF). Uma aproximação de primeira etapa é primeiramente computada conforme descrito na seção 8.1.6. Um refinamento quantizado de vetor algébrico opcional (AVQ) 1330 é então calculado conforme descrito na seção 8.1.7. O vetor LSF quantizado é reconstruído ao adicionar 1350 â aproximação da primeira etapa e a contribuição AVQ ponderada inversa 1342. A presença de um refinamento AVQ depende do modo efetivo de quantização do filtro LPC, conforme explicado na seção 8.1.5. O vetor LSF quantizado inverso é posteriormente convertido em um vector de parâmetros LSP (par espectral de linha), então interpolado e convertido novamente em parâmetros LPC.
8.1.5 Decodificação do modo de quantização LPC
A seguir, a decodificação do modo de quantização LPC será descrita, que pode ser parte da decodificação 950 ou da decodificação 990. LPC4 é sempre quantizado usando uma abordagem de quantização absoluta. Os outros filtros LPC podem ser quantizados usando uma abordagem de quantização absoluta, ou um de diversas abordagens relativas de quantização. Para esses filtros LPC, a primeira informação extraída a partir da corrente de bit é o modo de quantização. Essa informação é denotada "mode_lpc"e é 20 sinalizada na corrente de bit usando um código binário de comprimento variável conforme indicado na última coluna da Tabela 2.
8.1.6 Aproximação de primeira etapa
Para cada filtro LPC, o modo de quantização 25 determina como a aproximação de primeira etapa da Fig. 13 é computada.
Para o modo absoluto de quantização (mode_lpc=0) , um índice de 8 bits correspondente à aproximação de primeira etapa quantizada por VQ estocástico é extraída a partir da corrente de bit. A aproximação de primeira etapa 1320 é então computada por uma simples consulta de tabela.
Para modos relativos de quantização, a aproximação de primeira etapa é computada usando os filtros LPC já quantizados inversos, conforme indicado na segunda coluna da Tabela 2. Por exemplo, para LPCO existe somente um modo relativo de quantização para o qual o filtro LPC4 quantizado inverso constitui a aproximação de primeira etapa. Para LPC1, existem dois possíveis modos relativos de quantização, um em que o LPC2 quantizado inverso constitui a aproximação de primeira etapa, o outro para o qual a média entre o filtro LPCO quantizado inverso e LPC2 constitui a aproximação de primeira etapa. Conforme todas as operações relacionadas à quantização LPC, a computação da aproximação de primeira etapa é realizada no dominio de frequência espectral de linha (LSF).
8.1.7 Refinamento AVQ 8.1,7.1 Geral
A próxima informação extraída a partir da corrente de bit é relacionada ao refinamento AVQ necessário para construir o vetor LSF quantizado inverso. A única exceção é para LPCl: a corrente de bit não contém nenhum refinamento AVQ quando esse filtro é codificado relativamente para (LPC0+LPC2)/2.
O AVQ é com base no quantizador de vetor de treliça 8-dimensional REa usado para quantizer o espectro nos modos TCX em AMR-WB+, A decodificação dos filtros LPC envolve a decodificação dos dois sub-vetores 8-dimensionais Bk , k-1 e 2, do vetor LSF residual ponderado.
A informação AVQ para esses dois sub-vetores é extraída a partir da corrente de bit. Ela compreende dois números codificados de livro de código "qnl"e "qn2", e os índices correspondentes AVQ. Esses parâmetros são decodificados conforme segue.
8.1.7.2 Decodificação de números de livro de código
Os primeiros parâmetros extraídos a partir da corrente de bit com a finalidade de decodificar o refinamento AVQ são os dois números de livro de código nk, k=l e 2, para cada um dos dois sub-vetores acima mencionados. O modo que os números de livro de código são codificados depende do filtro LPC (LPCO a LPC4) e de seu modo de quantização (absoluto ou relativo).
Conforme mostrado na Tabela 3, existem quatro diferentes modos para codificar nk. Os detalhes sobre os códigos usados para nk são fornecidos abaixo. Modos nk 0 e 3: O número de livro de código nk é codificado como 20 um código de comprimento variável qnfc, conforme segue: 02 —> o código para nk é 00 03 -> o código para nk é 01 Qt —> o código para nk é 10 Outros: o código para nk é 11 seguido por: 25 Qe 10 Qo -> 110 I β7 -> mo I Qa -> 11110 I 5 etc. I Mode nk 1: I O número de livro de código nké codificado como um código unário qnk, conforme segue: I 10 Qo> código unário para n* é 0 Q2 código unário para nk é 10 —> código unário para nk é 110 Cú —> código unário para nk é 1110 etc. . 15 Modo n* 2: O número de livro de código nk é codificado como um código de comprimento variável qnJc, conforme segue: Q2 —> o código para nk é 00 Ca -> o código para nk é 01 20 QA —>o código para n* é 10 Outros: o código para nk é 11 seguido por: Qo —> 0 a -> io Qβ HO etc.
8.1.7.3 Decodificação dos indices AVQ
A decodificação dos filtros LPC envolve a decodificação dos parâmetros VQ algébricos descrevendo cada sub- vetor quantizado Bk dos vetores LSF residuais ponderados. A recordação que cada bloco Bk tem dimensão 8. Para cada bloco Bk , 10 três conjuntos de indices binários são recebidos pelo decodificador: a) o número de livro de código nt, transmitido usando um código de entropia "qnk"conforme acima descrito; b) a classificaçãoIk de um ponto de treliça 15 selecionado z em um denominado livro de código de base, que indica qual permutação deve ser aplicada a um a líder especifico para obter um ponto de treliça z; c) e, se o bloco quantizado Bk (um ponto de treliça) não estava no livro de código de base, os 8 indices do 20 vetor de índice de extensão Voronoik; a partir dos índices de extensão Voronoi, um vetor de extensão v pode ser computado. O número de bits em cada componente do vetor de índice k é fornecido pela ordem de extensão r, que pode ser obtida a partir do valor de código do índice nk. 0 fator de escalonamento M da extensão Voronoi é fornecido por M = 2r.
Então, a partir do fator de escalonamento M, o vetor de extensão Voronoi v (um ponto de treliça em REB) e o ponto de treliça z no livro de código de base (também um ponto de treliça em REg), cada bloco escalonado quantizado Bk pode ser computado como:
Figure img0001
No caso em que não existe nenhuma extensão k Voronoi (i.e., nk< 5, M=1 e z=0) , o livro de código de base é o livro de código QOr Q2, Q3 ou de M. Xie e J.-P. Adoul, "Embedded algebraic vector quantization (EAVQ) with application to wideband audio coding, "IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Atlanta, GA, USA, vol. 1, pp. 240243, 1996. Nenhum bit é então exigido para transmitir o vetor Jc.
De outro modo, quando a extensão Voronoi é usada devido a Bk ser grande o suficiente, então somente Q3 ou Q4 a partir da referência acima é usado como um livro de código de base. A seleção de Qj ou QA é implícita no valor de número de livro de código nk.
8.1.7.4 Computação dos pesos LSF
No codificador, os pesos aplicados aos componentes do vetor LSF residual antes da quantização AVQ são: com:
Figure img0002
em que LSFlst é a aproximação LSF de primeira etapa e W é um fator de escalonamento que depende do modo de quantização (Tabela 4).
A ponderação inversa correspondente 1340 é 5 aplicada no decodificador para recuperar o vetor LSF residual quantizado.
8.1.7,5 Reconstrução do vetor LSF quantizado inverso
O vetor LSF quantizado inverso é obtido por, 10 primeiramente, concatenar os dois sub-vetores de refinamento AVQ B-L e B-, decodificados conforme explicado nas seções 8.1.7.2 e 8.1.7.3 para formar um único vetor LSF residual ponderado, então, aplicar a esse vetor LSF residual ponderado o inverso dos pesos computados conforme explicado na seção 8.1.7,4 para formar o vetor 15 LSF residual, e então novamente, adicionar esse vetor LSF residual à aproximação de primeira etapa computada conforme na seção 8.1.6.
8.1.8 Reordenação dos LSFs Quantizados
Os LSFs quantizados inversos são reordenados e uma distância mínima entre LSFs adjacentes de 50 Hz é introduzida 20 antes de serem usados.
8.1.9 Conversão em parâmetros LSR
O procedimento de quantização inversa descrito até agora resulta no conjunto de parâmetros LPC no domínio LSF. Os LSFs são então convertidos para o domínio de cosseno (LSPs) usando 25 a relação q, = cos (®i), 1=1,...,16 com (Oi sendo as frequências espectrais de linha (LSF).
8.1.10 Interpolação dos parâmetros LSP
Para cada estrutura ACELP (ou subestrutura) , embora somente um filtro LPC correspondente à extremidade da estrutura seja transmitido, a interpolação linear é usada para obter um diferente filtro em cada subestrutura (ou parte de uma 5 subestrutura) (4 filtros por estrutura ou subestrutura ACELP). A interpolação é realizada entre o filtro LPC correspondente à extremidade da estrutura anterior (ou subestrutura) e o filtro LPC correspondente à extremidade da estrutura ACELP (atual). Deixar ser o novo vetor LSP disponível e LSP<old> o vetor LSP previamente disponível. Os vetores interpolados LSP para as subestruturas NsJi. =4 são fornecidos por
Figure img0003
Os vetores interpolados LSP são usados para computar um diferente filtro LP em cada subestrutura usando o 15 método de conversão LSP para LP descrito abaixo.
8.1.11 Conversão LSP para LP
Para cada subestrutura, os coeficientes interpolados LSP são convertidos nos coeficientes de filtro LP a>, 950a, 990a, que são usados para sintetizar o sinal reconstruído na 20 subestrutura. Por definição, os LSPs de um filtro LP de 16° ordem são as raízes dos dois polinómios
Figure img0004
Figure img0005
em que qi, I - 1,...,16 são os LSFs no dominio de cosseno também denominados LSPs. A conversão para o dominio LP é realizada conforme segue. Os coeficientes de Fx(z) e F2(z) são encontrados ao expandir as equações acima sabendo òs LSPs quantizados e interpolados. A seguinte relação recursiva é usada para computar F^z) : para i = 1 a 8
Figure img0006
final com valores iniciais A(0) = 1 e AC-l) =0. Os coeficientes de F2(z) são computados de forma semelhante ao substituir q2j-i por q2j- assim que os coeficientes de Fi(z) e F2(z) são encontrados, Fi(z) e F2(z) são multiplicados por 1 + z’1e l-z”1, 20 respectivamente, para obter F'1(z) e F'2(z); que é A'U) = A(i) + AU - D , i = 1, . . . ,8
Figure img0007
Finalmente, os coeficientes LP sâo computados a partir de e f'2(í) por
Figure img0008
5 Isso é diretamente derivado a partir da equação .4(z) = (F|'(z) + F2'(z))/2 , e considerando o fato de que F\(z) e 7*2 (z) são polinómios simétricos e assimétricos, respectivamente.
8.2. ACELP
A seguir, alguns dos detalhes referentes ao processamento realizado pela derivação ACELP 980 do decodificador de sinal de áudio 900 serão explicados para facilitar o entendimento dos mecanismos de cancelamento de aliasing,que serão subsequentemente descritos.
8.2.1 Definições
A seguir, algumas definições serão fornecidas.
O elemento de corrente de bit "mean_energy" descreve a energia quantizada de excitação mediana per estrutura.
O elemento de corrente de bit "acb_index[sfr]" indica o Índice adaptável de livro de código para cada subestrutura.
O elemento de corrente de bit "ltp_filtering_flag[sfr]" é uma bandeira adaptável de filtragem de excitação de livro de código. O elemento de corrente de bit "lcb_index[sfr]" indica o indice de livro de código de inovação para cada subestrutura. O elemento de corrente de bit "gains[sfr]" 25 descreve os ganhos quantizados do livro de código adaptável e contribuição de Livro de código de inovação para a excitação.
Além do mais, para os detalhes referentes à codificação do elemento de corrente de bit "mean_energy", a referência é feita à tabela 5.
8.2.2 Cenário do buffer de excitação ACELP usando a síntese FD anterior e LPCO
A seguir, uma inicialização opcional do buffer de excitação ACELP será descrita, que pode ser realizada por um bloco 990b.
No caso de uma transição de FD para ACELP, o buffer de excitação anterior u(n) e buffer contendo a sintese pré- enfatizada anterior s(rí) são atualizados usando a síntese FD anterior (incluindo FAC) e LPCO (i.e., os coeficientes de filtro LPC do conjunto de coeficiente de filtro LPCO) antes da decodificação da excitação ACELP. Para isso, a síntese FD é pré- enfatizada ao aplicar o filtro de pré-ênfase (1 —0.68z~'), e o resultado é copiado para s(ji) . A síntese pré-enfatizada resultante é então filtrada pelo filtro de análise A(z) usando LPCO para obter o sinal de excitação u(n) .
8.2.3 Decodificação da excitação CELP
Se o modo em uma estrutura for üm modo CELP, a excitação consiste na adição do livro de código adaptável escalonado e vetores fixos de livro de código. Em cada subestrutura, a excitação é construída ao repetir as seguintes 25 etapas:
A informação exigida para decodificar a informação CELP pode ser considerada como excitação ACELP codificada 982.
Também deve ser observado que a decodificação da excitação CELP pode ser realizada pelos blocos 988, 989 da derivação ACELP 980.
8.2.3.1 Decodificação da excitação adaptável de livro de código, em dependência do elemento de corrente de bit "acb index[]"
O indice recebido de passo (índice adaptável de livro de código) é usado para encontrar o número inteiro e partes fracionadas da latência de passo,
O vetor inicial de excitação adaptável de livro de código v'(n) é encontrado ao interpolar a excitação anterior u(n) no atraso de passo e fase (fração) usando um filtro de interpolação FIR.
A excitação adaptável de livro de código é computada para o tamanho de subestrutura de 64 amostras. O índice de filtro adaptável recebido (ltp_filterxng_flag[]) é então usado para decidir se o livro de código adaptável filtrado é v(n) v'(n) ou v(n) = 0,18v'(n) + 0,64v'(n - 1) + 0,18v'(n - 2).
8.2.3.2 Decodificação da excitação de livro de código de inovação usando o elemento de corrente de bit "icb index[]"
O índice recebido de livro de código algébrico é usado para extrair as posições e amplitudes (indicações) dos pulsos de excitação e encontrar o vetor de código algébrico c(n) . Isto é
Figure img0009
em que e si são as posições de pulso e indicações e M é o número de pulsos.
Assim que o vetor de código algébrico c(n) é decodificado, um procedimento de apontamento de passo é realizado. Primeiro, o c(n} é filtrado por um filtro de pré-ênfase definido 5 conforme segue:
Figure img0010
0 filtro de pré-ênfase tem o papel de reduzir a energia de excitação em baixas frequências. Depois, uma melhoria de periodicidade é realizada por meio de um pré-filtro adaptável com uma função de transferência definida como:
Figure img0011
em que n é o índice de subestrutura (n=0,..,63), e em que T é uma versão arredondada da parte de número inteiro To e parte fracionada T0/frac da latência de passo e é fornecido por:
Figure img0012
O pré-filtro adaptável Fp(z) colore o espectro ao amortecer frequências inter-harmônicas, que são irritantes ao ouvido humana no caso de sinais com voz.
8.2.3.3 Decodificação dos ganhos, adaptáveis e inovadores de livro de código, descritos pelo elemento de corrente de bit "gains[]"
O índice recebido de 7 bits por subestrutura diretamente fornece o ganho de livro de código adaptável gp e o fator de correção de ganho de livro de código fixo /. O ganho fixo 25 de livro de código é então computado ao multiplicar o fator de correção de ganho por um ganho fixo estimado de Livro de código.
O ganho de livro de código fixo estimado g'cé encontrado conforme segue. Primeiro, a energia de inovação média é encontrada por
Figure img0013
Então, o ganho estimado
Figure img0014
encontrado por em que E é a energia de excitação mediana decodificada por estrutura. A energia de excitação inovadora mediana em uma estrutura, E , é codificada com 2 bits por estrutura (18, 30, 42 ou 54 dB) como "mean_energy".
O ganho de previsão no dominio linear é fornecido Por
Figure img0015
O ganho de livro de código fixo quantizado é fornecido por
Figure img0016
8.2.3.4 Computando a excitação reconstruída
As seguintes etapas são para n = 0, ..., 63. A excitação total é construída por:
Figure img0017
é o vetor de código a partir do livro de código fixo após filtragem do mesmo através do pré-filtro adaptável F(z). 0 sinal de excitação u'(n) é usado para atualizar o conteúdo do livro de código adaptável. O sinal de excitação u' (n) é então pós-processado conforme descrito na próxima seção 5 para obter o sinal de excitação pós-processado u(n) usado na entrada do filtro de sintese 1/Â(z) .
8.3 Pós-Processamento de Excitação 8.3.1 Geral
A seguir, o pós-processamento do sinal de 10 excitação será descrito, que pode ser realizado no bloco 989. Em outras palavras, para a sintese de sinal, um pós-processamento dos elementos de excitação pode ser realizado conforme segue.
8.3.2 Uniformização de Ganho para Melhoria de Som
Uma técnica de uniformização de ganho não linear 15 é aplicada ao ganho de livro de código fixo gc com a finalidade de melhorar a excitação in som. Com base na estabilidade e voz do segmento de fala, o ganho do vetor de livro de código fixo é uniformizado com a finalidade de reduzir a flutuação na energia da excitação no caso de sinais estacionários. Isso melhora o 20 desempenho no caso de som de histórico estacionário. O fator de voz é fornecido por
Figure img0018
em que Ev e Ec são as energias do vetor de código de passo escalonado e vetor de código de inovação escalonado, respectivamente (rv fornece uma medição de periodicidade do sinal) . Observe que, já que o valor de rv está entre -1 e 1, o valor de X está entre 0 e 1. Observe que o fator X é relacionado à quantia de sem voz com um valor de 0 para segmentos puramente com voz e um valor de 1 para segmentos puramente sem voz.
Um fator de estabilidade θé computado com base em uma medição de distância entre os filtros adjacentes LP. Aqui, o fator θé relacionado à medição de distância ISF. A distância ISF é fornecida por
Figure img0019
em que fj são os ISFs na presente estrutura, e fi<p) são os ISFs na estrutura anterior. O fator de estabilidade θ é fornecido por θ = 1.25 - ISFdist / 400000 Restrito por 0 <θ <1
A medição de distância ISF é menor no caso de sinais estáveis. Conforme o valor de θé inversamente relacionado à medição de distância ISF, então valores maiores de θ correspondem aos sinais mais estáveis. O fator de uniformização de ganho Sm ê fornecido por
Figure img0020
O valor de aproxima-se de 1 para sinais sem voz e estáveis, que é o caso dos sinais de som de histórico estacionário. Para sinais puramente com voz, ou para sinais instáveis, o valor de Smaproxima-se de 0. Um ganho modificado inicial g0, é computado ao comparar o ganho de livro de código fixo gc a um limite fornecido pelo ganho modificado inicial a partir da subestrutura anterior, g_i. Se gc é maior ou igual a g_lz então g0 é computado ao diminuir gc em 1,5 dB limitado por g0> g_x. Se gc for menor do que g-x, então g0 é computado ao incrementar gc por 1,5 dB 5 restrito por g0<g-i.
Finalmente, o ganho é atualizado com o valor do ganho uniformizado conforme segue
Figure img0021
8.3.3 Melhorador de Passo
Um esquema de melhorador de passo modifica a excitação total u'(n) por filtragem da excitação fixa de livro de código por meio de um filtro de inovação cuja resposta de frequência enfatiza as frequências mais altas e reduz a energia da baixa porção de frequência do vetor de código inovador, e cujos 15 coeficientes são relacionados à periodicidade no sinal. Um filtro da forma
Figure img0022
é usado em que cpe = 0,125(1 + r„) , com rv sendo um fator de periodicidade fornecido por rv = (Ev - Ec) / (Ev + Ec) 20 conforme acima descrito. The vetor de código de livro de código fixo filtrado é fornecido por
Figure img0023
e a excitação atualizada pós-processada é fornecida por
Figure img0024
O procedimento acima pode ser feito em uma etapa ao atualizar a excitação 989a, u(n) conforme segue
Figure img0025
8.4 Sintese e Pós-processamento
A seguir, a filtragem de síntese 991 e o pós- processamento 992 serão descritos.
8,4.1 Geral
A síntese LP é realizada por filtragem do sinal de excitação pós-processado 989a u(n) através do filtro de sintese LP 1/Â(z) . O filtro LP interpolado por subestrutura é usado na filtragem de síntese LP do sinal reconstruído em uma subestrutura é fornecido por
Figure img0026
O sinal sintetizado é então desenfatizado por 15 filtragem através do filtro 1/(1-0, 68z-1) (inverso do filtro de pré-ênfase aplicado na entrada de codificador).
8.4.2 Pós-processamento do sinal de síntese
Após a síntese LP, o sinal reconstruído é pós- processado usando a melhoria de passo de baixa frequência. A 20 decomposição de duas faixas é usada e a filtragem adaptável é aplicada somente na faixa inferior. Isso resulta em um pós- processamento total, que é direcionado na maior parte nas frequências próximas à primeira harmônica do sinal sintetizado de fala. 25 O sinal é processado em duas derivações. Na derivação superior, o sinal decodificado é filtrado por um filtro de alta passagem para produzir o sinal de faixa superior s#. Na derivação inferior, o sinal decodificado é primeiramente processado através de üm melhorador de passo adaptável, e então filtrado através de um filtro de passagem inferior para obter o sinal pós-processado de faixa inferior sLEF. 0 sinal decodificado 5 pós-processado é obtido ao adicionar o sinal pós-processado de faixa inferior e o sinal de faixa superior. 0 objeto do melhorador de passo é o de reduzir o som inter-harmônico no sinal decodificado, que é atingido aqui por um filtro linear variante de tempo com uma função de transferência
Figure img0027
e descrito pela seguinte equação:
Figure img0028
em que a é um coeficiente que controla a atenuação inter-harmônica, T é o periodo de passo do sinal de 15 entrada â(n), e sLe(n) é o sinal de salda do melhorador de passo.
Os parâmetros Teavariam com o tempo e são fornecidos pelo módulo de rastreamento de passo. Com um valor de a = 0,5, o ganho do filtro é exatamente 0 nas frequências 1/(2T) , 3/(2T), 5/(2T), etc.; i.e., no ponto médio entre as frequências harmônicas 1/T, 20 3/T, 5/T, etc. Quando a aproxima-se de 0, a atenuação entre as harmônicas produzidas pelo filtro diminui.
Para confinar o pós-processamento à região de baixa frequência, o sinal melhorado sÍE é filtrado por passagem inferior para produzir o sinal sLEF que é adicionado ao sinal 25 filtrado de passagem alta sH para obter o sinal pós-processado de síntese sE.
Um procedimento alternativo equivalente ao descrito acima é usado que elimina a necessidade de filtragem de alta passagem. Isso é atingido ao representar o sinal pós- 5 processado s£(n) no dominio z como
Figure img0029
em que PiT(z) é a função de transferência do filtro de previsor de longo prazo fornecido por
Figure img0030
e HLP(Z) é a função de transferência do filtro de passagem inferior.
Dessa forma, o pós-processamento é equivalente â subtração do sinal de erro de longo prazo filtrado de passagem inferior escalonado a partir do sinal de sintese s(n). 15 0 valor T é fornecido pela latência de passo de loop fechado recebida em cada subestrutura (a latência de passo fracionada arredondada para o número inteiro mais próximo). Um simples rastreamento para verificar a multiplicação de passo é realizado. Se a correlação normalizada de passo no atraso T/2 for
O maior do que 0,95, então o valor T/2 é usado como uma nova latência de passo para pós-processamento.
O fator a é fornecido por
Figure img0031
em que gp é o ganho de passo decodificado. 25 Observe que, no modo TCX e durante a codificação de dominio de frequência, o valor de a é definido para zero.
Um filtro de passagem inferior FIR de fase linear com 25 coeficientes é usado, com uma frequência de corte em 5Fs/256 kHz (o atraso de filtro é de 12 amostras).
8.5 TCX com base em MDCT
A seguir, o TCX com base em MDCT será descrito em detalhes, que é realizado pela síntese principal de sinal 940 da derivação TXC-LPD 930.
8.5.1 Descrição de ferramenta
Quando a variável de corrente de bit "core_mode" é igual a 1, que indica que a codificação é feita usando os parâmetros de domínio de previsão linear, e quando um ou mais dos três modos TCX são selecionados como a codificação de "dominio de previsão linear", i.e., uma das 4 entradas de arranjo de mod[] é superior a 0, a ferramenta de TCX com base em MDCT é usada. O TCX com base em MDCT recebe os coeficientes espectrais quantizados 941a a partir do decodificador aritmético 941. Qs coeficientes quantizados 941a (ou sua versão inversamente quantizada 942a) são primeiramente concluídos por um som de conforto (enchimento de som 943) . A modelagem de som de domínio de frequência com base em LPC 945 é então aplicada aos coeficientes espectrais resultantes 943a (ou sua versão desmodelada de forma espectral 944a) e uma transformação de MDCT inverso 946 é realizada para obter o sinal de sintese de domínio de tempo 946a.
8.5.2 Definições
A seguir, algumas definições serão fornecidas. A variável "lg" descreve um número de coeficientes espectrais quantizados produzido pelo decodificador aritmético. O elemento de corrente de bit "sound_factor" descreve um índice de quantização de nível de som. A variável "sound level"descreve um nível de som injetado em um espectro reconstruído. A variável "sound[J" descreve um vetor de som gerado. 0 elemento de corrente de bit "global_gain" descreve um índice de quantização de ganho de novo 5 escalonamento. A variável "g" descreve um ganho de novo escalonamento. A variável "rms" descreve uma raiz quadrada mediana do sinal sintetizado de domínio de tempo, x[]. A variável "x[]" descreve um sinal sintetizado de domínio de tempo.
8.5.3 Processo de Decodificação
O. TCX com base em MDCT solicita do decodificador aritmético 941 um número de coeficientes espectrais quantizados, lg, que é determinado pelo valor mod[]. Esse valor (lg) também define o comprimento e formato de janela que serão aplicados no MDCT inverso. A janela, que pode ser aplicada durante ou após o. MDCT inverso 946, é composta por três partes, uma sobreposição de lado esquerda das amostras L, uma parte média de uma das amostras M e uma parte de sobreposição direita de amostras R. Para obter uma janela MDCT de comprimento 2*lg, os zeros ZL são adicionados na esquerda e zeros ZR no lado direito. No caso de uma transição a partir de ou para uma SHORT_WINDOW, a região correspondente de sobreposição L ou R pode precisar ser reduzida para 128 com a finalidade de adaptar o declive mais curto de janela de SHORT_WINDOW. Consequentemente, a região Mea região correspondente zero ZL ou ZR podem precisam ser expandidas por 64 25 amostras cada.
A janela MDCT, que pode ser aplicada durante o MDCT inverso 946 ou após o MDCT inverso 946, é fornecida por
Figure img0032
A Tabela 6 mostra um número de coeficientes espectrais como uma função de mod[]. 5 Os coeficientes espectrais quantizados, quant[] 941a, entregues pelo decodificador aritmético 941, ou os coeficientes espectrais inversamente quantizados 942a, são opcionalmente concluídos por um som de conforto (enchimento de som 943). 0 nivel do som injetado é determinado pela variável decodificada sound_factor conforme segue: sound_level = 0,0625*(8-sound_factor)
Um vetor de som, sound[], é então computado usando uma função aleatória, random_sign(), entregando 15 aleatoriamente o valor -1 ou +1. som[i] = random_sign()*sound_level;
Os vetores quant[] e sound[] são combinados para formar o vetor reconstruído de coeficientes espectrais, r[) 942a, de uma forma que as execuções de 8 zeros consecutivos em quant [] 20 são substituídas pelos componentes de sound[]. Uma execução de 8 não zeros é detectada de acordo com a fórmula:
Figure img0033
obtido o espectro reconstruído 943a conforme se rl[í] = 0 de outro modo segue:
Figure img0034
Uma desmodelagem de espectro 944 é opcionalmente aplicada ao espectro reconstruído 943a de acordo com as seguintes 5 etapas: 1. Calcular a energia Em do bloco 8-dimensional no índice m para cada bloco 8-dimensional do primeiro quarto do espectro 2. Computar a razão Rm=sqrt (E^/Er), em que 10 I é o índice de bloco com o valor máximo de todo Em 3. Se Rm<0.1, então definir Rm=0.1 4. Se 7?ra<Rm_2:, então definir Rm=Rm., Cada bloco 8-dimensional pertencente ao primeiro quarto de espectro é então multiplicado pelo fator Rm. De forma 15 correspondente, os coeficientes espectrais desmodelados de forma espectral 944a são obtidos.
Antes de aplicar o MDCT inverso 946, os dois filtros quantizados LPC LPC1, LPC2 (cada um dos quais pode ser descrito por coeficientes de filtro a2 a ai0) correspondentes a 20 ambas as extremidades do bloco MDCT (i.e., os pontos de dobragem direitos e esquerdos) são recuperados (bloco 950), suas versões ponderadas são computadas, e os espectros decimados correspondentes (64 pontos, qualquer que seja o comprimento de transformação) 951a são computados (bloco 951) . Esses espectros ponderados LPC 951a são computados ao aplicar um ODFT (transformação Fourier discreta ímpar) aos coeficientes de filtro LPC 950a. Uma modulação complexa é aplicada aos coeficientes LPC antes de computar o ODFT, de modo que os bins de frequência ODFT (usados na computação de espectro 951) sejam perfeitamente alinhados com os bins de frequência MDCT (do MDCT inverso 946) . Por exemplo, o espectro ponderado de sintese LPC 951a de determinado filtro LPC Â(z) (definido, por exemplo, pelos coeficientes de filtro de dominio de tempo a! a aL6) é computado conforme segue:
Figure img0035
em que w[n], n = 0...Ipc_order +1, são os coeficientes (dominio de tempo) do filtro LPC ponderado fornecido por:
Figure img0036
Os ganhos g[k] 952a podem ser calculados a partir da representação espectral X0[k], 951a dos coeficientes LPC de 15 acordo com:
Figure img0037
em que M=64 é o número de faixas em que os ganhos calculados são aplicados.
Deixar gl[k] e g2[k], k=0...63, ser os espectros decimados LPC correspondentes, respectivamente, aos pontos de dobragem direitos e esquerdos computados conforme acima explicado. A operação FDNS inversa 945 consiste em filtragem do espectro reconstruído r[i], 944a usando o filtro recursivo:
Figure img0038
em que a[i] e b[i], 945b são derivados a partir dos ganhos esquerdos e direitos gl[k], g2[k], 952a usando as fórmulas:
Figure img0039
Acima, a variável k é igual a i/(lg/64) para considerar o fato de que os espectros LPC são decimados.
O espectro reconstruído rr[], 945a é alimentado em um MDCT inverso 946. O sinal de saída não provido de janela, x[], 946a, é novamente escalonado pelo ganho, g, obtido por uma quantização inversa do índice decodificado "global_gain":
Figure img0040
em que rms é calculado como:
Figure img0041
O sinal sintetizado de domínio de tempo novamente escalonado 940a é então igual a:
Figure img0042
Após o novo escalonamento, a gestão de janela e adição de sobreposição é aplicada, por exemplo, no bloco 978.
A síntese TCX reconstruída x(n) 938 é então opcionalmente filtrada através do filtro de pré-ênfase (l-0.68z-1).
A síntese pré-enfatizada resultante é então filtrada pelo filtro de análise A(z) com a finalidade de obter o sinal de excitação. A excitação calculada atualiza o livro de código adaptável ACELP e permite a comutação de TCX para ACELP em uma estrutura subsequente. O sinal é finalmente reconstruído ao desenfatizar a 5 síntese pré-enfatizada ao aplicar o filtrol/(l-0.68z"'), Observe que os coeficientes de filtro de análise são interpolados em uma base de subestrutura.
Observe também que o comprimento da síntese TCX é fornecido pelo comprimento de estrutura TCX (sem a sobreposição): 10 256, 512 ou 1024 amostras para o mod [ ] de 1, 2 ou 3, respectivamente.
8.6 Ferramenta de Cancelamento de Aliasing Adiantado (FAQ 8.6.1 Descrição de Ferramenta de Cancelamento de 15 AliasingAdiantado
O seguinte descreve as operações de cancelamento adiantado de aliasing (FAC) que são realizadas durante as transições entre ACELP e codificação de transformação (TC) (por exemplo, no modo de dominio de frequência ou no modo TCX-LPD) com 20 a finalidade de obter o sinal de síntese final. A meta de FAC é a de cancelar o aliasingde domínio de tempo introduzido por TC e que não pode ser cancelado pela estrutura ACELP precedente ou seguinte. Aqui a noção de TC inclui MDCT sobre blocos longos e curtos (modo de domínio de frequência) , bem como, TCX com base em 25 MDCT (modo TCX-LPD).
A Fig. 10 representa os diferentes sinais intermediários que são computados com a finalidade de obter o sinal de síntese final para a estrutura TC. No exemplo mostrado, a estrutura TC (por exemplo, uma estrutura 1020 codificada no modo de dominio de frequência ou no modo TCX-LPD) é tanto precedida quanto seguida por uma estrutura ACELP (estruturas 1010 e 1030).
Nos outros casos (uma estrutura ACELP seguida por mais de uma estrutura TC, ou mais do que uma estrutura TC seguida por uma estrutura ACELP) somente os sinais exigidos são computados.
Com referência â Fig. 10 agora, uma visão geral sobre o cancelamento adiantado de aliasingserá fornecida, 10 caracterizado pelo fato de que deve sfer observado que o cancelamento adiantado de aliasingserá realizado pelos blocos 960, 961, 962, 963, 964, 965 e 970.
Na representação gráfica das operações de decodificação de cancelamento adiantado de aliasing,que são 15 mostradas na Fig. 10, as abscissas 1040a, 1040b, 1040c, 1040d descrevem um tempo em termos de amostras de áudio. Uma ordenada 1042a descreve um sinal adiantado de síntese de cancelamento de aliasing,por exemplo, em termos de uma amplitude. Uma ordenada 1042b descreve os sinais representando um conteúdo de áudio 20 codificado, por exemplo, um sinal de síntese ACELP e um sinal de saída de estrutura de codificação de transformação. Uma ordenada 1042c descreve as contribuições ACELP a um cancelamento de aliasing,tal como, por exemplo, uma resposta de impulso zero provida de janela ACELP e uma síntese ACELP provida de janela e 25 dobrada. Uma ordenada 1042d descreve um sinal de síntese em um domínio original.
Conforme pode ser visto, ura sinal adiantado de síntese de cancelamento de aliasing1050 é fornecido em uma transição a partir da estrutura de áudio 1010 codificada no modo ACELP à estrutura de áudio 1020 codificada no modo TCX-LPD. O sinal de sintese de cancelamento de aliasingadiantado 1050 é fornecido ao aplicar a filtragem de sintese 964 e um sinal de 5 estimulo de cancelamento de aliasing963a, que é fornecido pelo DCT inverso do tipo IV 963. A filtragem de sintese 964 é com base nos coeficientes de filtro de sintese 965a, que são derivados a partir de um conjunto LPC1 de parâmetros de dominio de previsão linear ou coeficientes de filtro LPC. Conforme pode ser visto na Fig. 10, a primeiro porção 1050a do (primeiro) sinal adiantado de sintese de cancelamento de aliasing1050 pode ser uma resposta de entrada não zero fornecida pela filtragem de sintese 964 para um sinal de estimulo de cancelamento de aliasingnão zero 963a. Entretanto, o sinal adiantado de sintese de cancelamento de aliasing1050 também compreende uma porção de resposta de entrada zero 1050b, que pode ser fornecida pela filtragem de sintese 964 para uma porção zero do sinal de estímulo de cancelamento de aliasing963a. De forma correspondente, o sinal adiantado de síntese de cancelamento de aliasing1050 pode compreender uma porção de resposta de entrada não zero 1050a e uma porção de resposta de entrada zero 1050b. Deve ser observado que o sinal adiantado de síntese de cancelamento de aliasing1050, pode preferivelmente ser fornecido com base no conjunto LPC1 dos parâmetros de domínio de previsão linear, que é relacionado à transição entre a estrutura ou subestrutura 1010, e a estrutura ou subestrutura 1020. Além do mais, outro sinal adiantado de síntese de cancelamento de aliasing1054 é fornecido em uma transição a partir da estrutura ou subestrutura 1020 à estrutura ou subestrutura 1030. O sinal adiantado de sintese de cancelamento de aliasing1054 pode ser fornecido por filtragem de sintese 964 de um sinal de estimulo de cancelamento de aliasing963a, que é fornecido por um DCT IV inverso, 963 com base nos coeficientes de 5 cancelamento de aliasing.Deve ser observado que a provisão do sinal adiantado de sintese de cancelamento de aliasing1054 pode ser com base em um conjunto de parâmetros de dominio de previsão linear LPC2, que é associado à transição entre a estrutura ou subestrutura 1020 e estrutura ou subestrutura subsequente 1030.
Além disso, os sinais adicionais de síntese de cancelamento de aliasing1060, 1062 serão fornecidos em uma transição a partir de uma estrutura ou subestrutura ACELP 1010 a uma estrutura ou subestrutura TXC-LPD 1020. Por exemplo, uma versão com gestão de janela e dobrada 973a, 1060 de um sinal de 15 sintese ACELP 986, 1056 pode ser fornecida, por exemplo, pelos blocos 971, 972, 973. Além disso, uma resposta de entrada zero provida de janela ACELP 976a, 1062 será fornecida, por exemplo, pelos blocos 975, 976. Por exemplo, o sinal de síntese provido de janela e dobrado ACELP 973a, 1060 pode ser obtido pela gestão de 20 janela do sinal de síntese ACELP 986, 1056 e ao aplicar uma dobragem temporal 973 do resultado da gestão de janela, conforme será descrito em mais detalhes abaixo. A resposta de entrada zero provida de janela ACELP 976a, 1062 pode ser obtida ao fornecer uma entrada zero a um filtro de síntese 975, que é igual ao filtro de 25 sintese 991, que é usado para fornecer o sinal de síntese ACELP 986, 1056, caracterizado pelo fato de que um estado inicial do filtro de síntese 975 é igual a um estado do filtro de síntese 981 no final da provisão do sinal de síntese ACELP 986, 1056 da estrutura ou subestrutura 1010. Dessa forma, o sinal de síntese provido de janela e dobrado ACELP 1060 pode ser equivalente ao sinal adiantado de síntese de cancelamento de aliasing973a, e a resposta de entrada zero provida de janela ACELP 1062 pode ser 5 equivalente ao sinal adiantado de síntese de cancelamento de aliasing976a,
Finalmente, a estrutura de codificação de transformação produz o sinal 1050a, que pode ser igual a uma versão com gestão de janela da representação de domínio de tempo 10 940a, conforme combinado com os sinais de sintese de cancelamento adiantado de aliasing1052, 1054, e as contribuições ACELP adicionais 1060, 1062 ao cancelamento de aliasing.
8.6.2 Definições
A seguir, algumas definições serão fornecidas. O elemento de corrente de bit "fac_gain" descreve um índice de ganho de 7 bits. O elemento de corrente de bit ”nq[i]" descreve um número de livro de código. O elemento de sintaxe "FAC[i]" descreve os dados adiantados de cancelamento de aliasing. A variável "fac_length" descreve um comprimento de uma transformação de cancelamento adiantado de aliasing,que pode ser igual a 64 para transições a partir e para uma janela do tipo "EIGHT_SHORT_SEQUENCES" e que pode ser 128 de outro modo. A variável "use_gain" indica o uso da informação de ganho explicita.
8.6.3 Processo de Decodificação
A seguir, o processo de decodificação será descrito. Para essa finalidade, as diferentes etapas serão brevemente resumidas. 1. Decodificar parâmetros AVQ (bloco 960) - A informação FAC é codificada usando a mesma ferramenta de quantização de vetor algébrico (AVQ) conforme para a codificação dos filtros LPC (vide seção 8.1). • Para i=0...FAC, o comprimento de 5 transformação: o Um número de livro de código nq[i] é codificado usando um código unário modificado o Os dados correspondentes FAC FAC[i] são codificados com 4*nq[i] bits 10 - um vetor FAC[i] para i=0, . . ., fac_length é, portanto, extraido a partir da corrente de bit 2. Aplicar um fator de ganho g aos dados FAC (bloco 961) Para transições com TCX com base em MDCT 15 (wLPT), o ganho do elemento correspondente "tcx^coding" é usado
Para outras transições, uma informação de ganho " £ac_gain" foi recuperada a partir da corrente de bit (codificada usando um quantizador escalar de 7 bits). O ganho gé calculado como g=10fac-gajn/28 usando tal informação de ganho. 0 3. No caso de transições entre TCX com base em MDCT e ACELP, uma desmodelagem de espectro 962 é aplicada ao primeiro quarto dos dados espectrais FAC 961a. Os ganhos de desmodelagem são aqueles computados para o TCX com base em MDCT correspondente (para utilização pela desmodelagem de espectro 944) conforme explicado na seção 8.5.3 de modo que o som de quantização de FAC e TCX com base em MDCT possui o mesmo formato.
4.Computar o DCT-IV inverso dos dados FAC escalonados de ganho (bloco 963) .
O comprimento de transformação FAC, fac_length, é por padrão igual a 128 Para transições com blocos curtos, esse comprimento é reduzido para 64. 5. Aplicar (bloco 964) o filtro de sintese ponderado (descrito, por exemplo, pelos coeficientes de filtro de sintese 965a) para obter o sinal de sintese FAC 964a. O sinal resultante é representado na linha (a) na Fig. 10.
O filtro de sintese ponderado é com base no filtro LPC que corresponde ao ponto de dobragem (na Fig. 10, é identificado como LPC1 para transições a partir de ACELP a TCX-LPD e como LPC2 para transições a partir de wLPD TC (TCX-LPD ) para ACELP ou LPCO para transições a partir de FD TC (codificação de transformação de código de frequência) para ACELP) i
O mesmo fator de ponderação LPC é usado j conforme para operações ACELP:
Figure img0043
pr(z)=^(z//,) , em que Yi=0,92 Para computar o sinal de sintese FAC 964a, a memória inicial do filtro de sintese ponderado 964 é definido para 20 0 I
Para transições a partir de ACELP, o sinal de sintese FAC 1050 é ainda estendido ao acrescentar a resposta de entrada zero (ZIR) 1050b do filtro de sintese ponderado (128 amostras) 6. No caso de transições a partir de ACELP, computar a síntese anterior provida de janela ACELP 972a, dobrá-la ; (por exemplo, para obter o sinal 973a ou o sinal 1060) e adiciona- la ao sinal provido de janela ZIR (por exemplo, o sinal 976a ou o sinal 1062). A resposta ZIR é computada usando LPCl. A janela aplicada às amostras ACELP de sintese anterior fac length ê:
Figure img0044
O sinal resultante é representado na linha (c) na Fig. 10 e denotado como a contribuição ACELP (contribuições de sinal 1060, 1062). 7. Adicionar a síntese FAC 964a, 1050 (e a contribuição ACELP 973a, 976a, 1060, 1062 no caso de transições a partir de ACELP) à estrutura TC (que é representada como a linha (b) na Fig. 10) (ou a uma versão com gestão de janela da representação de domínio de tempo 940a) com a finalidade de obter
O sinal de sintese 998 (que é representado como a linha (d) na Fig. 10).
8.7 Processo de Codificação de Cancelamento de AliasingAdiantado (FAC)
A seguir, alguns dos detalhes referentes à codificação da informação exigida para o cancelamento adiantado de aliasingserão descritos. Especificamente, a computação e codificação dos coeficientes de cancelamento de aliasing936 serão descritas.
A Fig. 11 mostra as etapas de processamento no codificador quando uma estrutura 1120 codificada com a Codificação de Transformação (TC) é precedida e seguida por uma estrutura 1110, 1130 codificada com ACELP. Aqui, a noção de TC inclui MDCT sobre blocos longos e curtos conforme em AAC, bem como, TCX com base em MDCT (TCX-LPD) . A Figura 11 mostra os marcadores de dominio de tempo 1140 e limites de estrutura 1142, 1144. As linhas pontilhadas verticais mostram o inicio 1142 e final 1144 da estrutura 1120 codificada com TC. LPC1 e LPC2 indicam o centro da janela de análise para calcular dois filtros LPC: LPC1 calculado no início 1142 da estrutura 1120 codificada com TC, e LPC2 calculado no final 1144 da mesma estrutura 1120. A estrutura 1110 na esquerda do marcador "LPC1" é assumida como tendo sido codificada com ACELP. A estrutura 1130 na direita do marcador "LPC2" também é assumida como tendo sido codificada com ACELP.
Existem quatro linhas 1150, 1160, 1170, 1180 na Fig. 11. Cada linha representa uma etapa no cálculo do alvo FAC no codificador. Deve ser entendido que cada linha é alinhada com tempo com a linha acima.
A linha 1 (1150) da Fig. 11 representa o sinal de áudio original, segmentado nas estruturas 1110, 1120, 1130 conforme acima declarado. A estrutura média 1120 é assumida como tendo sido codificada no domínio MDCT, usando FDNS, e será denominada estrutura TC. O sinal na estrutura anterior 1110 é assumido como tendo sido codificado no modo ACELP. Essa sequência de modos de codificação (ACELP, então TC, então ACELP) é escolhida de modo a ilustrar todo o processamento em FAC, já que FAC é relacionado a ambas as transições (ACELP para TC e TC para ACELP).
A linha 2 (1160) da Fig. 11 corresponde aos sinais decodificados (sintese) em cada estrutura (que pode ser determinada pelo codificador ao usar o conhecimento do algoritmo de decodificação) . A curva superior 1162, que se estende a partir 5 do inicio ao final da estrutura TC, mostra o efeito de gestão de janela (plano no meio, porém não no inicio e final). O efeito de dobragem é mostrado pelas curvas inferiores 1164, 1166 no inicio e final do segmento (com indicação de indicação no inicio do segmento e a indicação "+" n o final do segmento) . FAC pode ser 10 então usado para corrigir esses efeitos.
A linha 3 (1170) da Fig. 11 representa a contribuição ACELP, usada no inicio da estrutura TC para reduzir a carga de codificação de FAC. Essa contribuição ACELP é formada por duas partes: 1) a sintese dobrada e provida de janela ACELP 877f, 15 1170 a partir do final da estrutura anterior, e 2) a resposta de entrada zero provida de janela 877j, 1172 do filtro LPÇ1,
Deve ser observado aqui que a sintese provida de janela e dobrada ACELP 1110 pode ser equivalente à sintese provida de janela e dobrada ACELP 1060, e que a resposta de entrada zero 20 provida de janela 1172 pode ser equivalente à resposta de entrada zero provida de janela ACELP 1062. Em outras palavras, o codificador de sinal de áudio pode estimar (ou calcular) o resultado de sintese 1162, 1164, 1166, 1170, 1172, que será obtido no lado de um decodificador de sinal de áudio (blocos 869a e 877).
O erro ACELP que é mostrado na linha 4 (1180) é então obtido ao simplesmente subtrair a Linha 2 (1160) e Linha 3 (1170) da Linha 1 (1150) (bloco 870) . Uma visão aproximada do envelope esperado do sinal de erro 871, 1182 no dominio de tempo é mostrada na Linha 4 (1180) na Fig. 11. O erro na estrutura ACELP (1120) é esperado para ser aproximadamente plano em amplitude no dominio de tempo. Então, o erro na estrutura TC (entre os marcadores LPCl e LPC2) é esperado para exibir o formato geral 5 (envelope de dominio de tempo) conforme mostrado nesse segmento 1182 da Linha 4 (1180) na Fig. 11.
Para eficientemente compensar os efeitos de gestão de janela e aliasingde dominio de tempo no início e final da estrutura TC na Linha 4 da Fig. 10, e assumindo que a estrutura 10 TC usa FDNS, o FAC é aplicado de acordo com a Fig. 11. Deve ser observado que a Fig. 11 descreve esse processamento para ambas a parte esquerda (transição de ACELP para TC) e parte direita (transição de TC para ACELP) da estrutura TC.
Para resumir, o erro de estrutura de codificação 1.5 de transformação 871, 1182, que é representado pelos coeficientes codificados de cancelamento de aliasing856, 936 é obtido ao subtrair ambos, a saida de estrutura de codificação de transformação 1162, 1164, 1166 (descrita, por exemplo, pelo sinal 869b), e a contribuição ACELP 1170, 1172 (descrita, por exemplo, 20 pelo sinal 872) a partir do sinal 1152 no domínio original (i.e., no domínio de tempo). De forma correspondente, o sinal de erro de estrutura de codificação de transformação 1182 é obtido.
A seguir, a codificação do erro de estrutura de codificação de transformação 871, 1182 será descrita. Primeiro, um filtro de ponderação 874, 1210, W2(z) é computado a partir do filtro LPCl. O sinal de erro 871, 1182 no inicio da estrutura TC 1120 na Linha 4 (1180) da Fig. 11 (que é também denominado alvo FAC nas Figs. 11 e 12) é então filtrado através de W2(z), que tem como estado inicial, ou memória de filtro, o erro ACELP 871, 1182 na estrutura ACELP 1120 na Linha 4 da Fig. 11. A saida do filtro 874, 1210 Wj(z) na parte superior 5 da Fig. 12 então forma a entrada de uma transformação DCT-IV 875, 1220. Os coeficientes de transformação 875a, 1222 a partir de DCT- IV 875, 1220 são então quantizados e codificados usando a ferramenta AVQ 876 (representada por Q, 1230). Essa ferramenta AVQ é a mesma que é usada para quantizar os coeficientes LPC. Esses 10 coeficientes codificados são transmitidos ao decodificador. A saida do AVQ 1230 é então a entrada de um DCT-IV inverso 963, 1240 para formar um sinal de dominio de tempo 963a, 1242. Esse sinal de domínio de tempo é então filtrado através do filtro inverso 964, 1250, l/IV2(z) que tem memória zero (estado inicial zero). A 15 filtragem através de 1/W2 (z) é estendida além do comprimento do alvo FAC usando a entrada zero para as amostras que se estendem após o alvo FAC. A saida 964a, 1252 do filtro 1250, 1/WJz) é a síntese FAC, que é o sinal de correção (por exemplo, sinal 964a) que pode agora ser aplicado no início da estrutura TC para 2 0 compensar os efeitos de gestão de janela e aliasingde domínio de tempo.
Agora, com relação ao processamento para a correção de gestão de janela e aliasingde domínio de tempo no final da estrutura TC, consideramos a parte inferior da Fig. 12. O 25 sinal de erro 871, 1182b no final da estrutura TC 1120 na Linha 4 da Fig. 11 (alvo FAC) é filtrado através do filtro 874, 1210; W2(z), que tem como estado inicial, ou memória de filtro, o erro na estrutura TC 1120 na Linha 4 da Fig. 11. Então, todas as etapas adicionais de processamento são as mesmas que para a parte superior da Fig. 12 que lida com o processamento do alvo FAC no início da estrutura TC, com a exceção da extensão ZIR na síntese FAC. 5 Observe que o processamento na Fig. 12 é realizado completamente (da esquerda à direita) quando aplicado no codificador (para obter a síntese local FAC), considerando que, no lado do decodificador, o processamento na Fig. 12 somente é aplicado iniciando a partir dos coeficientes decodificados 10 recebidos DCT-IV.
9, Corrente de bit
A seguir, alguns dos detalhes referentes à corrente de bit serão descritos com a finalidade de facilitar o entendimento da presente invenção. Deve ser observado aqui que uma 15 quantidade significativa da informação de configuração pode ser incluída na corrente de bit.
Entretanto, um conteúdo de áudio de uma estrutura codificada no modo de domínio de frequência é principalmente representado por um elemento de corrente de bit nomeado 20 "fd_channel_stream()". Esse elemento de corrente de bit "fd_channel_stream()" compreende uma informação de ganho global "global_gain", dados codificados de fator de escala "scale_factor_data()", e dados espectrais aritmeticamente codificados "ac_spectral_data". Além disso, o elemento de corrente 25 de bit "fd_channel_stream()" seletivamente compreende os dados adiantados de cancelamento de aliasingincluindo uma informação de ganho (também designada como "fac_data(1)"), se (e somente se) uma estrutura anterior (também designada como "superestrutura" em algumas realizações) tiver sido codificada no modo de dominio de previsão linear e a última subestrutura da estrutura anterior tenha sido codificada no modo ACELP. Em outras palavras, os dados de cancelamento adiantado de aliasingincluindo uma informação de 5 ganho são seletivamente fornecidos para uma estrutura de áudio de modo de domínio de frequência, se a estrutura ou subestrutura anterior tenha sido codificada no modo ACELP. Isso é vantajoso, conforme um cancelamento de aliasingpode ser efetuado por uma mera funcionalidade de sobreposição e adição entre uma estrutura 10 de áudio ou subestrutura de áudio anterior codificada no modo TCX- LPD e a estrutura de áudio atual codificada no modo de domínio de frequência, conforme foi acima explicado.
Para detalhes, a referência é feita à Fig. 14, que mostra uma representação de sintaxe do elemento de corrente de 15 bit "fd_channel_stream()" que compreende a informação de ganho global "globãl_gain", os dados de fator de escala "scale_factor_data()", os dados espectrais aritmeticamente codificados "ac_spectral_data()". A variável "core_mode_last" descreve um último modo principal e obtém o valor de zero para uma 20 codificação de domínio de frequência com base no fator de escala e obtém o valor de um para uma codificação com base nos parâmetros de domínio de previsão linear (TCX-LPD ou ACELP). A variável "last_lpd_mode" descreve um modo LPD de uma última estrutura ou subestrutura e obtém o valor de zero para uma estrutura ou 25 subestrutura codificada no modo ACELP.
Com referência agora à Fig. 15, a sintaxe será descrita para um elemento de corrente de bit "lpd_channel_stream()", que codifica a informação de uma estrutura de áudio (também designada como "superestrutura") codificada no modo de dominio de previsão linear. A estrutura de áudio ("superestrutura") codificada no modo de dominio de previsão linear pode compreender uma pluralidade de subestruturas (por 5 vezes também designadas como "estruturas", por exemplo, em combinação com a terminologia "superestrutura"). As subestruturas (ou "estruturas") podem ser de diferentes tipos, de modo que algumas das subestruturas podem ser codificadas no modo TCX-LPD, enquanto outras das subestruturas podem ser codificadas no modo 10 ACELP.
A variável de corrente de bit "acelp_core_mode" descreve o esquema de alocação de bit no caso em que um ACELP seja usado. 0 elemento de corrente de bit "lpd_mode" foi explicado acima. A variável "first_tcx_flag"é definida para verdade no 15 inicio de cada subestrutura codificada no modo LPD. A variável "first_lpd_flag" é uma bandeira que indica se a estrutura ou superestrutura atual é a primeira de uma sequência de estruturas ou superestruturas que são codificadas no dominio de codificação de previsão linear. A variável "last_lpd" é atualizada para 20 descrever o modo (ACELP; TCX256; TCX512; TCX1024) em que a última subestrutura (ou estrutura) foi codificada. Conforme pode ser visto no numeral de referência 1510, os dados de cancelamento adiantado de aliasingsem uma informação de ganho ("fac_data_(0)") são incluidos para uma subestrutura que é codificada no modo TCX- LPD (mod[k]>0J, se a última subestrutura foi codificada no modo ACELP (last_lpd_mode==0) e para uma subestrutura codificada no modo ACELP (mod[k]-=0) se a subestrutura anterior foi codificada no modo TCX-LPD (last_lpd_mode>0).
Se, em contraste, a estrutura anterior foi codificada no modo de dominio de frequência (core_mode_last=0) e a primeira subestrutura da estrutura atual for codificada no modo ACELP (mod[0]==0), os dados de cancelamento adiantado de aliasing 5 incluindo uma informação de ganho (”fac_data(1)") são contidos no elemento de corrente de bit "lpd_channel_stream".
Para resumir, os dados de cancelamento adiantado de aliasingincluindo um valor de ganho de cancelamento adiantado de aliasingdedicado são incluidos na corrente de bit, se existir 10 uma transição direta entre uma subestrutura codificada no domínio de frequência e uma estrutura ou subestrutura codificada no modo ACELP. Em contraste, se existir uma transição entre uma estrutura ou subestrutura codificada no modo TCX-LPD e uma estrutura ou subestrutura codificada no modo ACELP, uma informação de 15 cancelamento de aliasingadiantado sem um valor de ganho de cancelamento adiantado de aliasingdedicado é incluída na corrente de bit.
Com referência agora à Fig. 16, a sintaxe dos dados de cancelamento adiantado de aliasing,que é descrita pelo elemento de corrente de bit "fac_data()" será descrita. O parâmetro "useGain" indica se existir um elemento de corrente de bit de valor de ganho de cancelamento adiantado de aliasing dedicado ”fac_gain", conforme pode ser visto no numeral de referência 1610. Além disso, o elemento de corrente de bit "fac_data" compreende uma pluralidade de número de elementos de corrente de bit de livro de código "nq[i],z e um número de "fac_data" elementos de corrente de bit "fac(ij".
A decodificação do referido número de livro de código e referidos dados de cancelamento adiantado de aliasingfoi acima descrita.
10. Alternativas de Implantação
Embora alguns aspectos tenham sido descritos no contexto de um mecanismo, é claro que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa de método ou um recurso de uma etapa de método. De forma análoga, os aspectos descritos no contexto de uma etapa de método também representam 10 uma descrição de um bloco, item ou recurso correspondente de um mecanismo correspondente. Algumas ou todas as etapas de método podem ser executadas por (ou Usando) um mecanismo de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas realizações, alguma ou mais 15 das etapas de método mais importantes podem ser executadas por tal mecanismo.
O sinal codificado inventivo de áudio pode ser armazenado em uma mídia de armazenamento digital ou pode ser transmitido em uma mídia de transmissão, tal como, uma mídia de 20 transmissão sem fio ou uma mídia de transmissão com fio, tal como, a Internet.
Dependendo de determinadas exigências de implantação, as realizações da invenção podem ser implantadas em hardware ou em software. A implantação pode ser realizada usando 25 uma mídia de armazenamento digital, por exemplo, um disco flexível, um DVD, um Blue-Ray, um CD, um ROM, um PROM, um EPROM, um EEPROM ou uma memória FLASH, tendo sinais de controle eletronicamente legíveis lá armazenados, que cooperam (ou são capazes de cooperar) com um sistema de computador programável de modo que o respectivo método seja realizado. Portanto, a mídia de armazenamento digital pode ser legível por computador.
Algumas realizações de acordo com a invenção 5 compreende üm portador de dados tendo os sinais de controle eletronicamente legíveis, que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos aqui descritos é realizado.
De modo geral, as realizações da presente 10 invenção podem ser implantadas como um produto de programa de computador com um código de programa, o código de programa sendo operativo para realizar um dos métodos quando o produto de programa de computador opera em um computador. O código de programa pode, por exemplo, ser armazenado em um portador legível 15 por máquina.
Outras realizações compreendem o programa de computador para realizar um dos métodos aqui descritos, armazenados em um portador legível por máquina.
Em outras palavras, uma realização do método 20 inventivo é, portanto, um programa de computador tendo um código de programa para realizar um dos métodos aqui descritos, quando o programa de computador opera em um computador.
A realização adicional dos métodos inventivos é, portanto, um portador de dados (ou uma mídia de armazenamento 25 digital, ou uma mídia legível por computador) compreendendo, lá gravado, o programa de computador para realizar um dos métodos aqui descritos. O portador de dados, a mídia de armazenamento digital ou a mídia gravada são tipicamente tangíveis e/ou não transitórias.
Uma realização adicional do método inventivo é, portanto, uma corrente de dados ou uma sequência de sinais representando o programa de computador para realizar um dos 5 métodos aqui descritos. A corrente de dados ou a sequência de sinais pode, por exemplo, ser configurada para ser transferida via uma conexão de comunicação de dados, por exemplo, via a Internet.
Uma realização adicional compreende um meio de processamento, por exemplo, um computador, ou um dispositivo 10 lógico programável, configurado ou adaptado para realizar um dos métodos aqui descritos.
Uma realização adicional compreende um computador tendo lá instalado o programa de computador para realizar um dos métodos aqui descritos.
Uma realização adicional de acordo com a invenção compreende um mecanismo ou um sistema configurado para transferir (por exemplo, eletrônica ou oticamente) um programa de computador para realizar um dos métodos aqui descritos a um receptor. 0 receptor pode, por exemplo, ser um computador, um dispositivo 20 móvel, um dispositivo de memória ou semelhante. O mecanismo ou sistema pode, por exemplo, compreende um servidor de arquivo para transferir o programa de computador ao receptor.
Em algumas realizações, um dispositivo lógico programável (por exemplo, um arranjo de porta programável em 25 campo) pode ser usado para realizar algumas ou todas as funcionalidades dos métodos aqui descritos. Em algumas realizações, um arranjo de porta programável em campo pode cooperar com um microprocessador com a finalidade de realizar um dos métodos aqui descritos. De modo geral, os métodos são preferivelmente realizados por qualquer mecanismo de hardware.
As realizações acima descritas são meramente ilustrativas para os princípios da presente invenção. Fica 5 entendido que as modificações e variações dos arranjos e detalhes aqui descritos serão aparentes por aqueles com habilidade na técnica. É a intenção, portanto, de ser somente limitado pelo escopo das reivindicações pendentes de patente e não por detalhes específicos apresentados por meio de descrição e explicação das 10 realizações no presente.
11. Conclusão
A seguir, a presente proposta para a gestão de janela e transições de estrutura de unificação de codificação unificada de fala e áudio (USAC) será resumida.
Primeiramente, uma introdução será fornecida e alguma informação de histórico descrita. Um design atual (também designado como design de referência) do modelo de referência USAC consiste em (ou compreende) três diferentes módulos de codificação. Para cada determinada seção de sinal de áudio (por 20 exemplo, uma estrutura ou subestrutura) um módulo de codificação (ou modo de codificação) é escolhido para codificar/decodificar tal seção resultante em diferentes modos de codificação. Conforme esses módulos alternam em atividade, a atenção especial precisa ser dada às transições de um modo a outro. No passado, diversas 25 contribuições propuseram modificações tratando essas transições entre modos de codificação.
As realizações de acordo com a presente invenção criam um esquema geral previsto do esquema de gestão de janela e transição. O progresso que foi atingido sobre o modo em direção à conclusão desse esquema será descrito, exibindo evidência muito promissora para as melhorias de qualidade e estruturais sistemáticas.
O presente documento resume as alterações propostas ao design de referência (que é também designado como design de minuta de trabalho 4) com a finalidade de criar uma estrutura de codificação mais flexível para USAC, para reduzir codificação em excesso e reduzir a complexidade das seções 10 codificadas de transformação do codec.
Com a finalidade de chegar a um esquema de gestão de janela que evita amostragem não critica dispendiosa (codificação em excesso), dois componentes são introduzidos, que podem ser considerados como sendo essenciais em algumas 15 realizações: 1) a janela de cancelamento adiantado de aliasing(FAC); e 2) modelagem de som de dominio de frequência (FDNS) para a derivação de codificação de transformação no codec 20 de núcleo LPD (TCX, também conhecido como TCX-LPD ou wLPT).
A combinação de ambas as tecnologias torna possível empregar um esquema de gestão de janela que permite comutação altamente flexível do comprimento de transformação em uma demanda mínima de bit.
A seguir, os desafios dos sistemas de referência serão descritos para facilitar o entendimento das vantagens fornecidas pelas realizações de acordo com a invenção. Um conceito de referência de acordo com a minuta de trabalho 4 da norma de minuta USAC consiste em um codec de núcleo comutado trabalhando em conjunto com uma etapa de pré-/pós-processamento consistindo em (ou compreendendo) módulo MPEG surround e um módulo melhorado SBR. O núcleo comutado retrata um codec de dominio de frequência (FD) e um codec de dominio de previsão linear (LPD). 0 último emprega um módulo ACELP e um codificador de transformação trabalhando no dominio ponderado ("Transformação de Previsão Linear ponderada” (vLPT), também conhecida como excitação codificada por transformação, (TCX)). Foi averiguado que devido aos princípios de codificação fundamentalmente diferentes, as transições entre os modos são especialmente desafiantes para tratar. Foi averiguado que o cuidado deve ser tomado para que os modos misturem-se eficientemente.
A seguir, os desafios que surgem nas transições a partir do dominio de tempo ao dominio de frequência (ACELP-.wLPT, ACELP—FD) serão descritos. Foi averiguado que as transições a partir da codificação de dominio de tempo à codificação de dominio de transformação são complicadas, especificamente, conforme o codificador de transformação é com base na propriedade de cancelamento de aliasingdo dominio de transformação (TDAC) dos blocos adjacentes no MDCT. Foi averiguado que um bloco codificado de dominio de frequência não pode ser decodificado em sua totalidade sem informação adicional de seus blocos adjacentes de sobreposição.
A seguir, os desafios que aparecem nas transições a partir do dominio de sinal ao dominio de previsão linear (FD—ACELP, FD-wLPT) serão descritos. Foi averiguado que as transições para e do dominio de previsão linear implicam em uma transição de diferentes paradigmas de modelagem de som de quantização. Foi averiguado que os paradigmas utilizam um diferente modo de transmitir e aplicar a informação de modelagem de som motivada de forma psico-acústica, que pode causar 5 descontinuidades na qualidade percebida nos locais em que o modo de codificação se altera.
A seguir, os detalhes referentes à matriz de transição de estrutura de um conceito de referência de acordo com a minuta de trabalho 4 da norma de minuta USAC serão descritos.
Devido à natureza hibrida do modelo de referência de USAC de referência, existe uma multiplicidade de transições de janela concebíveis. A tabela 3 por 3 na Fig. 4 exibe uma visão geral dessas transições conforme são atualmente implantadas de acordo com o conceito da minuta de trabalho 4 da norma de minuta USAC.
Cada uma das contribuições acima listadas trata uma ou mais da transição exibida na tabela da Fig. 4. Vale observar que as transições não homogêneas (aquelas não na diagonal principal) aplicam diferentes etapas especificas de processamento, que são o resultado de um compromisso entre tentar atingir a 20 amostragem crítica, evitar artefatos de bloqueio, encontrar um esquema comum de gestão de janela e permitir uma decisão de modo de loop fechado de codificador. Em alguns casos, esse compromisso tem o custo de descartar amostras codificadas e transmitidas.
A seguir, algumas alterações propostas do sistema 25 serão descritas. Em outras palavras, as melhorias do conceito de referência de acordo com a minuta de trabalho USAC 4 serão descritas. Com a finalidade de lidar com as dificuldades listadas nas transições de janela, as realizações de acordo com a invenção introduzem duas modificações ao sistema existente, quando comparado aos conceitos de acordo com o sistema de referência de acordo com a minuta de trabalho 4 da norma de minuta USAC. A primeira modificação tem o objetivo de universalmente melhorar a 5 transição a partir do domínio de tempo ao domínio de frequência ao adotar uma janela complementar de cancelamento adiantado de aliasing.A segunda modificação assimila o processamento dos domínios de previsão linear e sinal ao introduzir uma etapa de transmutação para os coeficientes LPC, que então podem ser 10 aplicados no domínio de frequência.
A seguir, o conceito de modelagem domínio de frequência (FDNS) será descrito, que permite a aplicação de LPC no dominio de frequência. A meta dessa ferramenta (FDNS) é a de permitir o processamento TDAC dos codificadores MDCT 15 que trabalham em diferentes domínios. Enquanto o MDCT de parte do domínio de frequência de USAC atual no domínio de sinal, o wLPT (ou TCX) do conceito de referência opera no domínio filtrado ponderado. A substituir o filtro LPC de síntese ponderado, que é usado no conceito de referência, por uma etapa equivalente de 20 processamento no domínio de frequência, o MDCT de ambos os codificadores de transformação opera no mesmo domínio e o TDAC pode ser realizado sem introduzir descontinuidades na modelagem de som de quantização.
Em outras palavras, o filtro LPC de ponderado 330g é substituído pelo escalonamento/modelagem de som de domínio de frequência 380e em combinação com o LPC para a conversão de domínio de frequência 380i. De forma correspondente, o MDCT 320g do caminho do domínio de frequência e MDCT 380h da derivação TCX-LPD operam no mesmo domínio, de modo que o cancelamento de aliasingde domínio de transformação (TDAC) é atingido.
A seguir, alguns dos detalhes referentes à janela de cancelamento adiantado de aliasing(janela FAC) serão descritos. A janela de cancelamento adiantado de aliasing(FAC) já foi introduzida e descrita. Essa janela complementar compensa a informação TDAC faltante que - em um código de transformação continuamente operando - é normalmente contribuída pela janela 10 seguinte ou precedente. Já que o codificado de domínio de tempo ACELP não exibe nenhuma sobreposição às estruturas adjacentes, o FAC pode compensar a falta dessa sobreposição faltante.
Foi averiguado que, ao aplicar o filtro LPC no domínio de frequência, o caminho de codificação LPD perde algum do 15 impacto de uniformização da filtragem LPC interpolada entre os segmentos codificados ACELP e wLPT (TCX-LPD). Entretanto, foi averiguado que, já que FAC foi projetado para permitir uma transição favorável exatamente nesse local, ele também pode compensar esse efeito.
Como uma consequência de introduzir a janela FAC e FDNS, todas as transições concebíveis podem ser realizadas sem qualquer codificação em excesso inerente,
A seguir, alguns dos detalhes referentes ao esquema de gestão de janela serão descritos.
Como a janela FAC pode fundir as transições entre ACELP e wLPT já foi descrito. Para detalhes adicionais, a referência é feita ao seguinte documento: ISO/IEC JTC1/SC29/WG11, MPEG2009/M16688, Junho-Julho 2009, Londres, Reino Unido,
"Alternativas para gestão de janela em USAC". Já que o FDNS muda o wLPT no domínio de sinal, a janela FAC pode ser agora aplicada a ambos, a transições de/para ACELP de/para wLPT e também de/para ACELP de/para modo FD 5 exatamente da mesma forma (ou, pelo menos, de uma forma semelhante).
De forma semelhante, as transições de codificador de transformação com base TDAC que foram previamente possíveis exclusivamente entre as janelas FD ou entre as janelas wLPT (i.e., 10 de/para FD de/para FD; ou de/para wLPT de/para wLPT) também podem ser agora aplicadas ao transgredir a partir do domínio de frequência para wLPT, ou vice-versa. Dessa forma, ambas as tecnologias combinadas permitem a mudança das amostras da grade de enquadramento ACELP 64 para a direita (em direção a "posteriormente"no eixo de tempo). Ao assim o fazer, a adição de sobreposição de 64 amostras em uma extremidade e a janela de transformação de domínio de frequência extralonga na outra extremidade não são mais exigidas. Em ambos os casos, uma codificação em excesso de 64 amostras pode ser evitada nas realizações de acordo com a invenção quando comparado aos conceitos de referência. Mais importantemente, todas as transições ficam como estão e nenhuma modificação adicional é necessária.
A seguir, a nova matriz de transição de estrutura será brevemente discutida. Um exemplo para uma nova matriz de transição é fornecida na Fig. 5. As transições na diagonal principal ficam como estavam na minuta de trabalho 4 da norma de minuta USAC. Todas as outras transições podem ser lidadas pela janela FAC ou TDAC diretamente no domínio de sinal. Em algumas realizações, somente dois comprimentos de sobreposição entre janelas adjacentes de domínio de transformação são necessários para o esquema acima, isto é, 1024 amostras e 128 amostras, embora outros comprimentos de sobreposição também sejam concebíveis.
12. Avaliação Subjetiva
Deve ser observado que dois testes de audição foram conduzidos para mostrar que, no estado atual de implantação, a nova tecnologia proposta não compromete a qualidade. Eventualmente, as realizações de acordo com a invenção são 10 esperadas para fornecer um aumento na qualidade devido âs economias de bit nos locais em que as amostras foram previamente descartadas. Como outro efeito colateral, o controle de classificador no codificador pode ser muito mais flexível, já que as transições de modo não são mais atormentadas por amostragem não 15 crítica.
13. Comentários Adicionais
Para resumir o acima, a presente descrição descreve um esquema previsto de gestão de janela e transição para o USAC que tem diversas virtudes, comparado ao esquema existente, 20 usado na minuta de trabalho 4 da norma de minuta USAC. O esquema proposto de gestão de janela e transição mantém a amostragem critica em todas as estruturas codificadas por transformação, evita a necessidade de sem energia de duas transformações e adequadamente alinha todas as estruturas codificadas por 25 transformação, A proposta é com base em duas novas ferramentas. A primeira ferramenta, cancelamento adiantado de aliasing(FAC), é descrito na referência [M16688]. A segunda ferramenta, modelagem de som de domínio de frequência (FDNS), permite o processamento de estruturas de domínio de frequência e estruturas wLPT no mesmo dominio sem introduzir descontinuidades na modelagem de som de quantização. Dessa forma, todas as transições de modo em USAC podem ser manuseadas com essas duas ferramentas básicas, 5 permitindo gestão harmonizada de janela para todos os modos codificados por transformação. Os resultados de testes subjetivos foram também fornecidos na presente descrição, mostrando que as ferramentas propostas fornecem qualidade equivalente ou melhor em comparação ao conceito de referência de acordo com a minuta de 10 trabalho 4 da norma de minuta USAC.

Claims (16)

1. Um decodificador de sinal de áudio (200; 360; 900) para fornecer uma representação decodificada (212; 399; 998) de um conteúdo de áudio com base em uma representação codificada (210; 361; 901) do conteúdo de áudio, o decodificador de sinal de áudio compreendendo: um caminho de domínio de transformação (230, 240, 242, 250, 260; 270, 280; 380; 930) configurado para obter uma representação de domínio de tempo (212; 386; 938) de uma porção do conteúdo de áudio codificada em um modo de domínio de transformação com base em um primeiro conjunto (220; 382; 944a) de coeficientes espectrais, uma representação (224; 936) de um sinal de estímulo de cancelamento de aliasing e uma pluralidade de parâmetros de domínio de previsão linear (222; 384;950a), caracterizado por o caminho de domínio de transformação compreende um processador de espectro (230; 380e; 945) configurado para aplicar uma modelagem espectral ao primeiro conjunto (944a) de coeficientes espectrais em dependência de pelo menos um subconjunto dos parâmetros de domínio de previsão linear, para obter uma versão modelada de forma espectral (232; 380g; 945a) do primeiro conjunto de coeficientes espectrais, sendo que o caminho de domínio de transformação compreende um primeiro conversor de domínio de frequência para domínio de tempo (240; 380h; 946) configurado para obter uma representação do conteúdo de áudio de domínio de tempo com base na versão modelada de forma espectral do primeiro conjunto de coeficientes espectrais; sendo que o caminho de domínio de transformação compreende um filtro de estímulo de cancelamento de aliasing (250; 964) configurado para filtrar um sinal de estímulo de cancelamento de aliasing (224; 963a) em dependência de pelo menos um subconjunto dos parâmetros de domínio de previsão linear (222; 384; 934), para derivar um sinal de síntese de cancelamento de aliasing (252; 964a) a partir do sinal de estímulo de cancelamento de aliasing; e sendo que o caminho de domínio de transformação também compreende um combinador (260; 978) configurado para combinar a representação de domínio de tempo (242; 940a) do conteúdo de áudio com o sinal de síntese de cancelamento de aliasing (252; 964), ou sua versão pós-processada, para obter um sinal de domínio de tempo reduzido por aliasing.
2. O decodificador de sinal de áudio de acordo com a reivindicação 1, caracterizado por o decodificador de sinal de áudio é um decodificador de sinal de áudio multimodo configurado para comutar entre uma pluralidade de modos de codificação, e sendo que a derivação de domínio de transformação (230; 240, 250, 260, 270, 280; 380; 930) é configurada para seletivamente obter o sinal de síntese de cancelamento de aliasing (252; 964a) para uma porção (1020) do conteúdo de áudio seguinte uma porção anterior (1010) do conteúdo de áudio que não permite uma operação de sobreposição e adição de cancelamento de aliasing ou para uma porção do conteúdo de áudio seguida por uma porção subsequente (1030) do conteúdo de áudio que não permite uma operação de sobreposição e adição de cancelamento de aliasing.
3. O decodificador de sinal de áudio de acordo com uma das reivindicações 1 ou 2, caracterizado por o decodificador de sinal de áudio é configurado para comutar entre um modo de domínio de previsão linear de excitação codificada por transformação, que usa uma informação de excitação codificada por transformação (932) e uma informação de parâmetro de domínio de previsão linear (934), e um modo de domínio de frequência, que usa uma informação de coeficiente espectral (912) e uma informação de fator de escala (914); sendo que o caminho de domínio de transformação (930) é configurado para obter o primeiro conjunto (944a) de coeficientes espectrais com base na informação de excitação codificada por transformação (932), e para obter os parâmetros de domínio de previsão linear (950a) com base na informação de parâmetro de domínio de previsão linear (934); sendo que o decodificador de sinal de áudio compreende um caminho do domínio de frequência (910) configurado para obter uma representação de domínio de tempo (918) do conteúdo de áudio codificado no modo de domínio de frequência com base em um conjunto de modo de domínio de frequência de coeficientes espectrais (921a) descrito pela informação de coeficiente espectral (912) e em dependência de um conjunto (922a) de fatores de escala (922) descrito pela informação de fator de escala (914), sendo que o caminho do domínio de frequência (910) compreende um processador de espectro (923) configurado para aplicar uma modelagem espectral ao conjunto de modo de domínio de frequência de coeficientes espectrais (921a), ou a sua versão pré- processada, em dependência do conjunto (922a) de fatores de escala, para obter um conjunto de modo de domínio de frequência modelado de forma espectral (923a) de coeficientes espectrais, e quando o caminho do domínio de frequência (910) compreende um conversor de domínio de frequência para domínio de tempo (924a) configurado para obter uma representação de domínio de tempo (924) do conteúdo de áudio com base no conjunto modelado de forma espectral de modo de domínio de frequência de coeficientes espectrais (923a); sendo que o decodificador de sinal de áudio é configurado de modo que as representações de domínio de tempo das duas porções subsequentes do conteúdo de áudio, uma das duas porções subsequentes do conteúdo de áudio é codificada no modo de domínio de previsão linear de excitação codificada por transformação e uma das duas porções subsequentes do conteúdo de áudio é codificada no modo de domínio de frequência, compreende uma sobreposição temporal para cancelar um aliasing de domínio de tempo causado pela conversão de domínio de frequência para domínio de tempo.
4. Decodificador de sinal de áudio de acordo com uma das reivindicações 1 a 3, caracterizado por o decodificador de sinal de áudio é configurado para comutar entre um modo de domínio de previsão linear de excitação codificada por transformação, que usa uma informação de excitação codificada por transformação (932) e uma informação de parâmetro de domínio de previsão linear (934), e um modo de previsão linear excitada por código algébrico (ACELP), que usa uma informação de excitação de código algébrico (982) e uma informação de parâmetro de domínio de previsão linear (984); sendo que o caminho de domínio de transformação (930) é configurado para obter o primeiro conjunto (944a) de coeficientes espectrais com base na informação de excitação codificada por transformação (932), e para obter os parâmetros de domínio de previsão linear (950a) com base na informação de parâmetro de domínio de previsão linear (934); sendo que o decodificador de sinal de áudio compreende um caminho de previsão linear de excitação de código algébrico (980) configurado para obter uma representação de domínio de tempo (986) do conteúdo de áudio codificado no modo ACELP com base na informação de excitação de código algébrico (982) e informação de parâmetro de domínio de previsão linear (984); sendo que o caminho ACELP (980) compreende um processador de excitação ACELP (988, 989) configurado para fornecer um sinal de excitação de domínio de tempo (989a) com base na informação de excitação de código algébrico (982) e usando um filtro de síntese (991) configurado para realizar uma filtragem de domínio de tempo do sinal de excitação de domínio de tempo para fornecer um sinal reconstruído (991a) com base no sinal de excitação de domínio de tempo (989a) e em dependência de coeficientes de filtro de domínio de previsão linear (990a) obtidos com base na informação de parâmetro de domínio de previsão linear (984); sendo que o caminho de domínio de transformação (930) é configurado para seletivamente fornecer o sinal de síntese de cancelamento de aliasing (964) para uma porção do conteúdo de áudio codificada no modo de domínio de previsão linear de excitação codificada por transformação seguindo uma porção do conteúdo de áudio codificada no modo ACELP, e para uma porção do conteúdo de áudio codificada no modo de domínio de previsão linear de excitação codificada por transformação precedente a uma porção do conteúdo de áudio codificada no modo ACELP.
5. O decodificador de sinal de áudio de acordo com a reivindicação 4, caracterizado por o filtro de estímulo de cancelamento de aliasing (964) é configurado para filtrar o sinal de estímulo de cancelamento de aliasing (963a) em dependência dos parâmetros de filtro de domínio de previsão linear (950a; LPC1) que correspondem a um ponto de dobragem de aliasing de lado esquerdo do primeiro conversor de domínio de frequência para domínio de tempo (946) para uma porção do conteúdo de áudio codificada no modo de domínio de previsão linear de excitação codificada por transformação seguindo uma porção do conteúdo de áudio codificada no modo ACELP, e sendo que o filtro de estímulo de cancelamento de aliasing (964) é configurado para filtrar os sinais de estímulo de cancelamento de aliasing (963a) em dependência dos parâmetros de filtro de domínio de previsão linear (950a; LPC2) que correspondem a um ponto de dobragem de aliasing de lado direito do primeiro conversor de domínio de frequência para domínio de tempo (946) para uma porção do conteúdo de áudio codificada no modo de domínio de previsão linear de excitação codificada por transformação precedente a uma porção do conteúdo de áudio codificada no modo ACELP.
6. O decodificador de sinal de áudio de acordo com a reivindicação 4 ou 5, caracterizado por o decodificador de sinal de áudio é configurado para inicializar os valores de memória do filtro de estímulo de cancelamento de aliasing (964) a zero para fornecer o sinal de síntese de cancelamento de aliasing, para alimentar as amostras M do sinal de estímulo de cancelamento de aliasing ao filtro de estímulo de cancelamento de aliasing (964), para obter as amostras de resposta de entrada não zero correspondentes do sinal de síntese de cancelamento de aliasing (964a), e para ainda obter uma pluralidade de amostras de resposta de entrada zero do sinal de síntese de cancelamento de aliasing; e sendo que o combinador é configurado para combinar a representação de domínio de tempo (940a) do conteúdo de áudio com as amostras de resposta de entrada não zero e as amostras subsequentes de resposta de entrada zero para obter um sinal de domínio de tempo reduzido por aliasing em uma transição a partir de uma porção do conteúdo de áudio codificada no modo ACELP a uma porção subsequente do conteúdo de áudio codificada no modo de domínio de previsão linear de excitação codificada por transformação.
7. O decodificador de sinal de áudio de acordo com qualquer uma das reivindicações 4 a 6, caracterizado por o decodificador de sinal de áudio é configurado para combinar uma versão com gestão de janela e dobrada (973a; 1060) de pelo menos uma porção da representação de domínio de tempo obtida usando o modo ACELP com uma representação de domínio de tempo (940; 1050a) de uma porção subsequente do conteúdo de áudio obtido usando o modo de domínio de previsão linear de excitação codificada por transformação, para pelo menos parcialmente cancelar um aliasing.
8. O decodificador de sinal de áudio de acordo com qualquer uma das reivindicações 4 a 7, caracterizado por o decodificador de sinal de áudio é configurado para combinar uma versão com gestão de janela (976a; 1062) de uma resposta de entrada zero do filtro de síntese da derivação ACELP com uma representação de domínio de tempo (940a; 1058) de uma porção subsequente do conteúdo de áudio obtida usando o modo de domínio de previsão linear de excitação codificada por transformação, para pelo menos parcialmente cancelar um aliasing.
9. O decodificador de sinal de áudio de acordo com qualquer uma das reivindicações 4 a 8, caracterizado por o decodificador de sinal de áudio é configurado para comutar entre um modo de domínio de previsão linear de excitação codificada por transformação, em que uma transformação explorada de domínio de frequência para domínio de tempo é usada, um modo de domínio de frequência, em que uma transformação explorada de domínio de frequência para domínio de tempo é usada, e um modo de previsão linear de excitação de código algébrico, sendo que o decodificador de sinal de áudio é configurado para pelo menos parcialmente cancelar um aliasing em uma transição entre uma porção do conteúdo de áudio codificada no modo de domínio de previsão linear de excitação codificada por transformação e uma porção do conteúdo de áudio codificada no modo de domínio de frequência ao realizar uma operação de sobreposição e adição entre as amostras de domínio de tempo das porções subsequentes do conteúdo de áudio de sobreposição; e sendo que o decodificador de sinal de áudio é configurado para pelo menos parcialmente cancelar um aliasing em uma transição entre uma porção do conteúdo de áudio codificada no modo de domínio de previsão linear de excitação codificada por transformação e uma porção do conteúdo de áudio codificada no modo de domínio de previsão linear excitada por código algébrico usando o sinal de síntese de cancelamento de aliasing (964a).
10. O decodificador de sinal de áudio de acordo com qualquer uma das reivindicações 1 a 9, caracterizado por o decodificador de sinal de áudio é configurado para aplicar um valor de ganho comum (g) para um escalonamento de ganho (947) de uma representação de domínio de tempo (946a) fornecida pelo primeiro conversor de domínio de frequência para domínio de tempo (946) do caminho de domínio de transformação (930) e para um escalonamento de ganho (961) do sinal de estímulo de cancelamento de aliasing (963a) ou o sinal de síntese de cancelamento de aliasing (964a).
11. O decodificador de sinal de áudio de acordo com qualquer uma das reivindicações 1 a 10, caracterizado por o decodificador de sinal de áudio é configurado para aplicar, além da modelagem espectral realizada em dependência de pelo menos o subconjunto de parâmetros de domínio de previsão linear, uma desmodelagem de espectro (944) a pelo menos um subconjunto do primeiro conjunto de coeficientes espectrais, e sendo que o decodificador de sinal de áudio é configurado para aplicar a desmodelagem de espectro (962) a pelo menos um subconjunto de um conjunto de coeficientes espectrais de cancelamento de aliasing a partir do qual o sinal de estímulo de cancelamento de aliasing (963a) é derivado.
12. O decodificador de sinal de áudio de acordo com qualquer uma das reivindicações 1 a 11, caracterizado por o decodificador de sinal de áudio compreende um segundo conversor de domínio de frequência para domínio de tempo (963) configurado para obter uma representação de domínio de tempo do sinal de estímulo de cancelamento de aliasing (963a) em dependência de um conjunto de coeficientes espectrais (960a) representando o sinal de estímulo de cancelamento de aliasing, sendo que o primeiro conversor de domínio de frequência para domínio de tempo é configurado para realizar uma transformação explorada, que compreende um aliasing de domínio de tempo, e caracterizado pelo fato de que o segundo conversor de domínio de frequência para domínio de tempo é configurado para realizar uma transformação não explorada.
13. O decodificador de sinal de áudio de acordo com qualquer uma das reivindicações 1 a 12, caracterizado por o decodificador de sinal de áudio é configurado para aplicar a modelagem espectral ao primeiro conjunto de coeficientes espectrais em dependência dos mesmos parâmetros de domínio de previsão linear, que são usados para ajustar a filtragem do sinal de estímulo de cancelamento de aliasing.
14. Um codificador de sinal de áudio (100; 800) para fornecer uma representação codificada (112; 812) de um conteúdo de áudio compreendendo um primeiro conjunto (112a; 852) de coeficientes espectrais, uma representação de um sinal de estímulo de cancelamento de aliasing (112c; 856) e uma pluralidade de parâmetros de domínio de previsão linear (112b; 854) com base em uma representação de entrada (110; 810) do conteúdo de áudio, o codificador de sinal de áudio caracterizado por compreender: um conversor de domínio de tempo para domínio de frequência (120; 860) configurado para processar a representação do conteúdo de áudio de entrada, para obter uma representação de domínio de frequência (112; 861) do conteúdo de áudio; um processador espectral (130; 866) configurado para aplicar uma modelagem espectral à representação de domínio de frequência do conteúdo de áudio, ou a sua versão pré-processada, em dependência de um conjunto de parâmetros de domínio de previsão linear (140; 863) para uma porção do conteúdo de áudio a ser codificada no domínio de previsão linear, para obter uma representação de domínio de frequência modelada de forma espectral (132; 867) do conteúdo de áudio; e um prestador de informação de cancelamento de aliasing (150, 870, 874, 875, 876) configurado para fornecer uma representação (112c; 856) de um sinal de estímulo de cancelamento de aliasing, de modo que uma filtragem do sinal de estímulo de cancelamento de aliasing em dependência de pelo menos um subconjunto dos parâmetros de domínio de previsão linear resulta em um sinal de síntese de cancelamento de aliasing para cancelar artefatos de aliasing em um decodificador de sinal de áudio.
15. Um método para fornecer uma representação decodificada de um conteúdo de áudio com base em uma representação codificada do conteúdo de áudio, o método caracterizado por compreender: obter uma representação de domínio de tempo de uma porção do conteúdo de áudio codificada em um modo de domínio de transformação com base em um primeiro conjunto de coeficientes espectrais, uma representação de um sinal de estímulo de cancelamento de aliasing e a pluralidade de parâmetros de domínio de previsão linear, sendo que uma modelagem espectral é fornecida ao primeiro conjunto de coeficientes espectrais em dependência de pelo menos um subconjunto dos parâmetros de domínio de previsão linear, para obter uma versão modelada de forma espectral do primeiro conjunto de coeficientes espectrais, e que uma conversão de domínio de frequência para domínio de tempo é aplicada para obter uma representação do conteúdo de áudio de domínio de tempo com base na versão modelada de forma espectral do primeiro conjunto de coeficientes espectrais, e que o sinal de estímulo de cancelamento de aliasingé filtrado em dependência de pelo menos um subconjunto dos parâmetros de domínio de previsão linear, para derivar um sinal de síntese de cancelamento de aliasing a partir do sinal de estímulo de cancelamento de aliasing, e que a representação do conteúdo de áudio de domínio de tempo é combinada com o sinal de síntese de cancelamento de aliasing, ou sua versão pós-processada, para obter um sinal de domínio de tempo reduzido por aliasing.
16. Um método para fornecer uma representação codificada de um conteúdo de áudio compreendendo um primeiro conjunto de coeficientes espectrais, uma representação de um sinal de estímulo de cancelamento de aliasing, e uma pluralidade de parâmetros de domínio de previsão linear com base em uma representação do conteúdo de áudio de entrada, o método caracterizado por compreender: realizar uma conversão de domínio de tempo para domínio de frequência para processar a representação do conteúdo de áudio de entrada, para obter uma representação de domínio de frequência do conteúdo de áudio; aplicar uma modelagem espectral à representação de domínio de frequência do conteúdo de áudio, ou sua versão pré- processada, em dependência de um conjunto de parâmetros de domínio de previsão linear para uma porção do conteúdo de áudio a ser codificada no domínio de previsão linear, para obter uma representação de domínio de frequência modelada de forma espectral do conteúdo de áudio; e fornecer uma representação de um sinal de estímulo de cancelamento de aliasing, de modo que uma filtragem do sinal de estímulo de cancelamento de aliasing em dependência de pelo menos um subconjunto dos parâmetros de domínio de previsão linear resulta em um sinal de síntese de cancelamento de aliasing para cancelar os artefatos de aliasing em um decodificador de sinal de áudio.
BR112012009447-5A 2009-10-20 2010-10-19 Codificador de sinal de áudio, decodificador de stnai, de áudio, método para codificar ou decodificar um sinal de áudio usando um cancelamento de aliasing BR112012009447B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US25346809P 2009-10-20 2009-10-20
US61/253,468 2009-10-20
PCT/EP2010/065752 WO2011048117A1 (en) 2009-10-20 2010-10-19 Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation

Publications (2)

Publication Number Publication Date
BR112012009447A2 BR112012009447A2 (pt) 2020-12-01
BR112012009447B1 true BR112012009447B1 (pt) 2021-10-13

Family

ID=43447730

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112012009447-5A BR112012009447B1 (pt) 2009-10-20 2010-10-19 Codificador de sinal de áudio, decodificador de stnai, de áudio, método para codificar ou decodificar um sinal de áudio usando um cancelamento de aliasing

Country Status (15)

Country Link
US (1) US8484038B2 (pt)
EP (3) EP4358082A1 (pt)
JP (1) JP5247937B2 (pt)
KR (1) KR101411759B1 (pt)
CN (1) CN102884574B (pt)
AR (1) AR078704A1 (pt)
AU (1) AU2010309838B2 (pt)
BR (1) BR112012009447B1 (pt)
CA (1) CA2778382C (pt)
MX (1) MX2012004648A (pt)
MY (1) MY166169A (pt)
RU (1) RU2591011C2 (pt)
TW (1) TWI430263B (pt)
WO (1) WO2011048117A1 (pt)
ZA (1) ZA201203608B (pt)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2011000366A (es) * 2008-07-11 2011-04-28 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar muestras de audio.
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2311034B1 (en) * 2008-07-11 2015-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
JP4977157B2 (ja) 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
EP3764356A1 (en) * 2009-06-23 2021-01-13 VoiceAge Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
BR112012007803B1 (pt) * 2009-10-08 2022-03-15 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear
JP5345737B2 (ja) * 2009-10-21 2013-11-20 ドルビー インターナショナル アーベー 結合されたトランスポーザーフィルターバンクにおけるオーバーサンプリング
WO2011085483A1 (en) 2010-01-13 2011-07-21 Voiceage Corporation Forward time-domain aliasing cancellation using linear-predictive filtering
CA2958360C (en) * 2010-07-02 2017-11-14 Dolby International Ab Audio decoder
JP6100164B2 (ja) * 2010-10-06 2017-03-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号を処理し、音声音響統合符号化方式(usac)のためにより高い時間粒度を供給するための装置および方法
US8868432B2 (en) * 2010-10-15 2014-10-21 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
WO2012110415A1 (en) * 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
WO2012110478A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Information signal representation using lapped transform
KR101551046B1 (ko) 2011-02-14 2015-09-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
BR112013020587B1 (pt) 2011-02-14 2021-03-09 Fraunhofer-Gesellschaft Zur Forderung De Angewandten Forschung E.V. esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral
EP2676270B1 (en) 2011-02-14 2017-02-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coding a portion of an audio signal using a transient detection and a quality result
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
HUE030185T2 (en) 2011-03-28 2017-04-28 Dolby Laboratories Licensing Corp Reduced Transformation for Low Frequency Effect Channel
TWI470622B (zh) * 2012-03-19 2015-01-21 Dolby Lab Licensing Corp 用於低頻效應頻道降低複雜度之轉換
CN103548080B (zh) * 2012-05-11 2017-03-08 松下电器产业株式会社 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法
BR112015014217B1 (pt) * 2012-12-21 2021-11-03 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V Adição de ruído de conforto para modelagem do ruído de fundo em baixas taxas de bits
CN105976830B (zh) 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
KR101877906B1 (ko) * 2013-01-29 2018-07-12 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 노이즈 채움 개념
AU2014211520B2 (en) 2013-01-29 2017-04-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Low-frequency emphasis for LPC-based coding in frequency domain
PT3121813T (pt) * 2013-01-29 2020-06-17 Fraunhofer Ges Forschung Preenchimento de ruído sem informação lateral para codificadores do tipo celp
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
SI3537437T1 (sl) * 2013-03-04 2021-08-31 Voiceage Evs Llc Naprava in postopek za zmanjšanje kvantizacijskega šuma v časovnem dekoderju
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP3011556B1 (en) * 2013-06-21 2017-05-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
FR3008533A1 (fr) 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
RU2641253C2 (ru) 2013-08-23 2018-01-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для обработки звукового сигнала с использованием сигнала ошибки вследствие наложения спектров
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
RU2643646C2 (ru) 2013-11-13 2018-02-02 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер для кодирования аудиосигнала, система передачи аудио и способ определения значений коррекции
EP2887350B1 (en) 2013-12-19 2016-10-05 Dolby Laboratories Licensing Corporation Adaptive quantization noise filtering of decoded audio data
EP2916319A1 (en) 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
PT3000110T (pt) * 2014-07-28 2017-02-15 Fraunhofer Ges Forschung Seleção de um de entre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com o uso de redução de harmônicos.
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980797A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
EP2980791A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
CN104143335B (zh) 2014-07-28 2017-02-01 华为技术有限公司 音频编码方法及相关装置
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
FR3024581A1 (fr) 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
EP2988300A1 (en) 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
DK3201918T3 (en) * 2014-10-02 2019-02-25 Dolby Int Ab DECODING PROCEDURE AND DECODS FOR DIALOGUE IMPROVEMENT
EP3067887A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
TWI758146B (zh) * 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
DK3353779T3 (da) * 2015-09-25 2020-08-10 Voiceage Corp Fremgangsmåde og system til kodning af et stereolydssignal ved at anvende kodningsparametre for en primær kanal til at kode en sekundær kanal
WO2017050398A1 (en) 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
WO2020094263A1 (en) 2018-11-05 2020-05-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
WO2020164751A1 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment
CN113574889B (zh) * 2019-03-14 2024-01-12 北京字节跳动网络技术有限公司 环路整形信息的信令和语法
CN110297357B (zh) 2019-06-27 2021-04-09 厦门天马微电子有限公司 一种曲面背光模组的制备方法、曲面背光模组及显示装置
US11488613B2 (en) * 2019-11-13 2022-11-01 Electronics And Telecommunications Research Institute Residual coding method of linear prediction coding coefficient based on collaborative quantization, and computing device for performing the method
KR20210158108A (ko) 2020-06-23 2021-12-30 한국전자통신연구원 양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기
KR20220117019A (ko) 2021-02-16 2022-08-23 한국전자통신연구원 학습 모델을 이용한 오디오 신호의 부호화 및 복호화 방법과 그 학습 모델의 트레이닝 방법 및 이를 수행하는 부호화기 및 복호화기
CN115050377A (zh) * 2021-02-26 2022-09-13 腾讯科技(深圳)有限公司 音频转码方法、装置、音频转码器、设备以及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
CN1820306B (zh) * 2003-05-01 2010-05-05 诺基亚有限公司 可变比特率宽带语音编码中增益量化的方法和装置
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
EP1873753A1 (en) * 2004-04-01 2008-01-02 Beijing Media Works Co., Ltd Enhanced audio encoding/decoding device and method
RU2500043C2 (ru) * 2004-11-05 2013-11-27 Панасоник Корпорэйшн Кодер, декодер, способ кодирования и способ декодирования
DE502006004136D1 (de) * 2005-04-28 2009-08-13 Siemens Ag Verfahren und vorrichtung zur geräuschunterdrückung
RU2351024C2 (ru) * 2005-04-28 2009-03-27 Сименс Акциенгезелльшафт Способ и устройство для подавления шумов
AU2007331763B2 (en) * 2006-12-12 2011-06-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
CN101231850B (zh) * 2007-01-23 2012-02-29 华为技术有限公司 编解码方法及装置
PT2165328T (pt) * 2007-06-11 2018-04-24 Fraunhofer Ges Forschung Codificação e descodificação de um sinal de áudio tendo uma parte do tipo impulso e uma parte estacionária
ES2401487T3 (es) * 2008-07-11 2013-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para la codificación/decodificación de una señal de audio utilizando un esquema de conmutación de generación de señal ajena
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
EP3764356A1 (en) * 2009-06-23 2021-01-13 VoiceAge Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain

Also Published As

Publication number Publication date
EP4358082A1 (en) 2024-04-24
EP2491556A1 (en) 2012-08-29
AU2010309838A1 (en) 2012-05-31
AU2010309838B2 (en) 2014-05-08
US20120271644A1 (en) 2012-10-25
JP2013508765A (ja) 2013-03-07
TWI430263B (zh) 2014-03-11
CA2778382A1 (en) 2011-04-28
EP4362014A1 (en) 2024-05-01
WO2011048117A1 (en) 2011-04-28
RU2591011C2 (ru) 2016-07-10
CN102884574B (zh) 2015-10-14
EP2491556B1 (en) 2024-04-10
MY166169A (en) 2018-06-07
MX2012004648A (es) 2012-05-29
AR078704A1 (es) 2011-11-30
BR112012009447A2 (pt) 2020-12-01
KR20120128123A (ko) 2012-11-26
CN102884574A (zh) 2013-01-16
ZA201203608B (en) 2013-01-30
CA2778382C (en) 2016-01-05
JP5247937B2 (ja) 2013-07-24
RU2012119260A (ru) 2013-11-20
TW201129970A (en) 2011-09-01
KR101411759B1 (ko) 2014-06-25
US8484038B2 (en) 2013-07-09

Similar Documents

Publication Publication Date Title
BR112012009447B1 (pt) Codificador de sinal de áudio, decodificador de stnai, de áudio, método para codificar ou decodificar um sinal de áudio usando um cancelamento de aliasing
US11741973B2 (en) Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
ES2533098T3 (es) Codificador de señal de audio, decodificador de señal de audio, método para proveer una representación codificada de un contenido de audio, método para proveer una representación decodificada de un contenido de audio y programa de computación para su uso en aplicaciones de bajo retardo
JP6173288B2 (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
ES2592416T3 (es) Esquema de codificación/decodificación de audio que tiene una derivación conmutable
BR122021023896B1 (pt) Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear
US9047859B2 (en) Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
BRPI0612987A2 (pt) dispositivo de codificaÇço/decodificaÇço hierÁrquica
KR20130069821A (ko) 오디오 신호를 처리하고 결합된 통합형 음성 및 오디오 코덱(usac)을 위한 보다 높은 시간적 입도를 제공하기 위한 장치 및 방법
BR112013020589B1 (pt) Codec de áudio para suporte de modos de codificação de domínio de tempo e domínio de frequência

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 19/10/2010, OBSERVADAS AS CONDICOES LEGAIS. PATENTE CONCEDIDA CONFORME ADI 5.529/DF, QUE DETERMINA A ALTERACAO DO PRAZO DE CONCESSAO.