BR112018005901B1 - Codificador, decodificador e métodos para comutação adaptável a sinal da razão de sobreposição em conversão em código de transformada de áudio - Google Patents

Codificador, decodificador e métodos para comutação adaptável a sinal da razão de sobreposição em conversão em código de transformada de áudio Download PDF

Info

Publication number
BR112018005901B1
BR112018005901B1 BR112018005901-3A BR112018005901A BR112018005901B1 BR 112018005901 B1 BR112018005901 B1 BR 112018005901B1 BR 112018005901 A BR112018005901 A BR 112018005901A BR 112018005901 B1 BR112018005901 B1 BR 112018005901B1
Authority
BR
Brazil
Prior art keywords
audio samples
group
domain audio
time
time domain
Prior art date
Application number
BR112018005901-3A
Other languages
English (en)
Other versions
BR112018005901A2 (pt
Inventor
Christian Helmrich
Bernd Edler
Tobias SCHWEGLER
Florian SCHUH
Original Assignee
Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V filed Critical Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V
Publication of BR112018005901A2 publication Critical patent/BR112018005901A2/pt
Publication of BR112018005901B1 publication Critical patent/BR112018005901B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Discrete Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

codificador, decodificador e métodos para comutação adaptável a sinal da razão de sobreposição em conversão em código de transformada de áudio. trata-se de um decodificador para decodificação de uma pluralidade de amostras de áudio de domínio espectral. o decodificador compreende um primeiro módulo (110) para geração de um primeiro grupo e um segundo grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral. ademais, o decodificador compreende um adicionador de sobreposição (130) para adição de sobreposição do primeiro grupo de amostras de áudio intermediário de domínio de tempo com uma sobreposição de mais que 5% e no máximo 50% com o segundo grupo de amostras de áudio intermediário de domínio de tempo. adicionalmente, o decodificador compreende um segundo módulo de decodificação (120) para geração de um terceiro grupo e um quarto grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral. ademais, o decodificador compreende uma interface de saída (140). o adicionador de sobreposição (130) é configurado para adicionar por sobreposição pelo menos o terceiro grupo de amostras de áudio intermediário de domínio de tempo com uma sobreposição de mais que 60% e menos que 100% com o quarto grupo de amostras de áudio intermediário de domínio de tempo. ademais, o adicionador de sobreposição (130) é configurado para adicionar por sobreposição pelo menos o segundo grupo e o terceiro grupo de amostras de áudio intermediário de domínio de tempo, ou para adicionar por sobreposição pelo menos o quarto grupo e o primeiro grupo de amostras de áudio intermediário de domínio de tempo.

Description

DESCRIÇÃO
[001] A presente invenção refere-se à codificação, processamento e decodificação de sinal de áudio e, em particular, a um codificador, um decodificador e métodos para Comutação adaptável a sinal da Razão de Sobreposição em Conversão em Código de Transformada de Áudio.
[002] Durante os últimos 20 anos, particularmente desde o desenvolvimento dos conversores MPEG-1 Camada 3 (MP3) e AC-2 (Dolby Digital), conversão de áudio perceptual em código dependeu, exclusivamente, da transformada de cosseno discreta modificada (MDCT) introduzida por Princen et al. (consultar [1], [2]) e adicionalmente investigada, sob o nome transformada superposta modulada (MLT), por Malvar (consultar [3]), para quantização espectral de conservação de forma de onda. O inverso dessa transformada, dado um espectro de comprimento-M X’ para índice de quadro i, pode ser escrito como
[003] com 0 < n < N e N sendo o comprimento de janela. Visto quea razão de sobreposição é 50%. Em padrões recentes com base no relatório descritivo de Conversão em Código de Áudio Avançada (AAC) de MPEG-2 (consultar [4], [5]), esse conceito foi ampliado também para permitir ferramentas paramétricas, tal como preenchimento de ruído no domínio de MDCT. A estrutura MPEG-H 3D (consultar [6], [7]), por exemplo, oferece para conversão em código de domínio de transformada semi-paramétrica, por exemplo, as funcionalidades de preenchimento de ruído de linhas espectrais anuladas acima de alguma frequência; preenchimento estéreo para conversão em código de estéreo compartilhado semi-paramétrico (consultar [8], [9]); e extensão de largura de banda de Preenchimento de Lacuna Inteligente (IGF) (consultar [10]).
[004] Em [9], a combinação de IGF e preenchimento estéreo, intitulada substituição de banda espectral (SBS) em [8], assistida por comutação de kernel de transformada para entrada com diferentes fases de intercanal não trivial, se mostrou entregar boa qualidade de áudio para a maioria dos sinais. Em segmentos harmônicos quase estacionários, no entanto, a desempenho subjetivo foi inferior que aquele da configuração de Áudio 3D de atraso elevado/complexidade que usa replicação de banda espectral (SBR) e Surround MPEG de “estéreo unificado” em um domínio pseudo-QMF. Uma explicação para esse comportamento é a resolução de frequência mais alta das MDCTs utilizadas na última configuração: na dada taxa de amostra de saída de 48 kHz, as transformadas de núcleo de tamanho M operam em mistura reduzida de 24 kHz e sinais residuais, duplicando o comprimento de quadro.
[005] Conversão em código de Áudio 3D com base em SBS, devido ao seu atraso, complexidade e vantagens de resolução temporal [8], representa a variante de escolha pelo menos para sinais mono- e estereofônicos, e é desejável melhorar seu projeto - enquanto se mantém o comprimento de quadro - de tal modo que seu desempenho possa corresponder àquele da configuração com base em QMF mesmo em instrumento único e outras gravações tonais. Uma solução viável para eficiência espectral aumentada em segmentos quase estacionários é a transformada superposta estendida (ELT) proposta por Malvar (consultar [11], [12]), cuja versão inversa (síntese) é idêntica à (1), exceto que 0 < n < L com L > 4M .
[006] Dessa forma, a fórmula (1) indica a MLT inversa bem como a ELT inversa. A única diferença é que, no caso da MLT inversa n é definido como 0 < n < N , por exemplo, com N = 2 ■ M , e no caso da ELT inversa, n é definido por 0 < n < L, por exemplo, com L > 4M .
[007] Infelizmente, conforme será mostrado abaixo, a razão de sobreposição da ELT é pelo menos 75% ao invés dos 50% da MDCT, o que normalmente leva a artefatos audíveis para partes de forma de onda transiente como batidas de tambor ou inícios de tom. Ademais, soluções práticas para comutação de comprimento de bloco entre ELTs de comprimentos diferentes - ou entre uma ELT e MLT - similarmente à técnica aplicada em codecs de MDCT precisamente para tais quadros transientes, não foram apresentadas e apenas trabalho teórico foi publicado (consultar, por exemplo, [13], [14], [15], [16], [17]).
[008] O objetivo da presente invenção é fornecer conceitos melhorados para codificação, processamento e decodificação de sinal de áudio. O objetivo da presente invenção é solucionado por um decodificador, de acordo com a reivindicação 1, por um codificador, de acordo com a reivindicação 26, por um sistema, de acordo com a reivindicação 52, por um método, de acordo com a reivindicação 55, por um método, de acordo com a reivindicação 56, e por um programa de computador, de acordo com a reivindicação 57.
[009] Um decodificador para decodificação de uma pluralidade de amostras de áudio de domínio espectral é fornecido. O decodificador compreende um primeiro módulo de decodificação para geração de um primeiro grupo e um segundo grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral. Ademais, o decodificador compreende um adicionador de sobreposição para adição de sobreposição do primeiro grupo de amostras de áudio intermediário de domínio de tempo com uma sobreposição de mais que 5% e no máximo 50% com o segundo grupo de amostras de áudio intermediário de domínio de tempo. Adicionalmente, o decodificador compreende um segundo módulo de decodificação para geração de um terceiro grupo e um quarto grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral. Ademais, o decodificador compreende uma interface de saída. O adicionador de sobreposição é configurado para adicionar por sobreposição pelo menos o terceiro grupo de amostras de áudio intermediário de domínio de tempo com uma sobreposição de mais que 60% e menos que 100% com o quarto grupo de amostras de áudio intermediário de domínio de tempo. Ademais, o adicionador de sobreposição é configurado para adicionar por sobreposição pelo menos o segundo grupo e o terceiro grupo de amostras de áudio intermediário de domínio de tempo, ou adicionar por sobreposição pelo menos o quarto grupo e o primeiro grupo de amostras de áudio intermediário de domínio de tempo.
[010] Em particular, um decodificador para decodificação de uma pluralidade de amostras de áudio de domínio espectral é fornecido. O decodificador compreende um primeiro módulo de decodificação para decodificação de um primeiro grupo das amostras de áudio de domínio espectral gerando-se um primeiro grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do primeiro grupo das amostras de áudio de domínio espectral, e para decodificação de um segundo grupo das amostras de áudio de domínio espectral gerando-se um segundo grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do segundo grupo de amostras de áudio de domínio espectral.
[011] Ademais, o decodificador compreende um adicionador de sobreposição, em que o adicionador de sobreposição é configurado para conduzir adição de sobreposição de exatamente dois grupos de amostras de áudio intermediário de domínio de tempo, sendo que os ditos exatamente dois grupos são o primeiro grupo e o segundo grupo de amostras de áudio intermediário de domínio de tempo, em que o adicionador de sobreposição é configurado para adicionar por sobreposição os ditos exatamente dois grupos com uma sobreposição de mais que 5% e no máximo 50%, em que a dita adição de sobreposição dos ditos exatamente dois grupos resulta na geração de uma primeira pluralidade de amostras de saída de áudio intermediário de domínio de tempo de um sinal de áudio.
[012] Adicionalmente, o decodificador compreende um segundo módulo de decodificação para decodificação de um terceiro grupo das amostras de áudio de domínio espectral gerando-se um terceiro grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do terceiro grupo das amostras de áudio de domínio espectral, e para decodificação de um quarto grupo das amostras de áudio de domínio espectral gerando-se um quarto grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do quarto grupo de amostras de áudio de domínio espectral.
[013] Ademais, o decodificador compreende uma interface de saída para emissão da primeira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio, de uma segunda pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio e de uma terceira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio,
[014] O adicionador de sobreposição é configurado para obter a segunda pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o terceiro grupo de amostras de áudio intermediário de domínio de tempo com uma sobreposição de mais que 60% e menos que 100% com o quarto grupo de amostras de áudio intermediário de domínio de tempo.
[015] Ademais, o adicionador de sobreposição é configurado para obter a terceira pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o segundo grupo de amostras de áudio intermediário de domínio de tempo com o terceiro grupo de amostras de áudio intermediário de domínio de tempo, ou em que o adicionador de sobreposição é configurado para obter a terceira pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o quarto grupo de amostras de áudio intermediário de domínio de tempo com o primeiro grupo de amostras de áudio intermediário de domínio de tempo.
[016] Ademais, um codificador para codificação de uma pluralidade de amostras de áudio de domínio de tempo de um sinal de áudio gerando-se uma pluralidade de grupos de amostras de áudio de domínio espectral a partir de uma pluralidade de grupos das amostras de áudio de domínio de tempo é fornecido.
[017] O codificador compreende um primeiro módulo de codificação para geração de um primeiro grupo dos grupos de amostras de áudio de domínio espectral a partir de um primeiro grupo dos grupos das amostras de áudio de domínio de tempo, e para geração de um segundo grupo dos grupos de amostras de áudio de domínio espectral a partir de um segundo grupo dos grupos das amostras de áudio de domínio de tempo, em que o primeiro grupo de amostras de áudio de domínio de tempo e o segundo grupo de amostras de áudio de domínio de tempo são vizinhos em tempo dentro dos grupos das amostras de áudio de domínio de tempo, em que o primeiro grupo das amostras de áudio de domínio de tempo compreende mais que 5% e no máximo 50% das amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, e em que o segundo grupo das amostras de áudio de domínio de tempo compreende mais que 5% e no máximo 50% das amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo.
[018] Adicionalmente, o codificador compreende um segundo módulo de codificação para geração de um terceiro grupo dos grupos de amostras de áudio de domínio espectral a partir de um terceiro grupo dos grupos das amostras de áudio de domínio de tempo, e para geração de um quarto grupo dos grupos de amostras de áudio de domínio espectral a partir de um quarto grupo dos grupos das amostras de áudio de domínio de tempo, em que o terceiro grupo das amostras de áudio de domínio de tempo compreende mais que 60% e menos que 100% das amostras de áudio do quarto grupo das amostras de áudio de domínio de tempo, e em que o quarto grupo das amostras de áudio de domínio de tempo compreende mais que 60% e menos que 100% das amostras de áudio do terceiro grupo das amostras de áudio de domínio de tempo.
[019] Ademais, o codificador compreende um módulo de saída para emitir o primeiro grupo de amostras de áudio de domínio espectral, o segundo grupo de amostras de áudio de domínio espectral, o terceiro grupo de amostras de áudio de domínio espectral e o quarto grupo de amostras de áudio de domínio espectral.
[020] O terceiro grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, ou em que o quarto grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo.
[021] Adicionalmente, um sistema é fornecido. O sistema compreende um codificador, de acordo com uma dentre as modalidades descritas acima, e um decodificador, de acordo com uma dentre as modalidades descritas acima. O codificador é configurado para codificar uma pluralidade de amostras de áudio de domínio de tempo de um sinal de áudio gerando-se uma pluralidade de amostras de áudio de domínio espectral. Ademais, o decodificador é configurado para receber uma pluralidade de amostras de áudio de domínio espectral a partir do codificador. Adicionalmente, o decodificador é configurado para decodificar a pluralidade de amostras de áudio de domínio espectral.
[022] Ademais, um método para decodificação de uma pluralidade de amostras de áudio de domínio espectral é fornecido. O método compreende: - Decodificar um primeiro grupo das amostras de áudio de domínio espectral gerando-se um primeiro grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do primeiro grupo das amostras de áudio de domínio espectral, e decodificar um segundo grupo das amostras de áudio de domínio espectral gerando-se um segundo grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do segundo grupo de amostras de áudio de domínio espectral. - Adicionar por sobreposição exatamente dois grupos de amostras de áudio intermediário de domínio de tempo, sendo que os ditos exatamente dois grupos são o primeiro grupo e o segundo grupo de amostras de áudio intermediário de domínio de tempo, em que os ditos exatamente dois grupos são adicionados de sobreposição com uma sobreposição de mais que 5% e no máximo 50%, em que a dita adição de sobreposição dos ditos exatamente dois grupos resulta na geração de uma primeira pluralidade de amostras de saída de áudio de domínio de tempo de um sinal de áudio. - Decodificar um terceiro grupo das amostras de áudio de domínio espectral gerando-se um terceiro grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do terceiro grupo das amostras de áudio de domínio espectral, e decodificar um quarto grupo das amostras de áudio de domínio espectral gerando-se um quarto grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do quarto grupo de amostras de áudio de domínio espectral. - Emitir a primeira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio, de uma segunda pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio e de uma terceira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio. - Obter a segunda pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o terceiro grupo de amostras de áudio intermediário de domínio de tempo com uma sobreposição de mais que 60% e menos que 100% com o quarto grupo de amostras de áudio intermediário de domínio de tempo. E: - Obter a terceira pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o segundo grupo de amostras de áudio intermediário de domínio de tempo com o terceiro grupo de amostras de áudio intermediário de domínio de tempo, obter a terceira pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o quarto grupo de amostras de áudio intermediário de domínio de tempo com o primeiro grupo de amostras de áudio intermediário de domínio de tempo.
[023] Adicionalmente, um método para codificação de uma pluralidade de amostras de áudio de domínio de tempo de um sinal de áudio gerando-se uma pluralidade de grupos de amostras de áudio de domínio espectral a partir de uma pluralidade de grupos das amostras de áudio de domínio de tempo é fornecido. O codificador compreende: - Gerar um primeiro grupo dos grupos de amostras de áudio de domínio espectral a partir de um primeiro grupo dos grupos das amostras de áudio de domínio de tempo, e gerar de um segundo grupo dos grupos de amostras de áudio de domínio espectral a partir de um segundo grupo dos grupos das amostras de áudio de domínio de tempo, em que o primeiro grupo de amostras de áudio de domínio de tempo e o segundo grupo de amostras de áudio de domínio de tempo são vizinhos temporais dentro dos grupos das amostras de áudio de domínio de tempo, em que o primeiro grupo das amostras de áudio de domínio de tempo compreende mais que 5% e no máximo 50% das amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, e em que o segundo grupo das amostras de áudio de domínio de tempo compreende mais que 5% e no máximo 50% das amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo. - Gerar um terceiro grupo dos grupos de amostras de áudio de domínio espectral a partir de um terceiro grupo dos grupos das amostras de áudio de domínio de tempo, e gerar um quarto grupo dos grupos de amostras de áudio de domínio espectral a partir de um quarto grupo dos grupos das amostras de áudio de domínio de tempo, em que o terceiro grupo das amostras de áudio de domínio de tempo compreende mais que 60% e menos que 100% das amostras de áudio do quarto grupo das amostras de áudio de domínio de tempo, e em que o quarto grupo das amostras de áudio de domínio de tempo compreende mais que 60% e menos que 100% das amostras de áudio do terceiro grupo das amostras de áudio de domínio de tempo. - Emitir o primeiro grupo de amostras de áudio de domínio espectral, o segundo grupo de amostras de áudio de domínio espectral, o terceiro grupo de amostras de áudio de domínio espectral e o quarto grupo de amostras de áudio de domínio espectral.
[024] O terceiro grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, ou em que o quarto grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo.
[025] Ademais, sistemas de computador são fornecidos, em que cada um dentre os programas de computador é configurado para implantar um dentre os métodos descritos acima quando é executado em um computador ou processador de sinal, de tal modo que cada um dentre os métodos descritos acima seja implantado por um dentre os programas de computador.
[026] Conversores de áudio perceptual em código contemporâneos, sendo que todos aplicam a transformada de cosseno discreta modificada (MDCT) com uma razão de sobreposição de 50%, para quantização de domínio de frequência, fornecem boa qualidade de conversão em código mesmo em taxas de bits baixas.
[027] No entanto, as modalidades têm base na constatação de que quadros relativamente longos são exigidos para desempenho de taxa baixa aceitável e também para entrada harmônica quase estacionária, que leva à latência algorítmica aumentada e resolução de conversão em código temporal reduzida.
[028] Algumas modalidades estendem a razão de sobreposição em conversão em código de transformada superposta para mais que os 50% convencionais empregados em codecs de áudio contemporâneos.
[029] De acordo com algumas modalidades, a transformada superposta estendida (ELT) com 75% de razão de sobreposição é empregada em tal entrada. Para manter uma resolução de tempo alta para conversão em código de segmentos transientes, a definição de ELT é modificada de tal modo que a comutação em termos de quadro entre ELT (para quase estacionária) e conversão em código de MDCT (para regiões não estacionárias ou não tonais), com cancelamento de interferência de domínio de tempo (TDAC) completa e nenhum aumento em comprimento de quadro, se tornem possível.
[030] Algumas modalidades fornecem modificações inventivas dos conceitos de ELT e modificações inventivas das fórmulas de ELT, o que permite transições perfeitamente reconstruídas entre transformadas com 50% e 75% de razão de sobreposição. Nas modalidades, TDAC apropriado, entre conversão em código de MDCT com uma razão de sobreposição de 50 e conversão em código de ELT com uma razão de 75%, é obtido.
[031] Em algumas modalidades, uma janela de ELT inventiva e inovadora é fornecida. Por exemplo, em algumas modalidades, uma nova função de janela de ELT inventiva com rejeição de lóbulo lateral / baixos níveis de lóbulo lateral melhorados para evitar artefatos de enquadramento é fornecida.
[032] De acordo com algumas modalidades, as modificações inventivas dos conceitos de ELT e as modificações inventivas das fórmulas de ELT podem, por exemplo, ser usadas em combinação com a janela de ELT inventiva e inovadora.
[033] Algumas modalidades fornecem um esquema de conversão em código adaptável a sinal que aplica o princípio de razão comutada. Um esquema de conversão em código completo com base no relatório descritivo de Áudio 3D MPEG- H é fornecido (para detalhes sobre a relatório descritivo de Áudio 3D MPEG-H, consultar [7]).
[034] As modalidades fornecem um codificador, um decodificador, um sistema e métodos para comutação de modo adaptável a sinal entre MDCT, MDST e conversão em código de ELT modulado por cosseno ou seno. As modalidades efetuam uma conversão em código de entrada transiente com resolução de tempo alta.
[035] Modalidades preferenciais são fornecida nas reivindicações dependentes.
[036] A seguir, as modalidades da presente invenção são descritas em maior detalhe com referência às Figuras, em que: A Figura 1a ilustra um decodificador de acordo com uma modalidade, A Figura 1b ilustra um codificador de acordo com uma modalidade, A Figura 1c ilustra um sistema de acordo com uma modalidade, A Figura 2a ilustra a sobreposição de quatro grupos das amostras de áudio de domínio de tempo, de acordo com uma modalidade, quando uma comutação de grupos curtos para grupos longos é conduzida, A Figura 2b ilustra a sobreposição de seis grupos das amostras de áudio de domínio de tempo, de acordo com uma modalidade, quando uma comutação de grupos curtos para grupos longos é conduzida, A Figura 3a ilustra a sobreposição de quatro grupos das amostras de áudio de domínio de tempo, de acordo com uma modalidade, quando uma comutação de grupos longos para grupos curtos é conduzida, A Figura 3b ilustra a sobreposição de seis grupos das amostras de áudio de domínio de tempo, de acordo com uma modalidade, quando uma comutação de grupos longos para grupos curtos é conduzida, A Figura 4 ilustra TDAC durante adição de sobreposição (OLA) em transformação superposta, na Figura 4 (a) para MLT, na Figura 4 (b) para ELT e na Figura 4 (c) para MLT por meio de ELT, A Figura 5 ilustra a comutação de MLT para ELT com transformadas de transição, de acordo com modalidades, em que a Figura 5 (a) mostra reconstrução não perfeita incorreta, em que a Figura 5 (b) retrata reconstrução perfeita desejada e em que a Figura 5 (c) ilustra MLT por meio da ELT desejada (modificada), A Figura 6 ilustra a comutação de ELT para MLT com transformadas de transição de acordo com modalidades. A Figura 7 ilustra projetos de janela de reconstrução perfeitos, na Figura 7 (a) para MLT, na Figura 7 (b) para ELT e na Figura 7 (c) para transições de acordo com modalidades, A Figura 8 ilustra a seleção de ELT e MDCT em termos de quadro resultante para quatro sinais de entrada de acordo com modalidades, A Figura 9 ilustra uma vista ampliada de resultados de teste de escuta com 95% de intervalos de confiança de acordo com modalidades, A Figura 10 ilustra uma pluralidade de janelas de análise de acordo com uma modalidade, A Figura 11 ilustra uma pluralidade de janelas de síntese de acordo com uma modalidade, A Figura 12 ilustra bancos de filtro básicos com transformadas superpostas, de acordo com algumas modalidades particulares, em que a Figura 12 (a) ilustra MDCT/MDST e em que a Figura 12 (b) ilustra ELT, A Figura 13 ilustra TDAC em bancos de filtro uniformemente empilhados, de acordo com algumas modalidades particulares, em que a Figura 13 (a) ilustra Princen-Bradley e em que a Figura 13 (b) ilustra MELT-II, A Figura 14 ilustra comutação de kernel compatível com TDAC particular para bancos de filtro MELT-IV, de acordo com modalidades particulares, em que a Figura 14 (a) ilustra transições de modulação de cosseno para seno e em que a Figura 14 (b) ilustra transições de modulação de seno para cosseno, e A Figura 15 ilustra um janelamento correto e melhorado, de acordo com modalidades particulares, com um formato de “paragem-partida” especial, indicado por traços, durante transições temporárias, em que a Figura 15 (a) ilustra as transições temporárias de uma razão de sobreposição a partir de 75 a 50% e em que a figura 15 (b) ilustra transições temporárias de uma razão de sobreposição a partir de 50 a 75%.
[037] Antes das modalidades específicas serem descritas em detalhe, princípios de conversão em código de transformada superposta são descritos.
[038] A ELT, MLT e MDCT, conforme mencionado acima, podem ser consideradas como realizações específicas de uma formulação de transformada superposta geral, com a fórmula (1) para determinação do inverso e com 0 < k < M e
[039] para o caso posterior (análise).
[040] Na formula (2), a função cos( ) foi substituída pelo espaço reservado cs( ) para enfatizar que um também pode usar a função sen( ) em (1, 2) para obter formas moduladas de seno como a transformada de seno discreta modificada (MDST) aplicada na MCLT (Transformada Superposta Complexa Modulada) (consultar [18]) e em [8], [9].
[041] Dessa forma, cs( ) é um espaço reservado para indicar que sen( ) ou cos( ) pode ser usado.
[042] Ao invés da fórmula (1) para a MLT inversa (que implanta a síntese da MLT) ou fórmula (2) para a ELT (posterior) (que implanta a análise da ELT), uma pluralidade de outras fórmulas é empregada como equações de transformada superposta quando MLT (por exemplo, MDCT ou MDST) ou ELT é conduzida. Exemplos de tais equações são agora apresentadas como fórmulas (2a) a (2j).
[043] Em todas as fórmulas (2a) a (2j) e nas fórmulas (4a) a (4h) abaixo, 0 < k < M e 0 < n se aplicam, em que Xt (k) é a amostra de frequência em k e xi (n) é a amostra de tempo em n.
[044] Uma formulação de transformada superposta generalizada pode, por exemplo, ser formulada como nas fórmulas (2a) e (2b):Definição de transformada superposta generalizada posterior (análise):Definição de transformada superposta generalizada inversa (síntese):Transformadas superpostas com 50% de razão de sobreposição podem, por exemplo, ser formuladas como nas fórmulas (2c) a (2j):MDCT posterior (análise), tipo 4, chamada MDCT-IV, :MDCT inversa (síntese), tipo 4, chamada IMDCT-IV, :MDCT posterior (análise), tipo 2, chamada MDCT-II,:MDCT inversa (síntese), tipo 2, chamada IMDCT-II, : MDST posterior (análise), tipo 4, chamada MDST-IV, :MDST inversa (síntese), tipo 4, chamada IMDST-IV, :MDST posterior (análise), tipo 2, chamada MDST-II, :MDST inversa (síntese), tipo 2, chamada IMDST-II, :
[045] Transformadas superpostas com 75% de razão de sobreposição, por exemplo, transformada superposta estendida (ELT) posterior ou inversa de Malvar, podem, por exemplo, ser formuladas da mesma maneira como as fórmulas (2c) e (2d), porém com N = L e n < L.
[046] Para conseguir reconstrução perfeita (PR) de sinal de entrada si(n) após a sujeição às transformadas de análise e síntese nas fórmulas (1) e (2), respectivamente, pelo menos na ausência de distorção espectral, por exemplo, por quantização (indicada por um ' na fórmula (1)), janelas w(n) são usadas para ponderar a entrada de análise de tamanho L xi (n)= w (n) ⋅ sˆi (n) bem como a saída de síntese sˆi(n)=w(n)⋅xi′(n) .Visto que sˆi(n) exibe a interferência de domínio de tempo (TDA) devido à propriedade de amostragem crítica de transformação superposta, w(n) deve atender restrições de projeto particulares (consultar [1], [2], [12]). Para ELTs compar, presumindo-se w(n) simétrico e igual para análise e síntese, as mesmas são dadas por
[047] Para a MLT, MDCT ou MDST (, os três termos se aplicaram de modo intercambiável daqui por diante), a TDA é cancelada combinando-se a primeira metade temporal de sˆI com a segunda metade da sˆi−1 do quadro anterior por meios de um procedimento de sobreposição e adição (OLA). A razão de sobreposição de 2-1 inter-transformada resultante . No caso da ELT com L = 4M , a etapa de OLA deve combinar o primeiro quarto de sˆi com o segundo quarto de sˆi−1, o terceiro quarto de sˆi−2 e o quarto quarto de sˆi−3, de modo que a razão cresça para
[048] A Figura 4 ilustra essa diferença e o pior caso pré-eco (espalhamento temporal de erros de conversão em código). Discussões mais detalhadas de TDA e reconstrução perfeita podem ser encontradas em [15], [16], [17], [18], [19] e [20].
[049] Em particular, a Figura 4 ilustra TDAC durante OLA em transformação superposta, na Figura 4 (a) para MLT, na Figura 4 (b) para ELT e na Figura 4 (c) para MLT por meio de ELT. O comprimento da linha abaixo das janelas indica o pré-eco máximo. Pode ser visto que o pré-eco máximo no caso da ELT é mais longo que o caso da MLT.
[050] Também se deve notar que ELTs de fase linear uniformemente empilhadas com base na DCT-II ou ELTs de comprimento ímpar com, por exemplo, L = 3M, também são possíveis (consultar [21], 22]) e que as modalidades descritas abaixo também se aplicam a tais ELTs.
[051] Focando-se na ELT de comprimento, se pode observar que, M conforme mostrado na Figura 5 (a), reconstrução perfeita não é alcançada durante transferências automáticas a e a partir de conversão em código de MLT visto que simetrias de TDA são incompatíveis. Em outras palavras, a necessidade de combinações ímpares-pares adjacentes (consultar [9], [19]) é violada entre os quadros i-4 e i-3.
[052] As modalidades são agora descritas em detalhe.
[053] A Figura 1b ilustra um codificador para codificação de uma pluralidade de amostras de áudio de domínio de tempo de um sinal de áudio gerando-se uma pluralidade de grupos de amostras de áudio de domínio espectral a partir de uma pluralidade de grupos das amostras de áudio de domínio de tempo de acordo com uma modalidade.
[054] O codificador compreende um primeiro módulo de codificação 210 para geração de um primeiro grupo dos grupos de amostras de áudio de domínio espectral a partir de um primeiro grupo dos grupos das amostras de áudio de domínio de tempo, e para geração de um segundo grupo dos grupos de amostras de áudio de domínio espectral a partir de um segundo grupo dos grupos das amostras de áudio de domínio de tempo, em que o primeiro grupo de amostras de áudio de domínio de tempo e o segundo grupo de amostras de áudio de domínio de tempo são vizinhos em tempo dentro dos grupos das amostras de áudio de domínio de tempo, em que o primeiro grupo das amostras de áudio de domínio de tempo compreende mais que 5% e no máximo 50% das amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, e em que o segundo grupo das amostras de áudio de domínio de tempo compreende mais que 5% e no máximo 50% das amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo.
[055] Adicionalmente, o codificador compreende um segundo módulo de codificação 220 para geração de um terceiro grupo dos grupos de amostras de áudio de domínio espectral a partir de um terceiro grupo dos grupos das amostras de áudio de domínio de tempo, e para geração de um quarto grupo dos grupos de amostras de áudio de domínio espectral a partir de um quarto grupo dos grupos das amostras de áudio de domínio de tempo, em que o terceiro grupo das amostras de áudio de domínio de tempo compreende mais que 60% e menos que 100% das amostras de áudio do quarto grupo das amostras de áudio de domínio de tempo, e em que o quarto grupo das amostras de áudio de domínio de tempo compreende mais que 60% e menos que 100% das amostras de áudio do terceiro grupo das amostras de áudio de domínio de tempo.
[056] Ademais, o codificador compreende um módulo de saída 230 para emitir o primeiro grupo de amostras de áudio de domínio espectral, o segundo grupo de amostras de áudio de domínio espectral, o terceiro grupo de amostras de áudio de domínio espectral e o quarto grupo de amostras de áudio de domínio espectral.
[057] O terceiro grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, ou em que o quarto grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo.
[058] As modalidades são entre outros baseadas na constatação que, para algumas porções do sinal de áudio de domínio de tempo, janelas de transformada mais longas que têm uma sobreposição mais elevada são mais adequadas, enquanto para outros grupos de sinal de porções do sinal de áudio de domínio de tempo, janelas de transformada mais curtas por sobreposição inferior são mais adequadas. Uma comutação entre as janelas de transformada diferentes é, portanto, efetuada em tempo de execução. Para efetuar codificação de áudio sem artefatos audíveis, janelas de transformada vizinhas se sobrepõe, mesmo quando seu comprimento de janela muda.
[059] Na Figura 1b, o primeiro módulo de codificação 210 é para codificação de grupos menores das amostras de áudio de domínio de tempo que têm uma sobreposição menor com outros grupos das amostras de áudio de domínio de tempo. No entanto, visto que mesmo para o primeiro módulo de codificação 210, pelo menos alguma sobreposição deveria existir, mais que 5% de sobreposição é exigido.
[060] O segundo módulo de codificação 220 é para codificação de grupos maiores das amostras de áudio de domínio de tempo que têm uma sobreposição maior comparada àqueles grupos processados pelo primeiro módulo de codificação 210. Uma sobreposição mínima de mais que 60% é exigida.
[061] A Figura 2a ilustra a sobreposição de quatro grupos das amostras de áudio de domínio de tempo, de acordo com uma modalidade, quando uma comutação de grupos curtos para grupos longos é conduzida.
[062] Em particular, cada um dentre o primeiro grupo 410 das amostras de áudio de domínio de tempo, o segundo grupo 420 das amostras de áudio de domínio de tempo, o terceiro grupo 430 das amostras de áudio de domínio de tempo e o quarto grupo 440 das amostras de áudio de domínio de tempo é esquematicamente retratado por um bloco correspondente. Linhas tracejadas ajudam na identificação da região de sobreposição.
[063] Conforme pode ser visto, o primeiro grupo 410 das amostras de áudio de domínio de tempo e o segundo grupo 420 das amostras de áudio de domínio de tempo têm uma sobreposição de 50%. Dessa forma, o primeiro grupo 410 das amostras de áudio de domínio de tempo compreende exatamente 50% das amostras de áudio de domínio de tempo do segundo grupo 420 das amostras de áudio de domínio de tempo, e vice-versa.
[064] Ademais, conforme pode ser visto, o terceiro grupo 430 das amostras de áudio de domínio de tempo e o quarto grupo 440 das amostras de áudio de domínio de tempo têm uma sobreposição de 75%. Dessa forma, o terceiro grupo 430 das amostras de áudio de domínio de tempo compreende exatamente 75% das amostras de áudio de domínio de tempo do quarto grupo 440 das amostras de áudio de domínio de tempo, e vice-versa.
[065] Adicionalmente, conforme pode ser visto, o terceiro grupo 430 das amostras de áudio de domínio de tempo compreende amostras de áudio do segundo grupo 420 das amostras de áudio de domínio de tempo, visto que ambos os grupos têm uma faixa de sobreposição.
[066] Resumindo a modalidade da Figura 2a, o primeiro grupo 410 das amostras de áudio de domínio de tempo precede o segundo grupo 420 das amostras de áudio de domínio de tempo em tempo, o segundo grupo 420 das amostras de áudio de domínio de tempo precede o terceiro grupo 430 das amostras de áudio de domínio de tempo em tempo, o terceiro grupo 430 das amostras de áudio de domínio de tempo precede o quarto grupo 440 das amostras de áudio de domínio de tempo em tempo e o terceiro grupo 430 das amostras de áudio de domínio de tempo compreende amostras de áudio do segundo grupo 420 das amostras de áudio de domínio de tempo. O mesmo é verdadeiro para a modalidade da Figura 2b.
[067] Um exemplo para uma comutação de grupos longos para grupos curtos é fornecido pela Figura 3a.
[068] A Figura 3a ilustra a sobreposição de quatro grupos das amostras de áudio de domínio de tempo, de acordo com uma modalidade, quando uma comutação de grupos longos para grupos curtos é conduzida.
[069] Em particular, mais uma vez, cada um dentre o primeiro grupo 411 das amostras de áudio de domínio de tempo, o segundo grupo 421 das amostras de áudio de domínio de tempo, o terceiro grupo 431 das amostras de áudio de domínio de tempo e o quarto grupo 441 das amostras de áudio de domínio de tempo é esquematicamente retratado por um bloco correspondente. Linhas tracejadas novamente ajudam na identificação da região de sobreposição.
[070] Conforme pode ser visto, o primeiro grupo 411 das amostras de áudio de domínio de tempo e o segundo grupo 421 das amostras de áudio de domínio de tempo têm uma sobreposição de 50%. Dessa forma, o primeiro grupo 411 das amostras de áudio de domínio de tempo compreende exatamente 50% das amostras de áudio de domínio de tempo do segundo grupo 421 das amostras de áudio de domínio de tempo, e vice-versa.
[071] Ademais, conforme pode ser visto, o terceiro grupo 431 das amostras de áudio de domínio de tempo e o quarto grupo 441 das amostras de áudio de domínio de tempo têm uma sobreposição de 75%. Dessa forma, o terceiro grupo 431 das amostras de áudio de domínio de tempo compreende exatamente 75% das amostras de áudio de domínio de tempo do quarto grupo 441 das amostras de áudio de domínio de tempo, e vice-versa.
[072] Adicionalmente, conforme pode ser visto, o quarto grupo 441 das amostras de áudio de domínio de tempo compreende amostras de áudio do primeiro grupo 411 das amostras de áudio de domínio de tempo, visto que ambos os grupos têm uma faixa de sobreposição.
[073] Resumindo a modalidade da Figura 3a, o terceiro grupo 431 das amostras de áudio de domínio de tempo precede o quarto grupo 441 das amostras de áudio de domínio de tempo em tempo, o quarto grupo 441 das amostras de áudio de domínio de tempo precede o primeiro grupo 411 das amostras de áudio de domínio de tempo em tempo, o primeiro grupo 411 das amostras de áudio de domínio de tempo precede o segundo grupo 421 das amostras de áudio de domínio de tempo em tempo e o quarto grupo 441 das amostras de áudio de domínio de tempo compreende amostras de áudio do primeiro grupo 411 das amostras de áudio de domínio de tempo. O mesmo é verdadeiro para a modalidade da Figura 3b.
[074] De acordo com uma modalidade, o primeiro grupo 410, 411 das amostras de áudio de domínio de tempo pode, por exemplo, compreender exatamente 50% das amostras de áudio do segundo grupo 420, 421 das amostras de áudio de domínio de tempo, e o segundo grupo das amostras de áudio de domínio de tempo pode, por exemplo, compreender exatamente 50% das amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo. A Figura 2a, a Figura 3a, a Figura 2b e a Figura 3b efetuam tal modalidade.
[075] O terceiro grupo 430, 431 das amostras de áudio de domínio de tempo pode, por exemplo, compreender pelo menos 75% e menos que 100% das amostras de áudio do quarto grupo 440, 441 das amostras de áudio de domínio de tempo, e o quarto grupo 440, 441 das amostras de áudio de domínio de tempo pode, por exemplo, compreender pelo menos 75% e menos que 100% das amostras de áudio do terceiro grupo 430, 431 das amostras de áudio de domínio de tempo. A Figura 2a, a Figura 3a, a Figura 2b e a Figura 3b também efetuam tal modalidade.
[076] Em uma modalidade, o primeiro módulo de codificação 210 pode, por exemplo, ser configurado para efetuar uma Transformada de Cosseno Discreta Modificada ou uma Transformada de Seno Discreta Modificada, e o segundo módulo de codificação 220 pode, por exemplo, ser configurado para efetuar uma Transformada Superposta Estendida ou uma Transformada Superposta Estendida Modificada.
[077] De acordo com uma modalidade, o terceiro grupo 430, 431 das amostras de áudio de domínio de tempo pode, por exemplo, compreender exatamente 75% das amostras de áudio do quarto grupo 440, 441 das amostras de áudio de domínio de tempo, e o quarto grupo 440, 441 das amostras de áudio de domínio de tempo pode, por exemplo, compreender exatamente 75% das amostras de áudio do terceiro grupo 430, 431 das amostras de áudio de domínio de tempo.
[078] Em uma modalidade, um primeiro número de amostras de áudio de domínio de tempo do primeiro grupo das amostras de áudio de domínio de tempo pode, por exemplo, ser igual a um segundo número de amostras de áudio de domínio de tempo do segundo grupo das amostras de áudio de domínio de tempo. Um terceiro número de amostras de áudio de domínio de tempo do terceiro grupo das amostras de áudio de domínio de tempo pode, por exemplo, ser igual a um quarto número de amostras de áudio de domínio de tempo do quarto grupo das amostras de áudio de domínio de tempo. O segundo número pode, por exemplo, ser igual ao terceiro número dividido por 2, e em que o primeiro número pode, por exemplo, ser igual ao quarto número dividido por 2.
[079] Por exemplo, um exemplo particular de tal modalidade é que todos os grupos codificados pelo segundo módulo de codificação 220 têm exatamente duas vezes as amostras de todos os grupos codificados pelo primeiro módulo de codificação 210.
[080] De acordo com uma modalidade do codificador da Figura 1b, o segundo módulo de codificação 220 é configurado para gerar um quinto grupo de amostras de áudio de domínio espectral a partir de um quinto grupo das amostras de áudio de domínio de tempo, e em que o segundo módulo de codificação 220 é configurado para gerar um sexto grupo de amostras de áudio de domínio espectral a partir de um sexto grupo das amostras de áudio de domínio de tempo. O terceiro ou o quarto grupo das amostras de áudio de domínio de tempo compreende pelo menos 75% e menos que 100% das amostras de áudio do quinto grupo das amostras de áudio de domínio de tempo, em que o quinto grupo das amostras de áudio de domínio de tempo compreende pelo menos 75% e menos que 100% das amostras de áudio do terceiro ou do quarto grupo das amostras de áudio de domínio de tempo, em que o quinto grupo das amostras de áudio de domínio de tempo compreende pelo menos 75% e menos que 100% das amostras de áudio do sexto grupo das amostras de áudio de domínio de tempo, em que o sexto grupo das amostras de áudio de domínio de tempo compreende pelo menos 75% e menos que 100% das amostras de áudio do quinto grupo das amostras de áudio de domínio de tempo. O módulo de saída 230 é configurado para emitir, adicionalmente, o quinto grupo de amostras de áudio de domínio espectral e o sexto grupo de amostras de áudio de domínio espectral.
[081] A Figura 2b ilustra a sobreposição de seis grupos das amostras de áudio de domínio de tempo, de acordo com uma modalidade, quando uma comutação de grupos curtos para grupos longos é conduzida.
[082] Conforme pode ser visto, o quarto grupo 440 das amostras de áudio de domínio de tempo e o quinto grupo 450 das amostras de áudio de domínio de tempo têm uma sobreposição de 75%. Dessa forma, o quinto grupo 450 das amostras de áudio de domínio de tempo compreende exatamente 75% das amostras de áudio de domínio de tempo do quarto grupo 440 das amostras de áudio de domínio de tempo, e vice-versa.
[083] Ademais, conforme pode ser visto, o quinto grupo 450 das amostras de áudio de domínio de tempo e o quinto grupo 460 das amostras de áudio de domínio de tempo têm uma sobreposição de 75%. Dessa forma, o sexto grupo 460 das amostras de áudio de domínio de tempo compreende exatamente 75% das amostras de áudio de domínio de tempo do quinto grupo 450 das amostras de áudio de domínio de tempo, e vice-versa.
[084] De acordo com modalidade, o primeiro grupo 410, 411 de amostras de áudio de domínio de tempo e o segundo grupo de amostras de áudio de domínio de tempo 420, 421 são vizinhos em tempo. Por exemplo, na Figura 2b seis grupos das amostras de áudio de domínio de tempo são ilustrados, a saber 410, 420, 430, 440, 450, 460. Uma sequência em tempo pode ser definida por esses seis grupos.
[085] Por exemplo, a primeira amostra do primeiro grupo 410 de amostras de áudio de domínio de tempo se refere a um ponto em tempo prévio (mais no passado), que a primeira amostra do segundo grupo 420 de amostras de áudio de domínio de tempo.
[086] A primeira amostra do segundo grupo 420 de amostras de áudio de domínio de tempo se refere ao mesmo ponto em tempo como a primeira amostra do terceiro grupo 430 de amostras de áudio de domínio de tempo. No entanto, a última amostra do segundo grupo 420 de amostras de áudio de domínio de tempo se refere a um ponto em tempo prévio à última amostra do terceiro grupo 430 de amostras de áudio de domínio de tempo.
[087] A primeira amostra do terceiro grupo 430 de amostras de áudio de domínio de tempo se refere a um ponto em tempo prévio à primeira amostra do quarto grupo 440 de amostras de áudio de domínio de tempo.
[088] A primeira amostra do quarto grupo 440 de amostras de áudio de domínio de tempo se refere a um ponto em tempo prévio à primeira amostra do quinto grupo 450 de amostras de áudio de domínio de tempo.
[089] A primeira amostra do quinto grupo 450 de amostras de áudio de domínio de tempo se refere a um ponto em tempo prévio à primeira amostra do sexto grupo 460 de amostras de áudio de domínio de tempo.
[090] A sequência resultante em tempo para a Figura 2b é 410, 420, 430, 440, 450, 460.
[091] Aplicar o mesmo raciocínio para a Figura 3b se refere à sequência em tempo para a Figura 3b: 461, 451, 431, 441, 411, 421.
[092] O raciocínio para determinação de uma sequência em tempo é: Se a primeira amostra de um grupo A de amostras de áudio de domínio de tempo se refere a um ponto em tempo prévio à primeira amostra de um grupo B de amostras de áudio de domínio de tempo, então, o grupo A aparece anteriormente na sequência de tempo, então, o grupo B.
[093] Se a primeira amostra de um grupo A de amostras de áudio de domínio de tempo se refere à mesma linha de ponto em tempo, a primeira amostra de um grupo B, então, o grupo A, aparece anteriormente na sequência de tempo, então, o grupo B, se a última amostra do grupo A de amostras de áudio de domínio de tempo se refere a um ponto em tempo prévio à última amostra do grupo B.
[094] Dois grupos das amostras de áudio de domínio de tempo são vizinhos em tempo, se os mesmos são vizinhos (imediatos) na sequência em tempo de grupos das amostras de áudio de domínio de tempo.
[095] Por exemplo, considere a sequência em tempo para a Figura 2b: 410, 420, 430, 440, 450, 460. Na mesma, grupos 410 e 420 são vizinhos em tempo, grupos 420 e 430 são vizinhos em tempo, grupos 430 e 440 são vizinhos em tempo, grupos 440 e 450 são vizinhos em tempo e grupos 450 e 460 são vizinhos em tempo, porém nenhum outro par de dois grupos são vizinhos em tempo.
[096] Por exemplo, considere a sequência em tempo para a Figura 3b: 461, 451, 431, 441, 411, 421. Na mesma, grupos 461 e 451 são vizinhos em tempo, grupos 451 e 431 são vizinhos em tempo, grupos 431 e 441 são vizinhos em tempo, grupos 441 e 411 são vizinhos em tempo e grupos 411 e 421 são vizinhos em tempo, porém nenhum outro par de dois grupos são vizinhos em tempo.
[097] Considerando a Figura 3b, a Figura 3b ilustra a sobreposição de seis grupos das amostras de áudio de domínio de tempo, de acordo com uma modalidade, quando uma comutação de grupos longos para grupos curtos é conduzida.
[098] Conforme pode ser visto, o terceiro grupo 431 das amostras de áudio de domínio de tempo e o quinto grupo 451 das amostras de áudio de domínio de tempo têm uma sobreposição de 75%. Dessa forma, o quinto grupo 451 das amostras de áudio de domínio de tempo compreende exatamente 75% das amostras de áudio de domínio de tempo do terceiro grupo 431 das amostras de áudio de domínio de tempo, e vice-versa.
[099] Ademais, conforme pode ser visto, o quinto grupo 451 das amostras de áudio de domínio de tempo e o quinto grupo 461 das amostras de áudio de domínio de tempo têm uma sobreposição de 75%. Dessa forma, o sexto grupo 461 das amostras de áudio de domínio de tempo compreende exatamente 75% das amostras de áudio de domínio de tempo do quinto grupo 451 das amostras de áudio de domínio de tempo, e vice-versa.
[0100] Nas modalidades, uma função de janela pode ser aplicada nas amostras de áudio de domínio de tempo pelo primeiro módulo de codificação 210 ou pelo segundo módulo de codificação 220 para obter amostras de domínio de tempo ponderadas, e após isso, o primeiro módulo de codificação 210 ou o segundo módulo de codificação 220 podem gerar as amostras de áudio de domínio espectral a partir das amostras de domínio de tempo ponderadas.
[0101] Em uma modalidade, o codificador é configurado para empregar o primeiro módulo de codificação 210 ou o segundo módulo de codificação 220 para geração de um grupo atual de amostras de áudio de domínio espectral dependendo de uma propriedade de sinal de uma porção do sinal de áudio de domínio de tempo.
[0102] De acordo com uma modalidade, o codificador é configurado para determinar como a propriedade de sinal, se um grupo atual da pluralidade de amostras de áudio de domínio de tempo compreende pelo menos uma dentre as regiões não estacionárias e regiões não tonais. O codificador é configurado para empregar o primeiro módulo de codificação 210 para gerar o grupo atual de amostras de áudio de domínio espectral dependendo do grupo atual da pluralidade de amostras de áudio de domínio de tempo, se o grupo atual da pluralidade de amostras de áudio de domínio de tempo compreende a dita pelo menos uma dentre as regiões não estacionárias e as regiões não tonais. Ademais, o codificador é configurado para empregar o segundo módulo de codificação 220 para gerar o grupo atual de amostras de áudio de domínio espectral dependendo do grupo atual da pluralidade de amostras de áudio de domínio de tempo, se o grupo atual da pluralidade de amostras de áudio de domínio de tempo não compreende a dita pelo menos uma dentre as regiões não estacionárias e as regiões não tonais.
[0103] Em uma modalidade, o módulo de saída 230 é configurado para emitir um bit que tem ou um primeiro valor de bit ou um segundo valor de bit dependendo da propriedade de sinal. Dessa forma, o bit pode ser empregado em um lado de decodificador para determinar se um codificador usou o primeiro módulo de codificação 210 ou o segundo módulo de codificação 220 para codificação.
[0104] A Figura 1a ilustra um decodificador para decodificação de uma pluralidade de amostras de áudio de domínio espectral de acordo com uma modalidade.
[0105] O decodificador compreende um primeiro módulo de decodificação 110 para decodificação de um primeiro grupo das amostras de áudio de domínio espectral gerando-se um primeiro grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do primeiro grupo das amostras de áudio de domínio espectral, e para decodificação de um segundo grupo das amostras de áudio de domínio espectral gerando-se um segundo grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do segundo grupo de amostras de áudio de domínio espectral.
[0106] Ademais, o decodificador compreende um adicionador de sobreposição 130, em que o adicionador de sobreposição 130 é configurado para conduzir adição de sobreposição de exatamente dois grupos de amostras de áudio intermediário de domínio de tempo, sendo que os ditos exatamente dois grupos são o primeiro grupo e o segundo grupo de amostras de áudio intermediário de domínio de tempo, em que o adicionador de sobreposição 130 é configurado para adicionar por sobreposição os ditos exatamente dois grupos com uma sobreposição de mais que 5% e no máximo 50%, em que a dita adição de sobreposição dos ditos exatamente dois grupos resulta na geração de uma primeira pluralidade de amostras de saída de áudio intermediário de domínio de tempo de um sinal de áudio.
[0107] Adicionalmente, o decodificador compreende um segundo módulo de decodificação 120 para decodificação de um terceiro grupo das amostras de áudio de domínio espectral gerando-se um terceiro grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do terceiro grupo das amostras de áudio de domínio espectral, e para decodificação de um quarto grupo das amostras de áudio de domínio espectral gerando-se um quarto grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do quarto grupo de amostras de áudio de domínio espectral.
[0108] Ademais, o decodificador compreende uma interface de saída 140 para emissão da primeira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio, de uma segunda pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio e de uma terceira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio,
[0109] O adicionador de sobreposição 130 é configurado para obter a segunda pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o terceiro grupo de amostras de áudio intermediário de domínio de tempo com uma sobreposição de mais que 60% e menos que 100% com o quarto grupo de amostras de áudio intermediário de domínio de tempo.
[0110] Ademais, o adicionador de sobreposição 130 é configurado para obter a terceira pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o segundo grupo de amostras de áudio intermediário de domínio de tempo com o terceiro grupo de amostras de áudio intermediário de domínio de tempo, ou em que o adicionador de sobreposição 130 é configurado para obter a terceira pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o quarto grupo de amostras de áudio intermediário de domínio de tempo com o primeiro grupo de amostras de áudio intermediário de domínio de tempo.
[0111] As explicações que foram fornecidas com referência à Figura 2a, a Figura 2b, a Figura 2c e a Figura 2d para a sobreposição dos grupos das amostras de áudio de domínio de tempo 410, 411, 420, 421, 430, 431, 440, 441, 450, 451, 460 e 461 se aplicam igualmente para os grupos de amostras de áudio intermediário de domínio de tempo.
[0112] Nas modalidades, as primeiras amostras de saída de áudio são geradas com base em adição de sobreposição da primeira e da segunda amostras de saída de áudio de domínio de tempo, as segundas amostras de saída de áudio são geradas com base em adição de sobreposição da terceira e da quarta amostras de saída de áudio de domínio de tempo,
[0113] Nas modalidades de decodificador que correspondem à situação na Figura 2a e 2b, a primeira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio precede a terceira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio em tempo e em que a terceira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio precede a segunda pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio em tempo e em que o adicionador de sobreposição 130 é configurado para obter a terceira pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o segundo grupo de amostras de áudio intermediário de domínio de tempo com o terceiro grupo de amostras de áudio intermediário de domínio de tempo, ou
[0114] Nas modalidades de decodificador que correspondem à situação na Figura 3a e 3b, a segunda pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio precede a terceira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio em tempo e em que a terceira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio precede a primeira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio em tempo e em que o adicionador de sobreposição 130 é configurado para obter a terceira pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o segundo grupo de amostras de áudio intermediário de domínio de tempo com o terceiro grupo de amostras de áudio intermediário de domínio de tempo.
[0115] Ademais, foi estabelecido, o primeiro grupo e o segundo grupo de amostras de áudio intermediário de domínio de tempo sobrepõe mais que 5% e no máximo 50 %. Na maioria das modalidades, o primeiro módulo de decodificação 110 gera grupos de amostras de áudio intermediário de domínio de tempo que têm o mesmo número de amostras, em outras palavras, a janela usada pelo primeiro módulo de decodificação 110 tem, geralmente, sempre o mesmo tamanho. Então, para determinar a sobreposição do primeiro e do segundo grupo de amostras de áudio intermediário de domínio de tempo, o número de amostras de áudio intermediário de domínio de tempo do primeiro grupo que sobrepõe com amostras do segundo grupo de amostras de áudio intermediário de domínio de tempo na adição de sobreposição (por exemplo, 1.024 amostras) é dividido pelo número total de amostras do primeiro grupo de amostras de áudio intermediário de domínio de tempo (por exemplo, 2.048 amostras) para determinar a sobreposição da adição de sobreposição (1.024 / 2.048 = 50%). No entanto, na modalidade extraordinária em que o primeiro módulo de decodificação 110 gera grupos de amostras de áudio intermediário de domínio de tempo que tem um número diferente de amostras, então, o maior dentre os grupos de amostras de áudio intermediário de domínio de tempo é considerado e a sobreposição é definida como o número de amostras de áudio intermediário de domínio de tempo do maior grupo que sobrepõe com amostras do menor grupo (por exemplo, 768 amostras) dividido pelo número total de amostras do maior grupo (por exemplo, 2.048 amostras) (sobreposição: 768 / 2.048 = 37,5%).
[0116] Adicionalmente, foi estabelecido que o terceiro grupo e o quarto grupo de amostras de áudio intermediário de domínio de tempo se sobrepõe com mais que 60% e menos que 100%. Na maioria das modalidades, o segundo módulo de decodificação 120 gera grupos de amostras de áudio intermediário de domínio de tempo que têm o mesmo número de amostras, em outras palavras, a janela usada pelo segundo módulo de decodificação 120 tem, geralmente, sempre o mesmo tamanho (mas o tamanho dos grupos / janelas é normalmente diferente do tamanho dos grupos / janelas que são gerados/usados pelo primeiro módulo de decodificação 110). Então, para determinar a sobreposição do terceiro e do quarto grupo de amostras de áudio intermediário de domínio de tempo, o número de amostras de áudio intermediário de domínio de tempo do terceiro grupo aquela sobreposição com amostras do quarto grupo de amostras de áudio intermediário de domínio de tempo na adição de sobreposição (por exemplo, 3.584 amostras) é dividido pelo número total de amostras do primeiro grupo de amostras de áudio intermediário de domínio de tempo (por exemplo, 4.096 amostras) para determinar a sobreposição da adição de sobreposição (3.584 / 4.096 = 87,5%). No entanto, na modalidade extraordinária em que o segundo módulo de decodificação 120 gera grupos de amostras de áudio intermediário de domínio de tempo que tem um número diferente de amostras, então, o maior dentre os grupos de amostras de áudio intermediário de domínio de tempo é considerado e a sobreposição é definida como o número de amostras de áudio intermediário de domínio de tempo do maior grupo aquela sobreposição com amostras do menor grupo (por exemplo, 3.072 amostras) dividido pelo número total de amostras do maior grupo (por exemplo, 4.096 amostras) (sobreposição: 3.072 / 4.096 = 75%).
[0117] Adição de sobreposição é bem conhecida pela pessoa versada na técnica. Adição de sobreposição de dois grupos das amostras de áudio de domínio de tempo é particularmente bem conhecida pela pessoa versada na técnica.
[0118] Uma maneira de implantar adição de sobreposição de três ou mais grupos pode, por exemplo, ser adicionar por sobreposição dois dentre os três ou mais grupos para obter um resultado de adição de sobreposição intermediário e, então, adicionar por sobreposição um terceiro grupo dentre os três ou mais grupos ao resultado de adição de sobreposição intermediário, e continuar a proceder do mesmo modo, até todos os grupos estarem adicionados por sobreposição com o resultado intermediário (atualizado).
[0119] Outra abordagem seria, em primeiro lugar, sobrepor todos dentre os três ou mais grupos adequadamente e, então, adicionar amostras correspondentes dos grupos na sobreposição para obter o resultado da adição de sobreposição.
[0120] De acordo com uma modalidade, o adicionador de sobreposição 130 pode, por exemplo, ser configurado para adicionar por sobreposição o primeiro grupo de amostras de áudio intermediário de domínio de tempo com uma sobreposição de exatamente 50% com o segundo grupo de amostras de áudio intermediário de domínio de tempo. O adicionador de sobreposição 130 pode, por exemplo, ser configurado para adicionar por sobreposição pelo menos o terceiro grupo de amostras de áudio intermediário de domínio de tempo com uma sobreposição de pelo menos 75% e menos que 100% com o quarto grupo de amostras de áudio intermediário de domínio de tempo.
[0121] Em uma modalidade, o primeiro módulo de decodificação 110 pode, por exemplo, ser configurado para efetuar uma Transformada de Cosseno Discreta Modificada inversa ou uma Transformada de Seno Discreta Modificada inversa. O segundo módulo de decodificação 120 é configurado para efetuar uma Transformada Superposta Estendida inversa ou uma Transformada Superposta Estendida Modificada inversa.
[0122] De acordo com uma modalidade, o adicionador de sobreposição 130 pode, por exemplo, ser configurado para adicionar por sobreposição pelo menos o terceiro grupo de amostras de áudio intermediário de domínio de tempo com uma sobreposição de exatamente 75% com o quarto grupo de amostras de áudio intermediário de domínio de tempo.
[0123] Em uma modalidade, um primeiro número de amostras de áudio intermediário de domínio de tempo do primeiro grupo de amostras de áudio intermediário de domínio de tempo pode, por exemplo, ser igual a um segundo número de amostras de áudio intermediário de domínio de tempo do segundo grupo de amostras de áudio intermediário de domínio de tempo. Um terceiro número de amostras de áudio intermediário de domínio de tempo do terceiro grupo de amostras de áudio intermediário de domínio de tempo pode, por exemplo, ser igual a um quarto número de amostras de áudio intermediário de domínio de tempo do quarto grupo de amostras de áudio intermediário de domínio de tempo. O segundo número pode, por exemplo, ser igual ao terceiro número dividido por 2, e em que o primeiro número é igual ao quarto número dividido por 2.
[0124] De acordo com uma modalidade do decodificador da Figura 1a, o segundo módulo de decodificação 120 pode, por exemplo, ser configurado para decodificar um quinto grupo das amostras de áudio de domínio espectral gerando-se um quinto grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do quinto grupo das amostras de áudio de domínio espectral, e para decodificar um sexto grupo das amostras de áudio de domínio espectral gerando-se um sexto grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do sexto grupo das amostras de áudio de domínio espectral. O adicionador de sobreposição 130 é configurado para obter a segunda pluralidade de amostras de saída de áudio de domínio de tempo por adição de sobreposição do terceiro grupo de amostras de áudio intermediário de domínio de tempo e do quarto grupo de amostras de áudio intermediário de domínio de tempo e do quinto grupo de amostras de áudio intermediário de domínio de tempo e do sexto grupo de amostras de áudio intermediário de domínio de tempo, de tal modo que o terceiro ou o quarto grupo de amostras de áudio intermediário de domínio de tempo se sobreponha com pelo menos 75% e menos que 100% com o quinto grupo de amostras de áudio intermediário de domínio de tempo, e de tal modo que o quinto grupo de amostras de áudio intermediário de domínio de tempo se sobreponha com pelo menos 75% e menos que 100% com o sexto grupo de amostras de áudio intermediário de domínio de tempo.
[0125] Referência é feita às explicações fornecidas acima em relação aos grupos das amostras de áudio de domínio de tempo 410, 411, 420, 421, 430, 431, 440, 441, 450, 451, 460 e 461 na Figura 2b e na Figura 3b, explicações as quais se aplicam igualmente aos grupos de amostras de áudio intermediário de domínio de tempo.
[0126] Em uma modalidade, o adicionador de sobreposição 130 é configurado para adicionar por sobreposição pelo menos o segundo grupo de amostras de áudio intermediário de domínio de tempo com o terceiro grupo de amostras de áudio intermediário de domínio de tempo, de modo que todas as amostras de áudio intermediário de domínio de tempo do segundo grupo de amostras de áudio intermediário de domínio de tempo se sobreponham com amostras de áudio intermediário de domínio de tempo do terceiro grupo de amostras de áudio intermediário de domínio de tempo. Ou, o adicionador de sobreposição 130 é configurado para adicionar por sobreposição pelo menos o quarto grupo de amostras de áudio intermediário de domínio de tempo com o primeiro grupo de amostras de áudio intermediário de domínio de tempo, de modo que todas as amostras de áudio intermediário de domínio de tempo do primeiro grupo de amostras de áudio intermediário de domínio de tempo se sobreponham com o quarto grupo de amostras de áudio intermediário de domínio de tempo.
[0127] A Figura 1c ilustra um sistema de acordo com uma modalidade. O sistema compreende um codificador 310, de acordo com uma dentre as modalidades descritas acima, e um decodificador 320, de acordo com uma dentre as modalidades descritas acima. O codificador 310 é configurado para codificar uma pluralidade de amostras de áudio de domínio de tempo de um sinal de áudio gerando-se uma pluralidade de amostras de áudio de domínio espectral. Ademais, o decodificador 320 é configurado para receber uma pluralidade de amostras de áudio de domínio espectral a partir do codificador. Adicionalmente, o decodificador é configurado para decodificar a pluralidade de amostras de áudio de domínio espectral.
[0128] Para reduzir ou evitar a interferência de domínio de tempo, em relação a uma modalidade do codificador da Figura 1b, o segundo módulo de codificação 220 é configurado para gerar pelo menos um dentre o terceiro grupo e o quarto grupo de amostras de áudio de domínio espectral dependendo de cs(a (n + b)(k + c)) ,
[0129] em que cs( ) é cos( ) ou sen( ),
[0130] em que n indica um índice de tempo de uma dentre as amostras de áudio de domínio de tempo do terceiro ou do quarto grupo de amostras de áudio de domínio de tempo,
[0131] em que k indica um índice espectral de uma dentre as amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral,
[0132] em que -0,1 < c < 0,1, ou 0,4 < c < 0,6 ou 0,9 < c < 1,1,
[0133] em que,
[0134] em que 0,9 • π < q < 1,1 • π.
[0135] M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral,
[0136] em que
[0137] em que 1,5 < s < 4,5.
[0138] Em uma modalidade, o primeiro módulo de codificação 210 é configurado para gerar pelo menos um dentre o primeiro grupo e o segundo grupo de amostras de áudio de domínio espectral dependendo de cs1 (a (n1 + b1 )(k + c1 )) ,
[0139] em que cs1( ) é cos( ) ou sen( ),
[0140] em que n1 indica um índice de tempo de uma dentre as amostras de áudio de domínio de tempo do primeiro ou do segundo grupo de amostras de áudio de domínio de tempo,
[0141] em que -0,1 < c1 < 0,1, ou 0,4 < c1< 0,6 ou 0,9 < c1 < 1,1,
[0142] em que
[0143] De acordo com uma modalidade c = 0, ou c = 0,5 ou c = 1, q = π e s = 3.
[0144] A configuração s = 3 alcança reduzir de modo ideal a interferência de domínio de tempo, enquanto a configuração 1,5 < s < 4,5 com s + 3 alcança algum grau de redução de interferência de domínio de tempo, mas, geralmente, nem tanta redução quanto para s = 3.
[0145] Modalidades particulares trabalham particularmente bem. Consultar Tabela 1 e Tabela 2:TABELA 1:
[0146] Tabela 1 mostra uma comutação de MLT para ELT. Em cada linha, funções para quatro janelas subsequentes / grupos correspondentes das amostras de áudio de domínio de tempo são ilustradas. As primeiras duas colunas se referem a as últimas duas janelas de MLT (a última menos uma e a última janela de MLT), colunas 3 e 4 se referem à primeira e segunda janelas de ELT, respectivamente. Cada linha representa uma combinação particularmente boa de funções para janelas subsequentes. As fórmulas para MDCT-II, MDST-II, MDCT-IV e MDST-IV e para MECT-II, MEST-II, MECT-IV e MEST-IV e as fórmulas inversas correspondentes são apresentadas em relação às fórmulas (2a) a (2j) e (4a) a (4h). As combinações ilustradas trabalham igualmente bem para as transformações inversas com as funções inversas.
[0147] Portanto, por exemplo, em uma modalidade, q = π, em que s = 3, em que cs( ) é cos( ), e cs1( ) é cos( ), e em que c = 0,5 e c1 = 0,5.
[0148] Em outra modalidade, q = π, em que s = 3, em que cs( ) é sen( ), e cs1( ) é cos( ), e em que c = 1 e c1 = 0.
[0149] Em outra modalidade, q = π, em que s = 3, em que cs( ) é sen( ), e cs1( ) é sen( ), e em que c = 0,5 e c1 = 1.
[0150] Em outra modalidade, q = π, em que s = 3, em que cs( ) é cos( ), e cs1( ) é sen( ), e em que c = 0 e c1 = 1.
[0151] Em outra modalidade, q = π, em que s = 3, em que cs( ) é sen( ), e cs1( ) é sen( ), e em que c = 0,5 e c1 = 0,5.
[0152] Em outra modalidade, q = π, em que s = 3, em que cs( ) é cos( ), e cs1( ) é sen( ), e em que c = 0 e c1 = 0,5.
[0153] Em outra modalidade, q = π, em que s = 3, em que cs( ) é cos( ), e cs1( ) é cos( ), e em que c = 0,5 e c1 = 0.accor
[0154] Em outra modalidade, q = π, em que s = 3, em que cs( ) é sen( ), e cs1( ) é cos( ), e em que c = 1 e c1 = 0.TABELA 2:
[0155] A Tabela 2 mostra uma comutação de ELT para MLT. Em cada linha, funções para quatro janelas subsequentes (grupos correspondentes das amostras de áudio de domínio de tempo) são ilustradas. As primeiras duas colunas se referem a as últimas duas janelas de ELT (a última menos uma e a última janela de ELT), colunas 3 e 4 se referem à primeira e segunda janelas de MLT, respectivamente. Cada linha representa uma combinação particularmente boa de funções para janelas subsequentes. As fórmulas para MDCT-II, MDST-II, MDCT-IV e MDST-IV e para MECT-II, MEST-II, MECT-IV e MEST-IV e as fórmulas inversas correspondentes são apresentadas em relação às fórmulas (2a) a (2j) e (4a) a (4h). As combinações ilustradas trabalham igualmente bem para as transformações inversas com as funções inversas.
[0156] Em uma modalidade, o segundo módulo de codificação 220 é configurado para gerar pelo menos um dentre o terceiro grupo e o quarto grupo de amostras de áudio de domínio espectral dependendo de , ou dependendo de , ou dependendo de ,ou dependendo de
[0157] em que Xˆi(k)indica uma dentre espectral do terceiro ou do quarto grupo de amostras de áudio de domínio espectral, e em que xˆi(n)indica um valor de domínio de tempo.
[0158] De acordo com uma modalidade, o segundo módulo de codificação 220 é configurado para aplicar um peso w(n) em uma amostra de áudio de domínio de tempo si (n) do terceiro grupo ou do quarto grupo das amostras de áudio de domínio de tempo de acordo com xˆi(n)=w(n)⋅si(n)
[0159] para gerar o valor de domínio de tempo xˆi(n)
[0160] Em uma modalidade, todas as amostras de áudio de domínio de tempo do segundo grupo das amostras de áudio de domínio de tempo se sobrepõe com amostras de áudio de domínio de tempo do terceiro grupo das amostras de áudio de domínio de tempo, ou em que todas as amostras de áudio de domínio de tempo do primeiro grupo das amostras de áudio de domínio de tempo se sobrepõe com o quarto grupo das amostras de áudio de domínio de tempo.
[0161] Similarmente, em relação ao decodificador da Figura 1a, em uma modalidade, o segundo módulo de decodificação 120 é configurado para gerar pelo menos um dentre o terceiro grupo de amostras de áudio intermediário de domínio de tempo e o quarto grupo de amostras de áudio intermediário de domínio de tempo dependendo de cs(a (n + b)(k + c)) ,
[0162] em que cs( ) é cos( ) ou sen( ), em que n indica um índice de tempo de uma dentre as amostras de áudio intermediário de domínio de tempo do terceiro ou do quarto grupo de amostras de áudio intermediário de domínio de tempo, em que k indica um índice espectral de uma dentre as amostras de áudio de domínio espectral do terceiro ou do quarto grupo das amostras de áudio de domínio espectral,
[0163] em que -0,1 < c < 0,1, ou 0,4 < c < 0,6 ou 0,9 < c < 1,1,
[0164] em que,
[0165] em que 0,9 • π < q < 1,1 • π,
[0166] em que M indica um número de amostras de áudio de domínio espectral do terceiro ou do quarto grupo das amostras de áudio de domínio espectral,
[0167] em que, e
[0168] em que 1,5 < s < 4,5.
[0169] Em uma modalidade, o primeiro módulo de decodificação 110 é configurado para gerar pelo menos um dentre o primeiro grupo de amostras de áudio intermediário de domínio de tempo e o segundo grupo de amostras de áudio intermediário de domínio de tempo dependendo de cs1 (a (n1 + b1)(k1 +c1)) ,
[0170] em que cs( ) é cos( ) ou sen( ),
[0171] em que n indica um índice de tempo de uma dentre as amostras de áudio intermediário de domínio de tempo do terceiro ou do quarto grupo de amostras de áudio intermediário de domínio de tempo,
[0172] em que k indica um índice espectral de uma dentre as amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral,
[0173] em que -0,1 < c < 0,1, ou 0,4 < c < 0,6 ou 0,9 < c < 1,1,
[0174] em que,
[0175] em que 0,9 • π < q < 1,1 • π,
[0176] em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral,
[0177] em que, e
[0178] em que 1,5 < s < 4,5.
[0179] Em uma modalidade, o primeiro módulo de decodificação 110 é configurado para gerar pelo menos um dentre o primeiro grupo de amostras de áudio intermediário de domínio de tempo e o segundo grupo de amostras de áudio intermediário de domínio de tempo dependendo de cs1 (a (n1 + b1 ) (k + c1 )) ,
[0180] em que cs1( ) é cos( ) ou sen( ),
[0181] em que n1 indica um índice de tempo de uma dentre as amostras de áudio intermediário de domínio de tempo do primeiro ou do segundo grupo de amostras de áudio intermediário de domínio de tempo,
[0182] em que -0,1 < c1 < 0,1, ou 0,4 < c1 < 0,6 ou 0,9 < c1 < 1,1,
[0183] em que
[0184] De acordo com uma modalidade c = 0, ou c = 0,5 ou c = 1, q = π e s = 3.
[0185] A configuração s = 3 alcança reduzir de modo ideal a interferência de domínio de tempo, enquanto a configuração 1,5 < s < 4,5 com s + 3 alcança algum grau de redução de interferência de domínio de tempo, mas, geralmente, nem tanta redução quanto para s = 3.
[0186] Em uma modalidade, o segundo módulo de decodificação 120 é configurado para gerar pelo menos um dentre o terceiro grupo de amostras de áudio intermediário de domínio de tempo e o quarto grupo de amostras de áudio intermediário de domínio de tempo dependendo de, ou dependendo de, ou dependendo de, ou dependendo de
[0187] em que X‘(k) indica uma dentre as amostras de áudio de domínio espectral do terceiro ou do quarto grupo das amostras de áudio de domínio espectral, e em que x‘( n) indica um valor de domínio de tempo.
[0188] De acordo com uma modalidade, o segundo módulo de decodificação 120 é configurado para aplicar um peso w(n) no valor de domínio de tempo X‘(n) de acordo com si(n ) = w(n ) x‘( n)
[0189] para gerar uma amostra de áudio intermediário de domínio de tempo si (n) do terceiro ou do quarto grupo de amostras de áudio intermediário de domínio de tempo.
[0190] Em relação ao codificador da Figura 1b, de acordo com uma modalidade, welt é uma primeira função de janela, em que wtr é uma segunda função de janela, em que uma porção da segunda função de janela wtr é definida de acordo com
[0191] em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo de amostras de áudio de domínio espectral,
[0192] em que k é um número com 0 < k < M ,
[0193] em que d é um número real,
[0194] em que, ou em que .
[0195] L indica um número de amostras do terceiro grupo ou do quarto grupo de amostras de áudio de domínio de tempo.
[0196] O terceiro grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, e em que o segundo módulo de codificação 220 é configurado para aplicar a primeira função de janela weltno quarto grupo de amostras de áudio de domínio de tempo e em que o segundo módulo de codificação 220 é configurado para aplicar a segunda função de janela wtr no terceiro grupo de amostras de áudio de domínio de tempo. Ou, o quarto grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo, e em que o segundo módulo de codificação 220 é configurado para aplicar a primeira função de janela welt no terceiro grupo de amostras de áudio de domínio de tempo e em que o segundo módulo de codificação 220 é configurado à segunda função de janela wtr no quarto grupo de amostras de áudio de domínio de tempo.
[0197] De acordo com uma modalidade, wtr1 é uma terceira função de janela, em que uma porção da terceira função de janela é definida de acordo com
[0198] em que, ou em que ,
[0199] em que N indica um número de amostras de áudio de domínio de tempo do primeiro grupo ou do segundo grupo de amostras de áudio de domínio de tempo.
[0200] O terceiro grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, e em que o segundo módulo de codificação (220) é configurado para aplicar a terceira função de janela wtr1 no segundo grupo de amostras de áudio de domínio de tempo. Ou, o quarto grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo, e em que o segundo módulo de codificação (220) é configurado à terceira função de janela wtr1 no primeiro grupo de amostras de áudio de domínio de tempo.
[0201] Em uma modalidade, a primeira função de janela welt é definida de acordo com em que
[0202] em que b0, b1 e b2 são números reais.
[0203] em que 0 < t < L, e em que K é um número inteiro positivo e em que Ck indica um número real.
[0204] De acordo com uma modalidade, K = 3; 0,3 < bo < 0,4; -0,6 < bi < -0,4; 0,01 < b2 < 0,2; 0,001 < c 1 < 0,03; 0,000001 < C2 < 0,0005; 0,000001 < C3 < 0,00002.
[0205] De acordo com uma modalidade, 0.8 < d < 125 .
[0206] Em uma modalidade particular,
[0207] De acordo com uma modalidade alternativa, d = 1.
[0208] Similarmente, em relação ao decodificador da Figura 1a, de acordo com uma modalidade, welt é uma primeira função de janela, em que wtr é uma segunda função de janela, em que uma porção da segunda função de janela é definida de acordo com
[0209] em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral, em que k é um número com 0< k < M , em que d é um número real,
[0210] em que, ou em que .
[0211] L indica um número de amostras do terceiro grupo ou do quarto grupo de amostras de áudio intermediário de domínio de tempo.
[0212] O adicionador de sobreposição 130 é configurado para adicionar por sobreposição pelo menos o segundo grupo de amostras de áudio intermediário de domínio de tempo com o terceiro grupo de amostras de áudio intermediário de domínio de tempo, em que o segundo módulo de decodificação 120 é configurado para gerar o quarto grupo de amostras de áudio intermediário de domínio de tempo dependendo da primeira função de janela welt, e em que o segundo módulo de decodificação 120 é configurado para gerar o terceiro grupo de amostras de áudio intermediário de domínio de tempo dependendo da segunda função de janela wtr. Ou, o adicionador de sobreposição 130 é configurado para adicionar por sobreposição pelo menos o quarto grupo de amostras de áudio intermediário de domínio de tempo com o primeiro grupo de amostras de áudio intermediário de domínio de tempo, em que o segundo módulo de decodificação 120 é configurado para gerar o terceiro grupo de amostras de áudio intermediário de domínio de tempo dependendo da primeira função de janela welt , e em que o segundo módulo de decodificação 120 é configurado para gerar o quarto grupo de amostras de áudio intermediário de domínio de tempo dependendo da segunda função de janela wtr.
[0213] De acordo com uma modalidade, em que wtr1 é uma terceira função de janela, em que uma porção da terceira função de janela é definida de acordo com
[0214] em que, ou em que
[0215] em que N indica um número de amostras de áudio intermediário de domínio de tempo do primeiro grupo ou do segundo grupo de amostras de áudio intermediário de domínio de tempo.
[0216] O adicionador de sobreposição (130) é configurado para adicionar por sobreposição pelo menos o segundo grupo de amostras de áudio intermediário de domínio de tempo com o terceiro grupo de amostras de áudio intermediário de domínio de tempo, e em que o primeiro módulo de decodificação (110) é configurado para gerar o segundo grupo de amostras de áudio intermediário de domínio de tempo dependendo da terceira função de janela wtr1. O adicionador de sobreposição (130) é configurado para adicionar por sobreposição pelo menos o quarto grupo de amostras de áudio intermediário de domínio de tempo com o primeiro grupo de amostras de áudio intermediário de domínio de tempo, e em que o primeiro módulo de decodificação (110) é configurado para gerar o primeiro grupo de amostras de áudio intermediário de domínio de tempo dependendo da terceira função de janela wtr1.
[0217] Em uma modalidade, a primeira função de janela welt é definida de acordo com em que
[0218] em que bo, b 1 e b2 são números reais, em que 0 < t < L, e em que Ké um número inteiro positivo e em que ck indica um número real.
[0219] De acordo com uma modalidade, K = 3; 0,3 < bo < 0,4; -0,6 < b 1 < -0,4; 0,01 < b2 < 0,2; 0,001 < c1 < 0,03; 0,000001 < c2 < 0,0005; 0,000001 < c3 < 0,00002.
[0220] Em uma modalidade,0.8 < d < 125 .
[0221] De acordo com uma modalidade,
[0222] Em uma modalidade alternativa, d = 1.
[0223] Em relação ao sistema da Figura 1c, de acordo com uma modalidade, o decodificador 320 do sistema usa uma função de janela de transição, eo codificador 310 do sistema usa uma função de janela de transição
[0224] De acordo com uma modalidade particular, o decodificador 320 do sistema usa uma função de janela de transição, e o codificador 310 do sistema usa uma função de janela de transição
[0225] De acordo com uma modalidade, o decodificador da Figura 1a é configurado para receber informações de decodificação que indicam se uma porção da pluralidade de amostras de áudio de domínio espectral deve ser decodificada pelo primeiro módulo de decodificação 110 ou pelo segundo módulo de decodificação 120. O decodificador é configurado para decodificar a dita porção da pluralidade de amostras de áudio de domínio espectral empregando-se tanto o primeiro módulo de decodificação 110 como o segundo módulo de decodificação 120 dependendo das informações de decodificação para obter o primeiro ou o segundo ou o terceiro ou o quarto grupo de amostras de áudio intermediário de domínio de tempo.
[0226] Em uma modalidade, o decodificador é configurado para receber um primeiro bit e um segundo bit, em que o primeiro bit e o segundo bit têm, conjuntamente, uma primeira combinação de valor de bit, ou uma segunda combinação de valor de bit sendo diferente da primeira combinação de valor de bit, ou uma terceira combinação de valor de bit sendo diferente da primeira e da segunda combinações de valor de bit, ou uma quarta combinação de valor de bit sendo diferente da primeira e da segunda e da terceira combinação de valor de bit. Ademais, o decodificador é configurado para decodificar uma porção da pluralidade de amostras de áudio de domínio espectral dependendo de uma função Kaiser-Bessel empregando-se o primeiro módulo de decodificação 110 para obter o primeiro ou o segundo grupo de amostras de áudio intermediário de domínio de tempo, se o primeiro bit e o segundo bit têm, conjuntamente, a primeira combinação de valor de bit. Adicionalmente, o decodificador é configurado para decodificar uma porção da pluralidade de amostras de áudio de domínio espectral dependendo de uma função de seno ou uma função de cosseno empregando-se o primeiro módulo de decodificação 110 para obter o primeiro ou o segundo grupo de amostras de áudio intermediário de domínio de tempo, se o primeiro bit e o segundo bit têm, conjuntamente, a segunda combinação de valor de bit. O decodificador é configurado para decodificar uma porção da pluralidade de amostras de áudio de domínio espectral empregando-se o primeiro módulo de decodificação 110 para obter o primeiro ou o segundo grupo de amostras de áudio intermediário de domínio de tempo, se o primeiro bit e o segundo bit têm, conjuntamente, a terceira combinação de valor de bit. Ademais, o decodificador é configurado para decodificar a dita porção da pluralidade de amostras de áudio de domínio espectral empregando-se o segundo módulo de decodificação 120 para obter o terceiro ou o quarto grupo de amostras de áudio intermediário de domínio de tempo, se o primeiro bit e o segundo bit têm, conjuntamente, a quarta combinação de valor de bit.
[0227] Modalidades particulares são agora descritas em maiores detalhes.
[0228] As modalidades fornecem uma Transformada Superposta Estendida Modificada, que é descrita a seguir.
[0229] Para corrigir a questão de reconstrução perfeita na Figura 5 (a) alcançando- se cancelamento de TDA completo (TDAC) também nas regiões de OLA de 3 partes transitórias, uma classe de transformada deveria ser redefinida de tal modo que suas simetrias de TDA complementem aquelas da outra, por exemplo, conforme na Figura 5 (b) e na Figura 5 (c).
[0230] Em particular, a Figura 5 ilustra a comutação de MLT para ELT com transformadas de transição, em que a Figura 5 (a) mostra reconstrução não perfeita incorreta, em que a Figura 5 (b) retrata reconstrução perfeita desejada e em que a Figura 5 (c) ilustra MLT por meio de ELT desejada.
[0231] Ademais, similarmente, a Figura 6 ilustra a comutação de ELT para MLT com transformadas de transição de acordo com modalidades.
[0232] Visto que é desejável evitar mudanças em implantações de MDCT e MDST existentes, foco é fixado na ELT. Ademais, para obter facilmente transição de reconstrução perfeita e janelas de estado estável para todas as transformadas, expressões analíticas correspondentes são desejáveis.
[0233] Inicialmente, as modificações para a adaptação da razão de sobreposição, de acordo com as modalidades, são descritas.
[0234] Para proporcionar a ELT a compatibilidade de TDA com a MLT, o deslocamento de fase é alterado em suas funções de base:
[0235] em que k, cs são definidos como para a fórmula (2) e a ELT inversa (1), com a utilização de X’, adaptado de acordo. (conforme acima, cs( ) pode ser cos( ) ou sen( ) ).
[0236] Conforme explicado acima, por exemplo, modificando-se as fórmulas (2c) a (2j) definindo-se N = L (por exemplo, para as fórmulas de análise (2c), (2e), (2g) e (2i)) e definindo-se 0 < n < L (por exemplo, para as fórmulas de síntese (2d), (2f), (2h) e (2j) ), as fórmulas de ELT e fórmulas de ELT inversa são obtidas.
[0237] Aplicar o conceito de fórmula (4) nessas fórmulas de ELT e ELT inversa resulta nas fórmulas (4a) a (4h) que representam modalidades de transformada superposta estendida modificada (MELT) inventivas e novas. As modalidades particulares das fórmulas (4a) a (4h) efetuam transformadas superpostas com 75% de razão de sobreposição: MELT modulada por cosseno posterior, tipo 4, agora denominada MECT- IV: MELT modulada por cosseno inverso, tipo 4, agora denominada IMECT-IV, n < L: MELT modulada por cosseno posterior, tipo 2, agora denominada MECT-II MELT modulada por cosseno inverso, tipo 2, agora denominada IMECT-II, n < L: MELT modulada por seno posterior, tipo 4, agora denominada MEST-IV: MELT modulada por seno inverso, tipo 4, agora denominada IMEST-IV, n<L: MELT modulada por seno posterior, tipo 2, agora denominada MEST-II: MELT modulada por seno inverso, tipo 2, agora denominada IMEST-II, n <L:
[0238] Algumas modalidades fornecem um projeto de janela adequado particular para transições da MLT para a ELT e da ELT para a MLT, que são descritas a seguir.
[0239] Pode ser mostrado que, conforme a Figura 5 indica, os 4 quartos das janelas de MLT e ELT transitórias têm base nas ponderações de estado estável respectivas, com o primeiro e/ou o quarto quarto definidos como zero e os quartos críticos descrito por
[0240] em que para comutação conforme na Figura 5 ou para as transições de ELT para MLT reversas. Utilizar a fórmula (5) para adquirir os quartos críticos 511,512, 521,522 (mostrados na Figura 5) e os quartos críticos 631, 632 (mostrados na Figura 6) para as ponderações de transição tanto de ELT quanto MLT completa a definição das janelas transitórias, deixando apenas a escolha das funções de estado estável.
[0241] Uma definição completa da janela de transição para Transformada Superposta Estendidas das fórmulas (5) seria, por exemplo, definida como a janela de (M)ELT na equação (5a) para transições a partir de 50 a 75% de razão de sobreposição:
[0242] Para uma janela (M)ELT para transições a partir de 75 a 50% de razão de sobreposição, a definição seria a definição da equação (5a), porém wtr seria temporariamente invertida.
[0243] Na equação (5a), d pode, por exemplo, ser uma constante, por exemplo, um número real.
[0244] Nas equações (5) e (5a) welt(n) pode, por exemplo, indicar uma janela para a transformada superposta estendida, por exemplo, uma janela de transformada superposta estendida do estado da técnica (consultar a família de janelas definida pelas fórmulas (16) a (19) em referência [11]: S. Malvar, “Modulated QMF Filter Banks with Perfect Reconstruction,” Electronics Letters, vol. 26, no 13, páginas 906 a 907, junho de 1990).
[0245] Ou, nas equações (5) e (5a) welt(n) pode, por exemplo, ser a janela de transformada superposta estendida inventiva e nova conforme definido na fórmula (8) abaixo.
[0246] Nas equações (5) e (5a), L é um número, por exemplo, que indica o tamanho de uma janela de ELT. N é um número que indica o tamanho de uma janela de MLT. M é um número em que, por exemplo,
[0247] Na fórmula (5a) n é um número, por exemplo, na faixa 0 < n < L. k é um número.
[0248] Nas fórmulas (5) e (5a), k é definido na faixa 0< k < M .
[0249] A seguir, janelas de transformada superposta de reconstrução perfeita de estado estável, de acordo com modalidades, são descritas com referência à Figura 7.
[0250] A Figura 7 ilustra projetos de janela de reconstrução perfeitos, na Figura 7 (a) para MLT, na Figura 7 (b) para ELT e na Figura 7 (c) para transições de acordo com modalidades.
[0251] Diversas janelas de MLT complementares de energia (PC) que impõe a chamada condição de Princen-Bradley para reconstrução perfeita (consultar [2]) foram documentadas. A Figura 7 (a) retrata os formatos e funções de transferência sobreamostradas correspondentes das janelas usadas em codecs de áudio de MPEG (consultar [5], [7]), no seno de MLT (consultar [3], [11]) e nas janelas derivadas de Kaiser-Bessel (KBD) (consultar [23]). Também mostrada está a função complementar de energia em [24], cujo formato é similar àquele da janela de KBD, porém cujo, conforme pode ser notado, exibe primeiro níveis de lóbulo lateral inferiores (campo próximo). Finalmente, uma janela de seno para um comprimento de quadro dobrado, conforme empregado no caso de SBR de taxa dupla, serve como uma referência e ilustra que janelas mais longas podem reduzir, notavelmente, tanto a largura de banda de passagem quanto o nível de banda de paragem.
[0252] Idealmente, uma janela de ELT, sujeita às restrições de reconstrução perfeita da fórmula (3), deve exibir uma resposta de frequência comparável àquela da janela de sino de comprimento duplo, porém pode ser observado que, devido às restrições de reconstrução perfeita, largura de lóbulo principal pode apenas ser minimizada permitindo-se menos atenuação de lóbulo lateral. Constatou-se que a janela de Malvar [11] com p=1, por exemplo, tem a menor largura de lóbulo principal possível de todos os projetos de ELT, porém também níveis de banda de paragem indesejavelmente altos, conforme mostrado na Figura 7 (b). Suas margens temporais são notavelmente descontínuas (visto que se presume que as amostras além da extensão de janela são iguais a zero), resultando em uma decadência de lóbulo lateral de apenas -6 dB/oitava (consultar [24]) e artefatos de enquadramento em nossos experimentos. Temerinac e Edler (consultar [16]) apresentaram uma abordagem de projeto recursiva, que os mesmos costumavam a obter a janela de ELT também mostrada na Figura 7 (se deve notar que o valor -0,038411 está faltando na coluna “L=4N” de sua Tabela 1). Essa janela, que pode ser particularmente aproximada pelas equações de Malvar com p=0,14, fornece mais atenuação de banda de paragem, porém ainda bem fraca.
[0253] É digno notar que, para p=1, a formulação de Malvar pode ser modificada a uma notação similar àquela para uma janela Hann:
[0254] com 0 < t < L denotando as amostras temporais da janela e a0 = 2-3/2 escolhido para impor as restrições de reconstrução perfeita (consultar [11], [12], [13], [14]). Intuitivamente, uma função com mais atenuação de lóbulo lateral, tal como
[0255] com b2 > 0 , que pode ser usada para derivar a janela de Blackman (consultar [24]), também parece ser aplicável. Infelizmente, pode ser mostrado que a reconstrução perfeita não pode ser alcançada com tal classe de janela indiferentemente do valor de b0.
[0256] No entanto, de acordo com modalidades, mais termos são adicionados.
[0257] De acordo com modalidades, welt(t) é fornecido:
[0258] com bk conforme acima, o formato resultante para qualquer escolha depode ser corrigido de modo que a reconstrução perfeita seja abordada intimamente de modo arbitrário. Direcionar, em particular, um baixo nível de banda de paragem e impor, além das condições de reconstrução perfeita, a restrição de uma metade esquerda de isótono e, logo, inclinação de janela de metade direita de antítono, reconstrução perfeita pode ser aproximada com um erro abaixo de 4 ■ 10 -6 usando-se K = 3, b2 = 0,176758 e, dependente desses valores, b0 = 0,3303 ec1 = 0,023663, c2 = 0,0004243, c3 = 0,00001526. (9)
[0259] Essa função de janela de ELT, retratada na Figura 7 (b), é menos descontínua em suas margens que as propostas de [11] e [16] e, como resultado, permite o mesmo nível de rejeição como a janela de seno de comprimento duplo da Figura 7 (a). Simultaneamente, seu lóbulo principal permanece mais estreito que aquele da janela de seno de MLT. De modo interessante, a mesma também se parece com a última janela em formato.
[0260] A Figura 7 (c) ilustra os formatos espectral e temporal das janelas de transição de MDCT/MDST e ELT, com base no projeto complementar de energia de [24] e welt com a utilização das fórmulas (8) e (9), e, para comparação, a janela de partida de comprimento duplo de AAC.
[0261] As modalidades empregam um janelamento de transição de ELT biortogonal generalizado.
[0262] A equação (5) especificou como o quarto crítico de uma janela de transformada superposta estendida (ELT) de comprimento 4M para transições tanto de conversão em código de MLT para ELT como de conversão em código de ELT para MLT pode ser determinado.
[0263] Nas modalidades, a equação (5) é ajustada por multiplicação com uma constante d (consultar, como um exemplo, a fórmula (5a)) como a seguir:
[0264] com k = 0, 1, ..., M-1 e t conforme definido anteriormente com a utilização tanto de k quanto L. Isso permite uma chamada abordagem biortogonal em relação a janelamento de transição de razão comutada, em que quartos de janela críticos diferentes podem ser empregados para as transformadas de análise e síntese. Mais especificamente, para alcançar TDAC e, dessa forma, reconstrução perfeita, wtr(t) pode usar d = d' no lado de análise (codificador), e no lado de síntese (decodificador), wtr(t) pode aplicar o inverso, isto é, d = 1/d'. Dada uma janela de ELT de estado estável particular welt, preferencialmente, o derivado por meio das equações (8) e (9) no presente documento, d' é, preferencialmente, determinado com base em ambas dentre as duas considerações a seguir.
[0265] Preferencialmente, para determinação de d', a equação (10) é escolhida para produzir, durante todas as transições de comutação de razão, ambos os atributos espectrais ideais das janelas de análise e atenuação de saída máxima mediante decodificação
[0266] Para obtenção das propriedades espectrais ideais do janelamento de análise, algumas modalidades obtêm a menor quantidade possível de largura de lóbulo principal e a quantidade mais forte possível de atenuação de lóbulo lateral nas janelas de análise a fim de maximizar a compactação espectral, especialmente, de sinais de áudio harmônicos e estacionários. Dado que a janela welt de estado estável já foi otimizada para esse propósito, pode ser mostrado que isso pode ser alcançado em wtr evitando-se descontinuidades nas margens entre os quatro quartos de janela. Mais precisamente, escolhendo-se d’ de tal modo que o valor máximo de wtr(t) em (10) é igual ao valor máximo de weit(n) com n = 0, 1, ..., L-1, saltos no formato de janela transitória são evitados completamente.
[0267] Logo, em uma modalidade, d' deve refletir a razão entre as ditas duas máximas, que no caso das fórmulas (8) e (9) pode ser aproximado por d' = 4.096/4.061 → 1 / d' = 4.061/4.096.
[0268] De acordo com uma modalidade, a atenuação de saída máxima mediante janelamento de síntese é alcançada. Para suprimir a distorção de domínio espectral em conversão em código de áudio, introduzida por quantização dos compartimentos de transformada, tanto quanto possível, pode ser útil atenuar a forma de onda de saída durante o processo de janelamento de síntese antes do processamento de OLA tanto quanto possível. No entanto, devido às exigências de reconstrução perfeita/TDAC, atenuação forte pela janela não é viável visto que essa abordagem poderia tornar a janela de análise complementar prejudicial em termos de eficiência. Pode ser mostrado que um bom compromisso entre as boas propriedades de janela e atenuação de saída de lado de decodificador aceitável pode ser obtido escolhendo- se, novamente, 1 / d' = 4.061/4.096 → d' = 4.096/4.061.
[0269] Em outras palavras, ambas as abordagens de otimização para wtr, preferencialmente, levam ao mesmo valor de d'.
[0270] Exemplos para transformadas já foram fornecidos, por exemplo, as transformadas do estado da técnica das fórmulas (2a) a (2j) ou as transformadas inventivas e novas das fórmulas (4a) a (4h).
[0271] Um exemplo para uma janela de transição da equação (10), de acordo com uma modalidade, é, por exemplo, fornecido acima pela equação (5a).
[0272] A Figura 10 ilustra janelas de análise correspondentes de acordo com modalidades conforme descritas acima.
[0273] Do mesmo modo, a Figura 11 ilustra janelas de síntese correspondentes de acordo com modalidades conforme descritas acima.
[0274] A seguir, a seleção de razão de sobreposição adaptável a entrada é descrita.
[0275] A abordagem de conversão em código comutada fornecida acima, por exemplo, com a utilização das janelas fornecidas acima, pode ser integrada em um codec de transformada. Isso, entre outros, verifica sua vantagem subjetiva antecipada em entrada tonal. Por razões de brevidade, apenas os aspectos de alto nível devem ser descritos.
[0276] O relatório descritivo e as transformadas de síntese do decodificador são considerados.
[0277] Um bit extra, que sinaliza a aplicação da ELT, é recebido por canal e/ou quadro em que a transformação longa (sem comutação de bloqueio) foi utilizada pelo codificador. No caso de conversão em código de MPEG, o bit de formato de janela pode ser reutilizado para esse propósito (por exemplo, “0” significa: MLT que usa a janela de referência [23] ou de referência [24] é empregada, por exemplo, “1” significa: os conceitos de ELT de modalidades são empregados).
[0278] Com base nesse bit e na sequência de janela (comprimento e tipo de transformada), ambos para o último quadro e o atual, o decodificado pode, então, deduzir e aplicar a transformada superposta inversa com a utilização da razão de sobreposição e janela corretas, conforme descrito acima.
[0279] Por exemplo, um bit extra pode indicar, se o codificador pode comutar entre a MLT e a ELT ou não. Se o bit extra indica que o codificador pode comutar entre a MLT e a ELT, o bit de formato de janela é reutilizado para indicação de se a MLT ou a ELT é usada, por exemplo, para o quadro atual.
[0280] Agora, o detector de ELT e as transformadas de análise do codificador são considerados.
[0281] O codificador, que aplica e transmite a escolha de MLT/ELT por canal/quadro de tal modo que o codificador e o decodificador sejam sincronizados, pode detectar quadros harmônicos e estacionários computando-se um residual de conversão em código previsível linear (LPC, por exemplo, de ordem 16) da entrada, como feito em conversor de fala em código (consultar [25]).
[0282] O codificador, por exemplo, deriva do mesmo uma uniformidade temporal ft como a razão entre a energia residual do próximo e atual quadro, com estacionariedade especificada como. Ademais, o codificador, por exemplo, deriva do mesmo uma uniformidade espectral fs , também conhecida como entropia Wiener, obtida a partir do espectro de potência de DFT do residual concatenado do próximo e atual quadro, com a tonalidade alta indicada por 8
[0283] A seguir, aspectos adicionais da Transformada Superposta Estendida Modificada (MELT), de acordo com algumas modalidades, são fornecidos.
[0284] Em particular, uma descrição detalhada dos aspectos de implantação de modalidades preferenciais de integrar a MELT comutável no sistema de conversão em código de núcleo de Áudio 3D MPEG-H é fornecida.
[0285] Inicialmente, o decodificador, seu relatório descritivo e a transformada de síntese, de acordo com algumas modalidades, são descritos.
[0286] Um elemento de sintaxe de um bit global, por exemplo, chamado use_melt_extension, é introduzida na configuração de fluxo das especificações de sintaxe de elemento de canal único (SCE), elemento de canal em par (CPE) e, opcionalmente, elemento de aprimoramento de baixa frequência (LFE). Isso pode ser alcançado colocando-se use_melt_extension na tabela mpegh3DACoreConfig() do texto padrão. Quando um fluxo de bit apresenta use_melt_extension = 0, o decodificador de núcleo opera da maneira de MPEG-H convencional como especificado no estado da técnica. Isso significa que apenas as MDCTs (ou MDSTs, no caso de comutação de kernel ativada em um quadro/canal, consultar [28], em particular, consultar o final da seção 4, Ferramenta de Conversão em Código de Canais Múltiplos Discreta, de [28]) com 50% de razão de sobreposição de transformada são permitidas, e que não existe novas restrições em relação a window_sequence (apenas longo, partida longa, oito curto, paragem longa, paragem- partida) e window_shape (seno ou KBD). (Em [28], um conversor de espectro-tempo adaptável comuta entre os kernels de transformada de um primeiro grupo de kernels de transformada com um ou mais kernels de transformada que têm simetrias diferentes em lados de um kernel, e um segundo grupo de kernels de transformada que compreende um ou mais kernels de transformada que têm as mesmas simetrias em lados de um kernel de transformada).
[0287] No entanto, quando use_melt_extension = 1 no fluxo de bit, o significado do elemento window_shape de um bit por quadro para quadros/canais com “um longo” window_sequence é, preferencialmente, modificado, conforme descrito anteriormente (0: MDCT / MDST que usa a função de janela de KBD existente com α = 4 (consultar [23]), 1: MELT com a função de janela welt proposta no presente documento).
[0288] Um diagrama de bloco esquemático de um decodificador 2 para decodificação de um sinal de áudio codificado 4 é mostrado. O decodificador compreende um conversor de espectro-tempo adaptável 6 e um processador de adição de sobreposição 8. O conversor de espectro-tempo adaptável converte blocos sucessivos de valores espectrais 4’ em blocos sucessivos de valores de tempo 10, por exemplo, por meio de uma transformada de frequência para tempo. Adicionalmente, o conversor de espectro-tempo adaptável 6 recebe informações de controle 12 e comutações, em resposta às informações de controle 12, entre os kernels de transformada de um primeiro grupo de kernels de transformada que compreende um ou mais kernels de transformada que têm simetrias diferentes em lados de um kernel, e um segundo grupo de kernels de transformada que compreende um ou mais kernels de transformada que têm as mesmas simetrias em lados de um kernel de transformada. Ademais, o processador de adição de sobreposição 8 sobrepõe e adiciona os blocos sucessivos de valores de tempo 10 para obter valores de áudio decodificados 14, que podem ser um sinal de áudio decodificado.
[0289] Existem três razões para esse projeto. Primeiro, visto que existe apenas uma função de janela desejada para a MELT de estado estável, e nenhuma janela de ELT derivada da função Kaiser-Bessel existe na técnica anterior, o bit window_shape para quadros/canais “apenas longos” e MELT ativada pode ser considerado obsoleto e, dessa forma, desnecessário visto que seu valor (quando interpretado como definido no estado da técnica) necessitaria ser ignorado.
[0290] Segundo, o uso de conversão em código de MELT em um quadro/canal que não é “apenas longo” não é suportado - uma sequência de oito MELTs curtas ao invés de MDCTs/MDSTs, por exemplo, é viável, porém complica consideravelmente a técnica de comutação de bloco e é contraproducente a partir de um ponto de vista perceptual, visto que o objetivo de “oito curtas” sequências é resolução de conversão em código temporal maximizada).
[0291] Terceiro, descobriu-se que um quadro/canal “apenas longo” para o qual a janela de seno rende melhor qualidade de conversão em código que a janela de KBD, em uma dada porção de sinal de entrada, se beneficia até mais do projeto de ELT proposto quando ativado na mesma porção de sinal. Em outras palavras, MDCTs/MDSTs com um “seno” window_shape são correspondidas e até superadas de modo subjetivo pela proposta de ELT em segmentos de forma de onda em que os mesmos, por sua vez, superam notavelmente a conversão em código de MDCT/MDST com um “KBD” window_shape. Dessa forma, reutilizando-se e reespecificando-se a bit window_shape existente quando window_sequence é “apenas longo” e use_melt_extension = 1, redundância é inteiramente evitada, e nenhum bit por quadro é exigido para sinalizar se a comutação proposta para ou a partir da MELT é usada no dado quadro/canal.
[0292] Para fluxos de bit com use_melt_extension = 1, a decodificação de núcleo de MPEG-H de domínio de frequência (FD) é desempenhada conforme normalmente, exceto para os processos de transformação inversa e sobreposição e adição (OLA), que são conduzidos conforme a seguir.
[0293] Para quadros/canais com window_sequence = "apenas longo" e window_shape = 0 (KBD), ou com window_sequence + "apenas longo" e qualquer window_shape, transformação inversa em termos de quadro, janelamento de síntese e OLA são realizados conforme especificado no padrão de Áudio 3D MPEG-H, isto é, ISO/IEC 23008-3:2015, subcláusula 5.5.3.5.1 e ISO/IEC 23003-3:2012, subcláusula 7.9.
[0294] No entanto, para explicar a latência de janelamento aumentada da MELT comutável, a saída do segmento de forma de onda por quadro que resulta da etapa de OLA é retardada por um quadro. Isso significa, por exemplo, que quando o dado quadro é o primeiro quadro no fluxo, uma forma de onda zero é saída.
[0295] Para quadros/canais com window_sequence = "apenas longo" e window_shape = 1 (anteriormente: seno), a transformação inversa é desempenhada com a utilização da fórmula para a MELT proposta no presente documento, que é equivalente à equação dada em ISO/IEC 23003-3:2012, subcláusula 7.9.3.1, exceto que 0 < n < 2N e n0 = (3N/2 + 1) / 2. Note que as modificações para comutação de kernel, a saber que usa o sen( ) ao invés da função de cos( ) e k0 = 0 (para modulação de cosseno do tipo II) ou k0 = 1 (para modulação de seno do tipo II) também são possíveis com a MELT (sequenciamento compatível de TDA presumida). O janelamento de síntese é, então, aplicado conforme descrito nas seções 2 e 3 anteriormente, com janelas de transição detectadas como tabuladas na Tabela 3, com a utilização dos valores de window_shape e window_sequence, ambos para o quadro atual e anterior, para o dado canal. A Tabela 3 também indica a definição de todas as transições de sequência/formato permitidas.
[0296] Deve-se notar que a MELT inversa (ou ELT original, nesse sentido) pode ser implantada com a utilização de efetuações de MDCT e MDST existentes que, por sua vez, aplicam implantações de DCT/DST rápidas com base em Transformação de Fourier Rápida (FFT). Mais especificamente, uma MELT inversa modulada por sino pode ser efetuada anulando-se cada amostra espectral indexada ímpar (em que uma indexagem começa em zero), seguido pela aplicação de uma MDCT-IV inversa e concluída repetindo-se, temporalmente, as amostras de saída 2N resultantes com sinais anulados.
[0297] Do mesmo modo, a MELT inversa modulada por cosseno pode ser obtida anulando-se cada amostra espectral indexada par, seguido pela execução de uma MDST-IV inversa e, finalmente, a mesma repetição temporal com sinais anulados. Efetuações similares podem ser alcançadas para MELTs inversas moduladas por cosseno ou seno conforme utilizadas em caso de comutação de kernel, bem como para transformação posterior (análise) para todas dentre as configurações de MELT acima. Portanto, o único aumento de complexidade causado por processamento de MELT em comparação com os algoritmos de MDCT/MDST tradicionais é devido à necessidade de repetição temporal anulada (expansão no caso inverso ou compressão no caso posterior), que representa uma simples operação de adição por cópia/multiplicação com escalada por -1) das amostras de entrada ou saída de 2N, janelamento de análise ou síntese de duas vezes mais amostras como para a MDCT/MDST (4N ao invés de 2N), e mais adições durante OLA no decodificador. Em outras palavras, dada a complexidade algorítmica O(n (logn + c)) da transformação, apenas c constante aumenta no caso da MELT (ou ELT), e visto que n = 1.024 ou 768 na presente modalidade, qualquer aumento de c por um fator de aproximadamente dois ou três pode ser considerado negligenciável (isto é, equivale apenas a menos que um quarto da complexidade de transformada, janelamento e OLA/enquadramento que, por sua vez, é apenas uma fração da complexidade de decodificador de Áudio 3D inteira).
[0298] A Tabela 3 ilustra sequências de janela suportadas no caso de esquema de comutação de MELT. Sequência LONGA significa MDCT/MDST, em que apenas um formato de janela “KBD” é permitido visto que o LONGO com configuração de janela de “sino” é reutilizado para sinalização da sequência ELT-LONGA.TABELA 3: √ = permitido; x = não permitido tr<– tr = transição de ELT; tr –>tr = transição para ELT;KBD = derivado de Kaiser-Bessel
[0299] A seguir, a avaliação da integração de codec que foi conduzida será descrita. Avaliação cega subjetiva da proposta de razão comutada confirmou o benefício do projeto adaptável a sinal. Referência é feita à Figura 8 e à Figura 9.
[0300] A Figura 8 ilustra uma uniformidade espectral e temporal com base na seleção de ELT. Em particular, a Figura 8 ilustra a seleção de ELT e MDCT em termos de quadro resultante para quatro sinais de entrada (MDSTs não são usados nesse material). As passagens tonais e estacionárias são confiavelmente detectadas. A linha de „sel” abaixo (rosa) tem valor “0” para MELT e valor “-1” para MLT.
[0301] A Figura 9 ilustra uma vista ampliada de resultados de teste de escuta com 95% de intervalos de confiança. Pontuações de ancoragem de 3,5-kHz são omitidas para clareza.
[0302] Os projetos e resultados de testes subjetivos desse esquema, integrados no codec de Áudio 3D, são discutidos a seguir:
[0303] Dois experimentos de escuta às cegas, de acordo com o princípio de MUSHRA (estímulos múltiplos com referência e ancoragem ocultas) (consultar [26]) foram conduzidos para avaliar o desempenho subjetivo do sistema de conversão em código de MDCT-ELT comutadas em comparação com um esquema convencional que emprega apenas MDCTs (ou MDSTs, como no caso da proposta de comutação de kernel, consultar [9]). Para esse fim, a arquitetura de razão comutada foi integrada em uma implantação de codificador e decodificador do codec de Áudio 3D MPEG-H, com a utilização de IGF para extensão de largura de banda e preenchimento estéreo (SF) para conversão em código de canal em par semi-paramétrico em 48 kbit/s estéreo, conforme descrito em [8], [9]. Testagem foi realizada por 12 ouvintes experientes (idade 39 anos e mais novo, incluindo 1 mulher) em uma sala silenciosa com a utilização de um computador sem ventilador e fones de ouvido STAX modernos.
[0304] O primeiro experimento conduzido, um teste de 48-kbit/s com a utilização de sinais instrumentais tonais, destinado a quantificar a vantagem de ELT sobre conversão em código de MSCT tradicional em material de áudio harmônico e tonal, bem como o benefício de comutação de conversão em código de ELT para MDCT em transientes e inícios de tom, conforme discutido na última seção. Para cada um dentre os quatro sinais de teste tonal já usados em avaliações de codec de MPEG passadas [25], [27] - acordeão, gaita de foles/diapasão e cravo - o estímulo codificado de Áudio 3D com e sem a ELT comutável foi apresentado conjuntamente com uma condição de referência de Áudio 3D que emprega SBR estéreo unificado e MPEG Surround 21-2 (e, dessa forma, comprimento de quadro dobrado).
[0305] Os resultados desse teste, conjuntamente com os intervalos de confiança de 95% por estímulo, são ilustrados como pontuações médias gerais na Figura 9 (a) e como pontuações médias diferenciais, em relação à condição de ELT, na Figura 9 (b). Os mesmos demonstram que para três de quatro itens, a qualidade do codec de Áudio 3D com base em SBS pode ser significativamente melhorada comutando-se para a ELT durante passagens de sinal estacionárias. Ademais, recorrendo-se à conversão em código de MDCT durante os inícios tonais não estacionados e transientes, degradações perceptuais devido a artefatos de pré-eco são evitadas. Finalmente, o desempenho subjetivo da configuração de Áudio 3D com IGF e SF pode ser posto próximo àquele da referência de estéreo unificado de tamanho de quadro mais longo para tais itens. Todos os estímulos exceto sm01 (gaita de foles) exibem agora boa qualidade.
[0306] Um segundo teste de escuta “virtual”, um teste virtual de 48-kbit/s que usa vários tipos de sinais, foi desenvolvido em que os resultados da avaliação subjetiva em [9] foram combinados com os dados presentes para o item phi7 (diapasão, o único sinal em [9] para o qual ELTs são aplicadas em mais que alguns quadros).
[0307] Essa configuração deveria revelar se a conversão em código de Áudio 3D com base em SBS, aprimorado pelo esquema de ELT comutável, pode superar a configuração de Áudio 3D com base em QMF em uma definição de teste diferente.
[0308] A Figura 9 (c) retrata as pontuações médias absolutas por estímulo e gerais, novamente com intervalos de confiança, para esse teste. Certamente, graças aos ganhos de qualidade induzida por ELT em sinais, tal como phi7, o desempenho perceptual médio da configuração de SBS+ELT se tornou significativamente melhor que aquele da referência de estéreo unificado. Dado que o último exibe uma latência e complexidade algorítmica mais elevada devido aos bancos de pseudo-QMF adicionais exigidos, esse resultado é altamente satisfatório.
[0309] O benefício perceptual da abordagem de ELT comutada foi confirmado por avaliação subjetiva formal, que não revela degradações de qualidade sobre a estrutura de Áudio 3D e que indica, adicionalmente, que o objetivo a longo prazo de boa qualidade de conversão em código em cada tipo de sinal de entrada em 48 kbit/s estéreo poderia de fato ser alcançado com apenas um pouco mais de ajustamento de codificador.
[0310] Algumas modalidades fornecem melhoramentos para passagens de sinal harmônico quase estacionárias pela aplicação adaptável da Transformada Superposta Estendida Modificada (MELT).
[0311] Nesse contexto, a Figura 12 ilustra bancos de filtro básicos com transformadas superpostas, de acordo com algumas modalidades particulares, em que a Figura 12 (a) ilustra MDCT/MDST e em que a Figura 12 (b) ilustra ELT.
[0312] Tendo base em ELT, em algumas modalidades, a MELT desenvolve um banco de filtro curiosamente empilhado com 75% de sobreposição de inter- transformada, conforme retratado na Figura 12 (b), rendendo seletividade de frequência maior que um banco de filtro de MDCT ou MDST com 50% de sobreposição, conforme mostrado na Figura 12 (a), no mesmo comprimento de quadro M. No entanto, diferente da ELT, a MELT permite transições diretas, por exemplo, que usa, em algumas modalidades apenas, apenas janelas transitórias especiais, para e de MDCTs. Em particular, algumas modalidades podem, por exemplo, fornecer um esquema de comutação de razão de sobreposição adaptável a sinal em termos de quadro respectivo.
[0313] As modalidades particulares que efetuam conversão em código de METL modulada por seno são agora descritas.
[0314] Conforme já explicado acima, a MDCT posterior (análise) para um quadro em índice i, dado um sinal de tempo x e retornando um espectro X, pode, por exemplo, ser escrita com
[0315] em que comprimento de janela N = 2M e 0 < k < M. Do mesmo modo, a MDST posterior é definida com a utilização de um termo de seno ao invés de cosseno: Nas modalidades, alterando-se o comprimento temporal e o desvio de fase isso rende a MELT, com comprimento de janela aumentado L = 4M e modulação de cosseno. Naturalmente, uma contrapartida também pode ser especificada, As variantes de MELT inversa (síntese) são, por exemplo, para bancos de cosseno que aplicam a fórmula (11c) e, respectivamente, para bancos de seno, em que ‘ denota o processamento espectral, e 0 < n < L.
[0316] Deve-se notar que, embora o comprimento de janela empregado pode, por exemplo, variar entre as fórmulas (11a), (11b) e fórmulas (11c), (11d), (11e) e (11f), o comprimento de transformada M, e, desse modo, o tamanho de etapa de inter- transformada ilustrado na Figura 12 permanece idêntico, o que explica a diferença em razão de sobreposição. As definições de MELT moduladas por cosseno e seno das fórmulas (11c), (11d), (11e) e (11f) podem, em algumas modalidades, ser melhoradas, adicionalmente, para efetuação de comutação de kernel e, portanto, conversão em código eficiente de sinais com ±90 graus de IPD, mesmo no caso de 75% de sobreposição de inter-transformada. As transformadas de transição do tipo II adotadas a partir do banco de filtro de Princen-Bradley uniformemente empilhado podem, por exemplo, ser empregado por cancelamento de interferência de domínio de tempo (TDAC) quando se comuta entre as MDCTs e MDSTs do tipo IV, consultar as fórmulas (11a) e (11b). Especificamente, uma MDST-II é exigida durante mudanças de conversão em código de MDCT-IV para MDST-IV em um canal, e uma MDCT-II é necessária quando se reverte para conversão em código de MDCT-IV.
[0317] Fora as definições do tipo IV supracitadas (consultar as fórmulas (11c), (11d), (11e) e (11f)), um banco de filtro com base em ELT que permite implantações rápidas com a utilização da DCT-II também pode ser desenvolvido, o que prova que os bancos de filtro do tipo II com mais que 50% de sobreposição de inter-transformada são de fato viáveis. Uma abordagem alternativa, porém, equivalente que segue o projeto de banco de filtro de TDACV é elaborar um sistema uniformemente empilhado por meio de uso alternativo de uma versão de MELT modulada por cosseno do tipo II,
[0318] com Kronecker delta δ(0) = 1, e uma MELT com base em seno do tipo II,
[0319] com k1 = M - 1 - k para escalada do coeficiente Nyquist.
[0320] As fórmulas (11g) e (11h) no lado de análise e, respectivamente,
[0321] e
[0322] no lado de síntese levam à TDAC, conforme retratado na Figura 13.
[0323] Em particular, a Figura 13 ilustra TDAC em bancos de filtro uniformemente empilhados, de acordo com algumas modalidades particulares, em que a Figura 13 (a) ilustra Princen-Bradley e em que a Figura 13 (b) ilustra MELT-II. TDAC é possível no caso de combinação de interferência de domínio de tempo par-ímpar ou ímpar-par entre transformadas adjacentes.
[0324] Em relação à combinação de conversão em código de MELT e comutação de kernel, pode ser mostrado que a TDAC é impossível quando, de modo análogo ao processo para 50% de sobreposição, uma instância do tipo II transitória das fórmulas (11g) e (11i) ou fórmulas (11h) e (11j) é empregada quando se comuta entre as MELTs moduladas por cosseno e seno do tipo IV, consultar as fórmulas (11c), (11d), (11e) e (11f). Como é desejável manter a complexidade arquitetônica do codec baixa quando se permite comutação de kernel independentemente da razão de sobreposição instantânea, a solução alternativa a seguir é proposta. Para comutar da MELT-IV modulada por cosseno (consultar as fórmulas (11c) e (11e)) para a MELT-IV modulada por seno (consultar as fórmulas (11d) e (11f)), um quadro de MDST-II transitório, combinado com uma redução temporária da razão de sobreposição para 50% no lado tanto de análise quanto de síntese, pode, por exemplo, ser empregado. Do mesmo modo, uma MDCT-II intermediária pode ser empregada quando se reverte de volta de conversão em código de MELT com base em seno para cosseno. A Figura 14 ilustra comutação de kernel compatível com TDAC particular para bancos de filtro MELT-IV, de acordo com modalidades particulares, em que a Figura 14 (a) ilustra transições de modulação de cosseno para seno e em que a Figura 14 (b) ilustra transições de modulação de seno para cosseno.
[0325] TDAC completa é obtida em ambos os casos visto que, conforme é visualizado na Figura 14, o comprimento de sobreposição entre cada transição do tipo II e seus vizinhos de MELT do tipo IV é restrito para. Logo, não existe sobreposição de ligação de interferência temporal entre uma MELT-IV modulada por cosseno e seno que exige TDAC. Para efetuar janelamento apropriado, nas modalidades, uma janela de “paragem-partida” especial deveria ser aplicada às transformadas do tipo II, conforme mostrado na Figura 15 (a). Tal, por exemplo, janela simétrica, que tem base nas ponderações transitórias assimétricas, é, de acordo com algumas modalidades, descrita em maiores detalhes abaixo.
[0326] Em particular, a Figura 15 ilustra um janelamento melhorado, de acordo com modalidades particulares, com um formato de “paragem-partida” especial, indicado por traços, durante transições temporárias, em que a Figura 15 (a) ilustra as transições temporárias de uma razão de sobreposição a partir de 75 a 50% e em que a figura 15 (b) ilustra transições temporárias de uma razão de sobreposição a partir de 50 a 75%.
[0327] A seguir, as transições de e para quadros de MELT, de acordo com algumas modalidades, são descritas.
[0328] De acordo com algumas modalidades, comutadores quadro-a-quadro podem, por exemplo, ser efetuados a partir de uma transformada do tipo MDCT com 50% à MELT com 75% de razão de sobreposição, e vice-versa. Para manter TDAC completa durante as comutações, as janelas de transição assimétricas dedicadas derivadas das ponderações de estado estável aplicadas durante as passagens de sinal quase estacionárias, podem, por exemplo, ser empregadas. Essas janelas podem, por exemplo, ser definidas como
[0329] para a primeira janela de MELT mediante um aumento de sobreposição a partir de 50 a 75% (formato de linha em negrito retratado na Figura 15 (a) para quadro i ) e
[0330] para a primeira janela de MDCT/MDST quando se reduz a sobreposição a 50% (formado de linha em negrito na Figura 15 (b) para o mesmo quadro). Os complementos para w'llt e w'mlt, a última janela de MELT quando se comuta para 50% de sobreposição, e a última janela de MDCT/MDST durante comutações de retorno a 75% de sobreposição (quadro i-2 na Figura 15), são reversões temporais das fórmulas (12) e (13), respectivamente. k, usado nas partes de janela crítica (consultar também a Figura 14), é especificado conforme acima, enquanto welt resp. wmlt indica as funções de janela subjacentes para uma MELT e MDCT/MDST de estado estável. Para o primeiro, que também é aplicável à ELT (consultar [12]), um projeto melhorado que evita artefatos de bloqueio foi fornecido acima.
[0331] Deixar wtr(t), com t que abrange um número M de amostras de domínio de tempo, por exemplo, representam o quarto de janela crítica, por exemplo, o segmento de comprimento-M caracterizado por um tempo de raiz quadrada escalado por um valor real d, de tanto w‘lt como w'mlt quando aplicado tanto no lado de análise (codificador) como síntese (decodificador). Empregar d permite uma chamada abordagem biortogonal em relação ao janelamento de transição de razão comutada, em que as partes de janela crítica diferentes podem ser empregadas para as transformadas de análise e síntese. Mais especificamente, para alcançar TDAC e, dessa forma, PR, wr (t) pode usar d = d' no lado de análise (codificador), e no lado desíntese (decodificador), w (t) pode aplicar o inverso, por exemplo,. Dada uma d d janela de ELT de estado estável particular welt, d' é, preferencialmente, determinado de tal modo que, durante todas as transições de comutação de razão, o mesmo leva a ambos os atributos espectrais ideais das janelas de análise durante codificação e atenuação de saída máxima pelas janelas de síntese durante decodificação.
[0332] De acordo com uma modalidade de decodificador, welt é uma primeira função de janela, wmt é uma segunda função de janela e w'mlt é uma terceira função de janela, em que a terceira função de janela é definida de acordo com
[0333] em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral, em que k é um número com 0 < k < M , em que d é um número real, em que n é um número inteiro e em que o adicionador de sobreposição 130 é configurado para gerar pelo menos um dentre o primeiro e o segundo e o terceiro e o quarto grupos de amostras de áudio intermediário de domínio de tempo dependendo da terceira função de janela w'mlt.
[0334] De modo análogo, de acordo com uma modalidade de codificador, welt é uma primeira função de janela, wmt é uma segunda função de janela e w'mlt é uma terceira função de janela, em que a terceira função de janela é definida de acordo com
[0335] em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral, em que k é um número com 0< k <M , em que d é um número real, em que n é um número inteiro e em que pelo menos um dentre o primeiro módulo de codificação 210 e o segundo módulo de codificação 220 é configurado para aplicar a terceira função de janela w'mlt em pelo menos um dentre o primeiro e o segundo e o terceiro e o quarto grupos de amostras de áudio de domínio de tempo.
[0336] A seguir, propriedades espectrais melhoradas e, preferencialmente, ideais do janelamento de análise de acordo com algumas modalidades são descritas. Algumas modalidades tentam alcançar uma pequena quantidade, preferencialmente, menor possível, de largura de lóbulo principal e uma quantidade forte, preferencialmente mais forte possível, de atenuação de lóbulo lateral nas janelas de análise a fim de aumentar a compactação espectral, especialmente, de sinais de áudio harmônico e estacionário.
[0337] Visto, para algumas dentre as modalidades, que a janela de welt de estado estável já foi desenvolvida para esse propósito, pode ser mostrado que isso pode ser alcançado em w'llt e w'mlt (e, certamente, suas reversões de tempo) evitando-se descontinuidades nas margens entre as partes de janela. Mais precisamente, escolhendo-se d' de tal modo que o valor máximo de wtr é igual ao valor máximo de welt (ou, por exemplo, um valor que é próximo àquele máximo), saltos no formato de janela transitória são completamente evitados. Logo, d' deve refletir a razão entre os dois máximos, que no caso presente pode ser aproximado por
[0338] A seguir, uma atenuação de saída aumentada e, preferencialmente, máxima mediante janelamento de síntese é descrita. Para suprimir melhor (preferencialmente, tanto quanto possível) a distorção de domínio espectral em conversão em código de áudio, causada por quantização dos compartimentos de transformada pode ser útil atenuar a forma de onda de saída durante o processo de janelamento de síntese antes do processamento de OLA, preferencialmente, tanto quanto possível. No entanto, devido às exigências de PR/TDAC, atenuação forte pela janela é difícil visto que essa abordagem poderia tornar a janela de análise complementar prejudicial em termos de eficiência. De acordo com algumas modalidades, um bom compromisso entre as propriedades de janela boas e atenuação de saída de lado de decodificador aceitável podem ser obtidos escolhendo-se
[0339] Em outras palavras, ambas as abordagens de otimização para wtr , preferencialmente, levam ao mesmo valor para dQuando se emprega welt, as descontinuidades em w‘lt e w'mlt são muito pequenas (consultar a Figura 9), e sua prevenção pelo menos no lado de síntese não é esperada render melhoramento audível. A janela de “paragem-partida” transitória especial para comutação de kernel com base em MELT descrita acima, retratada para uma modalidade particular por uma linha tracejada na Figura 15 (a) e denotada por wss daqui para frente, pode ser derivada da parte de janela crítica das fórmulas (12) ou (13):
[0340] Em outras palavras, wss é uma janela simétrica com partes críticas em ambas as metades, o que, dessa forma, permite transições de razão de sobreposição em ambos os lados. Deve ser notado que wss pode ser aplicado à MDCT e MDST bem como às variantes de MELT diferentes (presumindo que os quartos externos da ponderação de comprimento L são definidos como zero). De fato, seu uso para janelamento de lado de análise torna os coeficientes de MDCT e MELT-IV moduladas por cosseno idênticos fora as diferenças de sinal, conforme indicado pela Figura 5 c). Fora facilitar a comutação de kernel, wss também pode ser utilizado para fazer com que o esquema de comutação de razão de sobreposição seja mais flexível. Por exemplo, a configuração de comutação temporária (a partir de 50 a 75% de sobreposição) mostrada na Figura 15 b) pode ser alcançada com isto.
[0341] De acordo com uma modalidade de decodificador, welt é uma primeira função de janela, wss é uma segunda função de janela, em que a segunda função de janela é definida de acordo com
[0342] em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral, em que k é um número com 0 < k < M , em que d é um número real, em que n é um número inteiro e em que o adicionador de sobreposição 130 é configurado para gerar pelo menos um dentre o primeiro e o segundo e o terceiro e o quarto grupos de amostras de áudio intermediário de domínio de tempo dependendo da segunda função de janela wss.
[0343] De modo análogo, de acordo com uma modalidade de codificador, welt é uma primeira função de janela, wss é uma segunda função de janela, em que a segunda função de janela é definida de acordo com
[0344] em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral, em que k é um número com 0 < k < M , em que d é um número real, em que n é um número inteiro, e em que pelo menos um dentre o primeiro módulo de codificação 210 e o segundo módulo de codificação 220 é configurado para aplicar a segunda função de janela wss em pelo menos um dentre o primeiro e o segundo e o terceiro e o quarto grupos de amostras de áudio de domínio de tempo.
[0345] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa de método ou um recurso de uma etapa de método. De modo análogo, os aspectos descritos no contexto de uma etapa de método também representam uma descrição de um bloco correspondente ou item ou recurso de um aparelho correspondente. Algumas ou todas as etapas de método podem ser executadas por (ou com a utilização de) um aparelho de hardware como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas modalidades, uma ou mais dentre as etapas mais importantes do método podem ser executadas por tal aparelho.
[0346] Dependendo de certas exigências de implantação, as modalidades da invenção podem ser implantadas em hardware ou em software ou pelo menos parcialmente em hardware ou pelo menos parcialmente em software. A implantação pode ser desempenhada com a utilização de uma mídia de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória Flash, que tem sinais de controle eletronicamente legíveis armazenados no mesmo, que cooperam (ou têm a capacidade de cooperar) com um sistema de computador programável de tal modo que o respectivo método seja realizado. Portanto, o meio de armazenamento digital pode ser legível por computador.
[0347] Algumas modalidades, de acordo com a invenção, compreendem uma portadora de dados que tem sinais de controle eletronicamente legíveis, que têm a capacidade de cooperar com um sistema de computador programável de tal modo que um dentre os métodos descritos no presente documento seja realizado.
[0348] De modo geral, as modalidades da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, em que o código de programa é operacional para desempenho de um dentre os métodos quando o produto de programa de computador for reproduzido em um computador. O código de programa pode, por exemplo, ser armazenado em uma portadora legível por máquina.
[0349] Outras modalidades compreendem o programa de computador para desempenho de um dentre os métodos descritos no presente documento, armazenado em uma portadora legível por máquina.
[0350] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador que tem um código de programa para desempenho de um dos métodos descritos no presente documento, quando o programa de computador é executado em um computador.
[0351] Uma modalidade adicional dos métodos inventivos é, portanto, uma portadora de dados (ou uma mídia de armazenamento digital, ou uma mídia legível por computador) que compreende, registrado no mesmo, o programa de computador para desempenho de um dentre os métodos descritos no presente documento. A portadora de dados, a mídia de armazenamento digital ou a mídia gravada são tipicamente tangíveis e/ou não transitórias.
[0352] Uma modalidade adicional do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para realizar um dentre os métodos descritos no presente documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido por meio de uma conexão de comunicação de dados, por exemplo, por meio da Internet.
[0353] Uma modalidade adicional compreende meios de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurado ou adaptado para desempenhar um dentre os métodos descritos no presente documento.
[0354] Uma modalidade adicional compreende um computador que tem instalado em si o programa de computador para desempenho de um dos métodos descritos no presente documento.
[0355] Uma modalidade adicional, de acordo com a invenção, compreende um aparelho e um sistema configurados para transferir (por exemplo, de modo eletrônico ou óptico) um programa de computador para desempenho de um dos métodos descritos no presente documento para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhantes. O aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferência do programa de computador ao receptor.
[0356] Em algumas modalidades, um dispositivo de lógica programável (por exemplo, um arranjo de porta programável em campo) pode ser usado para desempenho de uma parte ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, um arranjo de porta de campo programável pode cooperar com um microprocessador a fim de desempenhar um dentre os métodos descritos no presente documento. De modo geral, os métodos são executados, preferencialmente, por qualquer aparelho de hardware.
[0357] O aparelho descrito no presente documento pode ser implantado com a utilização de um aparelho de hardware, ou com a utilização de um computador, ou com a utilização de uma combinação de um aparelho de hardware e um computador.
[0358] Os métodos descritos no presente documento podem ser desempenhados com a utilização de um aparelho de hardware, ou com a utilização de um computador, ou com a utilização de uma combinação de um aparelho de hardware e um computador.
[0359] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. É entendido que as modificações e as variações das disposições e os detalhes descritos no presente documento serão evidentes para outros versados na técnica. Portanto, a intenção é limitada apenas pelo escopo das reivindicações de patente iminentes e não pelos detalhes específicos apresentados a título de descrição e explicação das modalidades no presente documento. REFERÊNCIAS [1] J. P. Princen e A. B. Bradley, “Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation”, IEEE Trans. Acoustics, Speech, and Signal Processing, vol. 34, no 5, páginas 1.153 a 1.161, outubro de 1986. [2] J. P. Princen, A. W. Johnson e A. B. Bradley, “Subband/transform coding using filter bank design based on time domain aliasing cancellation”, in Proc. of IEEE ICASSP ’87, abril de 1987, vol. 12, páginas 2.161 a 2.164. [3] H. S. Malvar, “Lapped Transforms for Efficient Transform/ Subband Coding”, IEEE Trans. Acoustics, Speech, and Signal Proc., vol. 38, no 6, páginas 969 a 978, junho de 1990. [4] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson e Y. Oikawa, “ISO/IEC MPEG-2 Advanced Audio Coding”, J. Audio Eng. Soc., vol. 45, no 10, outubro de 1997. [5] ISO/IEC MPEG-2 13818-3, “Information technology - Generic coding of moving pictures and associated audio information - Part 3: Audio”, abril de 1998. [6] J. Herre, J. Hilpert, A. Kuntz, and J. Plogsties, “MPEG-H Audio - The New Standard for Universal Spatial/3D Audio Coding”, J. Audio Eng. Soc., vol. 62, no 12, páginas 821 a 830, dezembro de 2014. [7] ISO/IEC MPEG-H 23008-3, “Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio”, março de 2015. [8] C. R. Helmrich, A. Niedermeier, S. Bayer e B. Edler, “Low-complexity semi-parametric joint-stereo audio transform coding”, in Proc. of EUSIPCO ’15, setembro de 2015. [9] C. R. Helmrich e B. Edler, “Signal-adaptive transform kernel switching for stereo audio coding”, in Proc. of IEEE WASPAA ’15, New Paltz, outubro de 2015, páginas 1 a 5. [10] C. R. Helmrich, A. Niedermeier, S. Disch e F. Ghido, “Spectral envelope reconstruction via IGF for audio transform coding”, in Proc. of IEEE ICASSP ’15, abril de 2015, páginas 389 a 393. [11] H. S. Malvar, “Modulated QMF Filter Banks with Perfect Reconstruction”, Electronics Letters, vol. 26, no 13, páginas 906 a 907, junho de 1990. [12] H. S. Malvar, “Extended Lapped Transforms: Properties, Applications, and Fast Algorithms”, IEEE Trans. Signal Proc., vol. 40, no 11, páginas 2.703 a 2.714, novembro de 1992. [13] R. L. de Queiroz e K. R. Rao, “Adaptive extended lapped transforms”, in Proc. of IEEE ICASSP ’93, abril de 1993, vol. 3, páginas 217 a 220. [14] R. L. de Queiroz e K. R. Rao, “Time-Varying Lapped Transforms and Wavelet Packets”, IEEE Trans. Signal Proc., vol. 41, no 12, páginas 3.293 a 3.305, dezembro de 1993. [15] M. Temerinac e B. Edler“, LINC: A Common Theory of Transform and Subband Coding", IEEE Trans. Communications, vol. 41, no 2, páginas 266 a 274, fevereiro de 1993. [16] M. Temerinac e B. Edler, “Overlapping Block Transform: Window Design, Fast Algorithm, and an Image Coding Experiment”, IEEE Trans. Communic., vol. 43, no 9, páginas 2.417 a 2.425, setembro de 1995. [17] G. D. T. Schuller e T. Karp, “Modulated Filter Banks with Arbitrary System Delay: Efficient Implementations and the Time-Varying Case”, IEEE Trans. Signal Proc., vol. 48, no 3, páginas 737 a 748, março de 2000. [18] H. S. Malvar, “A modulated complex lapped transform and its applications to audio processing”, in Proc. of IEEE ICASSP ’99, março de 1999, vol. 3, páginas 1.421 a 1.424. [19] B. Edler, Àquivalenz von Transformation und Teilbandzerlegung (Subband Decomposition) in der Quellencodierung, Ph. D. thesis, Univ. Hannover, Alemanha, 1995. [20] S. Shlien, “The Modulated Lapped Transform, Its Time-Varying Forms, and Its Applications to Audio Coding Standards”, IEEE Trans. Speech and Audio Proc., vol. 5, no 4, páginas 359 a 366, julho de 1997. [21] M. Padmanabhan e K. Martin, “Some further results on modulated/extended lapped transforms”, in Proc. of IEEE ICASSP ’92, março de 1992, vol. 4, páginas 265 a 268. [22] K. M. A. Hameed e. Elias, “Extended lapped transforms with linear phase basis functions and perfect reconstruction”, in Proc. of IEEE ICECS ’05, dezembro de 2005. [23] L. D. Fielder, M. Bosi, G. Davidson, M. Davis, C. Todd e S. Vernon, “AC-2 and AC-3: Low-Complexity Transform-Based Audio Coding”, AES collected papers on Digital Audio Bit-Rate Reduction, páginas 54 a 72, 1996. [24] C. R. Helmrich, “On the Use of Sums of Sines in the Design of Signal Windows”, in Proc. of DAFx-10, Graz, setembro de 2010, online em http://dafx10.iem.at/proceedings/. [25] M. Neuendorf, M. Multrus, N. Rettelbach, G. Fuchs, J. Robilliard, J. Lecomte, S. Wilde, S. Bayer, S. Disch, C. R. Helmrich, R. Lefebvre, P. Gournay, B. Bessette, J. Lapierre, K. Kjorling, H. Purnhagen, L. Villemoes, W. Oomen, E. Schuijers, K. Kikuiri, T. Chinen, T. Norimatsu, K. S. Chong, E. Oh, M. Kim, S. Quackenbush e B. Grill, “The ISO/MPEG Unified Speech and Audio Coding Standard - Consistent High Quality for all Content Types and at all Bit Rates,” J. Audio Eng. Soc., vol. 61, no 12, páginas 956 a 977, dezembro de 2013. [26] ITU, Radiocommunication Sector, “Recommendation BS.1534-2: Method for the subjective assessment of intermediate quality level of audio systems”, junho de 2014. [27] K. Brandenburg e M. Bosi, “Overview of MPEG-Audio: Current and Future Standards for Low Bit-Rate Audio Coding”, in Proc. of AES 99th Convention, Nova York, outubro de 1995, no 4.130. [28] ISO/IEC SC29/WG11, N15399, “Text of ISO/IEC 23008-3:201x/PDAM 3, MPEG-H 3D Audio phase 2”, julho de 2015.

Claims (56)

1. Decodificador para decodificação de uma pluralidade de amostras de áudio de domínio espectral, sendo que o decodificador é caracterizado por compreender: um primeiro módulo (110) para decodificação de um primeiro grupo das amostras de áudio de domínio espectral gerando-se um primeiro grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do primeiro grupo das amostras de áudio de domínio espectral, e para decodificação de um segundo grupo das amostras de áudio de domínio espectral gerando-se um segundo grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do segundo grupo das amostras de áudio de domínio espectral, um adicionador de sobreposição (130), em que o adicionador de sobreposição (130) é configurado para conduzir adição de sobreposição de exatamente dois grupos de amostras de áudio intermediário de domínio de tempo, sendo que os ditos exatamente dois grupos são o primeiro grupo e o segundo grupo de amostras de áudio intermediário de domínio de tempo, em que o adicionador de sobreposição (130) é configurado para adicionar por sobreposição os ditos exatamente dois grupos com uma sobreposição de mais que 5% e no máximo 50%, em que a dita adição de sobreposição dos ditos exatamente dois grupos resulta na geração de uma primeira pluralidade de amostras de saída de áudio intermediário de domínio de tempo de um sinal de áudio, um segundo módulo de decodificação (120) para decodificação de um terceiro grupo das amostras de áudio de domínio espectral gerando-se um terceiro grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do terceiro grupo das amostras de áudio de domínio espectral, e para decodificação de um quarto grupo das amostras de áudio de domínio espectral gerando-se um quarto grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do quarto grupo de amostras de áudio de domínio espectral, e uma interface de saída (140) para emissão da primeira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio, de uma segunda pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio e de uma terceira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio, em que o adicionador de sobreposição (130) é configurado para obter a segunda pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o terceiro grupo de amostras de áudio intermediário de domínio de tempo com uma sobreposição de mais que 60% e menos que 100% com o quarto grupo de amostras de áudio intermediário de domínio de tempo, e em que o adicionador de sobreposição (130) é configurado para adquirir a terceira pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o segundo grupo de amostras de áudio intermediário de domínio de tempo com o terceiro grupo de amostras de áudio intermediário de domínio de tempo, ou em que o adicionador de sobreposição (130) é configurado para adquirir a terceira pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o quarto grupo de amostras de áudio intermediário de domínio de tempo com o primeiro grupo de amostras de áudio intermediário de domínio de tempo.
2. Decodificador, de acordo com a reivindicação 1, caracterizado por: a primeira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio preceder a terceira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio em tempo e em que a terceira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio precede a segunda pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio em tempo e em que o adicionador de sobreposição (130) é configurado para adquirir a terceira pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o segundo grupo de amostras de áudio intermediário de domínio de tempo com o terceiro grupo de amostras de áudio intermediário de domínio de tempo, ou a segunda pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio precede a terceira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio em tempo e em que a terceira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio precede a primeira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio em tempo e em que o adicionador de sobreposição (130) é configurado para adquirir a terceira pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o segundo grupo de amostras de áudio intermediário de domínio de tempo com o terceiro grupo de amostras de áudio intermediário de domínio de tempo.
3. Decodificador, de acordo com a reivindicação 1, caracterizado por: o adicionador de sobreposição (130) ser configurado para adicionar por sobreposição o primeiro grupo de amostras de áudio intermediário de domínio de tempo com uma sobreposição de exatamente 50% com o segundo grupo de amostras de áudio intermediário de domínio de tempo, e o adicionador de sobreposição (130) ser configurado para adicionar por sobreposição pelo menos o terceiro grupo de amostras de áudio intermediário de domínio de tempo com uma sobreposição de pelo menos 75% e menos que 100% com o quarto grupo de amostras de áudio intermediário de domínio de tempo.
4. Decodificador, de acordo com a reivindicação 3, caracterizado por: o primeiro módulo de decodificação (110) ser configurado para efetuar uma Transformada de Cosseno Discreta Modificada inversa ou uma Transformada de Seno Discreta Modificada inversa, e o segundo módulo de decodificação (120) ser configurado para efetuar uma Transformada Superposta Estendida inversa ou uma Transformada Superposta Estendida Modificada inversa.
5. Decodificador, de acordo com a reivindicação 3, caracterizado por o adicionador de sobreposição (130) ser configurado para adicionar por sobreposição pelo menos o terceiro grupo de amostras de áudio intermediário de domínio de tempo com uma sobreposição de exatamente 75% com o quarto grupo de amostras de áudio intermediário de domínio de tempo.
6. Decodificador, de acordo com a reivindicação 1, caracterizado por um primeiro número de amostras de áudio intermediário de domínio de tempo do primeiro grupo de amostras de áudio intermediário de domínio de tempo ser igual a um segundo número de amostras de áudio intermediário de domínio de tempo do segundo grupo de amostras de áudio intermediário de domínio de tempo, em que um terceiro número de amostras de áudio intermediário de domínio de tempo do terceiro grupo de amostras de áudio intermediário de domínio de tempo é igual a um quarto número de amostras de áudio intermediário de domínio de tempo do quarto grupo de amostras de áudio intermediário de domínio de tempo, em que o segundo número é igual ao terceiro número dividido por 2, e em que o primeiro número é igual ao quarto número dividido por 2.
7. Decodificador, de acordo com a reivindicação 1, caracterizado por: o segundo módulo de decodificação (120) ser configurado para decodificar um quinto grupo das amostras de áudio de domínio espectral gerando-se um quinto grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do quinto grupo das amostras de áudio de domínio espectral, e para decodificar um sexto grupo das amostras de áudio de domínio espectral gerando-se um sexto grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do sexto grupo das amostras de áudio de domínio espectral, e o adicionador de sobreposição (130) ser configurado para adquirir a segunda pluralidade de amostras de saída de áudio de domínio de tempo por adição de sobreposição do terceiro grupo de amostras de áudio intermediário de domínio de tempo e do quarto grupo de amostras de áudio intermediário de domínio de tempo e do quinto grupo de amostras de áudio intermediário de domínio de tempo e do sexto grupo de amostras de áudio intermediário de domínio de tempo, de tal modo que o terceiro ou o quarto grupo de amostras de áudio intermediário de domínio de tempo se sobreponha com pelo menos 75% e menos que 100% com o quinto grupo de amostras de áudio intermediário de domínio de tempo, e de tal modo que o quinto grupo de amostras de áudio intermediário de domínio de tempo se sobreponha com pelo menos 75% e menos que 100% com o sexto grupo de amostras de áudio intermediário de domínio de tempo.
8. Decodificador, de acordo com a reivindicação 1, caracterizado por o segundo módulo de decodificação (120) ser configurado para gerar pelo menos um dentre o terceiro grupo de amostras de áudio intermediário de domínio de tempo e o quarto grupo de amostras de áudio intermediário de domínio de tempo dependendo de cs(a (n + b)(k + c)) , em que cs( ) é cos( ) ou sen( ), em que n indica um índice de tempo de uma dentre as amostras de áudio intermediário de domínio de tempo do terceiro ou do quarto grupo de amostras de áudio intermediário de domínio de tempo, em que k indica um índice espectral de uma dentre as amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral, em que -0,1 < c < 0,1, ou 0,4 < c < 0,6 ou 0,9 < c < 1,1, em que, em que 0,9 • π < q < 1,1 • π, em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral, em que em que 1,5 < s < 4,5.
9. Decodificador, de acordo com a reivindicação 1, caracterizado por o primeiro módulo de decodificação (110) ser configurado para gerar pelo menos um dentre o primeiro grupo de amostras de áudio intermediário de domínio de tempo e o segundo grupo de amostras de áudio intermediário de domínio de tempo dependendo de cs1 (a (n1 + b1 )(k + c1 )) , em que cs1( ) é cos( ) ou sen( ), em que n1 indica um índice de tempo de uma dentre as amostras de áudio intermediário de domínio de tempo do primeiro ou do segundo grupo de amostras de áudio intermediário de domínio de tempo, em que -0,1 < c1 < 0,1, ou 0,4 < c1 < 0,6 ou 0,9 < c1 < 1,1, em que
10. Decodificador, de acordo com a reivindicação 8, caracterizado por: c = 0, ou c = 0,5 ou c = 1, q = π e s = 3.
11. Decodificador, de acordo com a reivindicação 9, caracterizado por: q = π, s = 3, cs( ) é cos( ), e cs1( ) é cos( ), e c = 0,5 e c1 = 0,5 ou q = π, s = 3, cs( ) é sen( ), e cs1( ) é cos( ), e c = 1 e c1 = 0, ou q = π, s = 3, cs( ) é sen( ), e cs1( ) é sen( ), e c = 0,5 e c1 = 1, ou q = π, s = 3, cs( ) é cos( ), e cs1( ) é sen( ), e c = 0 e c1 = 1, ou q = π, s = 3, cs( ) é sen( ), e cs1( ) é sen( ), e c = 0,5 e c1 = 0,5, ou q = π, s = 3, cs( ) é cos( ), e cs1( ) é sen( ), e c = 0 e c1 = 0,5, ou q = π, s = 3, cs( ) é cos( ), e cs1( ) é cos( ), e c = 0,5 e c1 = 0 ou q = π, s = 3, cs( ) é sen( ), e cs1( ) é cos( ), e c = 1 e c1 = 0.
12. Decodificador, de acordo com a reivindicação 10, caracterizado por o segundo módulo de decodificação (120) ser configurado para gerar pelo menos um dentre o terceiro grupo de amostras de áudio intermediário de domínio de tempo e o quarto grupo de amostras de áudio intermediário de domínio de tempo, dependendo de, ou dependendo de, ou dependendo de , ou dependendo de em que X‘(k) indica uma dentre as amostras de áudio de domínio espectral do terceiro ou do quarto grupo das amostras de áudio de domínio espectral, e em que x ‘(n) indica um valor de domínio de tempo.
13. Decodificador, de acordo com a reivindicação 8, caracterizado por o segundo módulo de decodificação (120) ser configurado para aplicar um peso w(n) no valor de domínio de tempo x'(n) de acordo com s i(n ) = w(n)x ‘(n) para gerar uma amostra de áudio intermediário de domínio de tempo st (n) do terceiro ou do quarto grupo de amostras de áudio intermediário de domínio de tempo.
14. Decodificador, de acordo com a reivindicação 1, caracterizado por: o adicionador de sobreposição (130) ser configurado para adicionar por sobreposição pelo menos o segundo grupo de amostras de áudio intermediário de domínio de tempo com o terceiro grupo de amostras de áudio intermediário de domínio de tempo, de modo que todas as amostras de áudio intermediário de domínio de tempo do segundo grupo de amostras de áudio intermediário de domínio de tempo se sobreponham com amostras de áudio intermediário de domínio de tempo do terceiro grupo de amostras de áudio intermediário de domínio de tempo, ou o adicionador de sobreposição (130) ser configurado para adicionar por sobreposição pelo menos o quarto grupo de amostras de áudio intermediário de domínio de tempo com o primeiro grupo de amostras de áudio intermediário de domínio de tempo, de modo que todas as amostras de áudio intermediário de domínio de tempo do primeiro grupo de amostras de áudio intermediário de domínio de tempo se sobreponham com o quarto grupo de amostras de áudio intermediário de domínio de tempo.
15. Decodificador, de acordo com a reivindicação 1, caracterizado por wet ser uma primeira função de janela, em que wtr é uma segunda função de janela, em que uma porção da segunda função de janela é definida de acordo com em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral, em que k é um número com 0 < k < M, em que d é um número real, LL em que , ou em que , em que L indica um número de amostras de áudio intermediário de domínio de tempo do terceiro grupo ou do quarto grupo de amostras de áudio intermediário de domínio de tempo, em que o adicionador de sobreposição (130) é configurado para adicionar por sobreposição pelo menos o segundo grupo de amostras de áudio intermediário de domínio de tempo com o terceiro grupo de amostras de áudio intermediário de domínio de tempo, em que o segundo módulo de decodificação (120) é configurado para gerar o quarto grupo de amostras de áudio intermediário de domínio de tempo dependendo da primeira função de janela welt , e em que o segundo módulo de decodificação (120) é configurado para gerar o terceiro grupo de amostras de áudio intermediário de domínio de tempo dependendo da segunda função de janela wtr, ou em que o adicionador de sobreposição (130) é configurado para adicionar por sobreposição pelo menos o quarto grupo de amostras de áudio intermediário de domínio de tempo com o primeiro grupo de amostras de áudio intermediário de domínio de tempo, em que o segundo módulo de decodificação (120) é configurado para gerar o terceiro grupo de amostras de áudio intermediário de domínio de tempo dependendo da primeira função de janela welt , e em que o segundo módulo de decodificação (120) é configurado para gerar o quarto grupo de amostras de áudio intermediário de domínio de tempo dependendo da segunda função de janela wtr.
16. Decodificador, de acordo com a reivindicação 15,caracterizado por wtri ser uma terceira função de janela, em que uma porção da terceira função de janela é definida de acordo com em que , ou em que , em que N indica um número de amostras de áudio intermediário de domínio de tempo do primeiro grupo ou do segundo grupo de amostras de áudio intermediário de domínio de tempo, em que o adicionador de sobreposição (130) é configurado para adicionar por sobreposição pelo menos o segundo grupo de amostras de áudio intermediário de domínio de tempo com o terceiro grupo de amostras de áudio intermediário de domínio de tempo, e em que o primeiro módulo de decodificação (110) é configurado para gerar o segundo grupo de amostras de áudio intermediário de domínio de tempo dependendo da terceira função de janela wtr1, ou em que o adicionador de sobreposição (130) é configurado para adicionar por sobreposição pelo menos o quarto grupo de amostras de áudio intermediário de domínio de tempo com o primeiro grupo de amostras de áudio intermediário de domínio de tempo, e em que o primeiro módulo de decodificação (110) é configurado para gerar o primeiro grupo de amostras de áudio intermediário de domínio de tempo dependendo da terceira função de janela wtr1.
17. Decodificador, de acordo com a reivindicação 15, caracterizado por a primeira função de janela wet ser definida de acordo com em que em que b0, b1 e b2 são números reais, em que 0 < t < L, e em que K é um número inteiro positivo e em que ck indica um número real.
18. Decodificador, de acordo com a reivindicação 17, caracterizado por K = 3; em que 0,3 < b0 < 0,4, em que -0,6 < b1 < -0,4, em que 0,01 < b2 < 0,2, em que 0,001 < c1 < 0,03, em que 0,000001 < c2 < 0,0005, em que 0,000001 < c3 < 0,00002.
19. Decodificador, de acordo com a reivindicação 1, caracterizado por weit ser uma primeira função de janela, em que wmlt é uma segunda função de janela, e em que w'mtt é uma terceira função de janela, em que a terceira função de janela é definida de acordo com em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral, em que k é um número com 0 < k < M, em que d é um número real, em que n é um número inteiro, e em que o adicionador de sobreposição (130) é configurado para gerar pelo menos um dentre o primeiro e o segundo e o terceiro e o quarto grupos de amostras de áudio intermediário de domínio de tempo dependendo da terceira função de janela w'mlt .
20. Decodificador, de acordo com a reivindicação 1, caracterizado por welt ser uma primeira função de janela, em que wss é uma segunda função de janela, em que a segunda função de janela é definida de acordo com em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral, em que k é um número com 0 < k < M , em que d é um número real, em que n é um número inteiro, e em que o adicionador de sobreposição (130) é configurado para gerar pelo menos um dentre o primeiro e o segundo e o terceiro e o quarto grupos de amostras de áudio intermediário de domínio de tempo dependendo da segunda função de janela wss.
21. Decodificador, de acordo com a reivindicação 15, caracterizado por 0.8 < d < 1.25 .
22. Decodificador, de acordo com a reivindicação 21, caracterizado por
23. Decodificador, de acordo com a reivindicação 15, caracterizado por d = 1.
24. Decodificador, de acordo com a reivindicação 1, caracterizado por: o decodificador ser configurado para receber informações de decodificação que indicam se uma porção da pluralidade de amostras de áudio de domínio espectral deve ser decodificada pelo primeiro módulo de decodificação (110) ou pelo segundo módulo de decodificação (120), e o decodificador ser configurado para decodificar a dita porção da pluralidade de amostras de áudio de domínio espectral empregando-se tanto o primeiro módulo de decodificação (110) como o segundo módulo de decodificação (120) dependendo das informações de decodificação para adquirir o primeiro ou o segundo ou o terceiro ou o quarto grupo de amostras de áudio intermediário de domínio de tempo.
25. Decodificador, de acordo com a reivindicação 1, caracterizado por: o decodificador ser configurado para receber um primeiro bit e um segundo bit, em que o primeiro bit e o segundo bit compreendem, conjuntamente, uma primeira combinação de valor de bit, ou uma segunda combinação de valor de bit sendo diferente da primeira combinação de valor de bit, ou uma terceira combinação de valor de bit sendo diferente da primeira e da segunda combinações de valor de bit, ou uma quarta combinação de valor de bit sendo diferente da primeira e da segunda e da terceira combinação de valor de bit, o decodificador ser configurado para decodificar uma porção da pluralidade de amostras de áudio de domínio espectral dependendo de uma função Kaiser-Bessel empregando-se o primeiro módulo de decodificação (110) para adquirir o primeiro ou o segundo grupo de amostras de áudio intermediário de domínio de tempo, se o primeiro bit e o segundo bit compreendem, conjuntamente, a primeira combinação de valor de bit, o decodificador ser configurado para decodificar uma porção da pluralidade de amostras de áudio de domínio espectral dependendo de uma função de seno ou uma função de cosseno empregando-se o primeiro módulo de decodificação (110) para adquirir o primeiro ou o segundo grupo de amostras de áudio intermediário de domínio de tempo, se o primeiro bit e o segundo bit compreendem, conjuntamente, a segunda combinação de valor de bit, o decodificador ser configurado para decodificar uma porção da pluralidade de amostras de áudio de domínio espectral empregando-se o primeiro módulo de decodificação (110) para adquirir o primeiro ou o segundo grupo de amostras de áudio intermediário de domínio de tempo, se o primeiro bit e o segundo bit compreendem, conjuntamente, a terceira combinação de valor de bit, e o decodificador ser configurado para decodificar a dita porção da pluralidade de amostras de áudio de domínio espectral empregando-se o segundo módulo de decodificação (120) para adquirir o terceiro ou o quarto grupo de amostras de áudio intermediário de domínio de tempo, se o primeiro bit e o segundo bit compreendem, conjuntamente, a quarta combinação de valor de bit.
26. Codificador para codificação de uma pluralidade de amostras de áudio de domínio de tempo de um sinal de áudio gerando-se uma pluralidade de grupos de amostras de áudio de domínio espectral a partir de uma pluralidade de grupos das amostras de áudio de domínio de tempo, sendo que o codificador é caracterizado por compreender: um primeiro módulo de codificação (210) para geração de um primeiro grupo dos grupos de amostras de áudio de domínio espectral a partir de um primeiro grupo dos grupos das amostras de áudio de domínio de tempo, e para geração de um segundo grupo dos grupos de amostras de áudio de domínio espectral a partir de um segundo grupo dos grupos das amostras de áudio de domínio de tempo, em que o primeiro grupo de amostras de áudio de domínio de tempo e o segundo grupo de amostras de áudio de domínio de tempo são vizinhos em tempo dentro dos grupos das amostras de áudio de domínio de tempo, em que o primeiro grupo das amostras de áudio de domínio de tempo compreende mais que 5% e no máximo 50% das amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, e em que o segundo grupo das amostras de áudio de domínio de tempo compreende mais que 5% e no máximo 50% das amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo, e um segundo módulo de codificação (220) para geração de um terceiro grupo dos grupos de amostras de áudio de domínio espectral a partir de um terceiro grupo dos grupos das amostras de áudio de domínio de tempo, e para geração de um quarto grupo dos grupos de amostras de áudio de domínio espectral a partir de um quarto grupo dos grupos das amostras de áudio de domínio de tempo, em que o terceiro grupo das amostras de áudio de domínio de tempo compreende mais que 60% e menos que 100% das amostras de áudio do quarto grupo das amostras de áudio de domínio de tempo, e em que o quarto grupo das amostras de áudio de domínio de tempo compreende mais que 60% e menos que 100% das amostras de áudio do terceiro grupo das amostras de áudio de domínio de tempo, e um módulo de saída (230) para emitir o primeiro grupo de amostras de áudio de domínio espectral, o segundo grupo de amostras de áudio de domínio espectral, o terceiro grupo de amostras de áudio de domínio espectral e o quarto grupo de amostras de áudio de domínio espectral, em que o terceiro grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, ou em que o quarto grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo.
27. Codificador, de acordo com a reivindicação 26, caracterizado por: o primeiro grupo das amostras de áudio de domínio de tempo preceder o segundo grupo das amostras de áudio de domínio de tempo em tempo e em que o segundo grupo das amostras de áudio de domínio de tempo precede o terceiro grupo das amostras de áudio de domínio de tempo em tempo e em que o terceiro grupo das amostras de áudio de domínio de tempo precede o quarto grupo das amostras de áudio de domínio de tempo em tempo e em que o terceiro grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, ou o terceiro grupo das amostras de áudio de domínio de tempo preceder o quarto grupo das amostras de áudio de domínio de tempo em tempo e em que o quarto grupo das amostras de áudio de domínio de tempo precede o primeiro grupo das amostras de áudio de domínio de tempo em tempo e em que o primeiro grupo das amostras de áudio de domínio de tempo precede o segundo grupo das amostras de áudio de domínio de tempo em tempo e em que o quarto grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo.
28. Codificador, de acordo com a reivindicação 26, caracterizado por: o primeiro grupo das amostras de áudio de domínio de tempo compreender exatamente 50% das amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, e em que o segundo grupo das amostras de áudio de domínio de tempo compreende exatamente 50% das amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo, e o terceiro grupo das amostras de áudio de domínio de tempo compreende pelo menos 75% e menos que 100% das amostras de áudio do quarto grupo das amostras de áudio de domínio de tempo, e em que o quarto grupo das amostras de áudio de domínio de tempo compreende pelo menos 75% e menos que 100% das amostras de áudio do terceiro grupo das amostras de áudio de domínio de tempo.
29. Codificador, de acordo com a reivindicação 28, caracterizado por: o primeiro módulo de codificação (210) ser configurado para efetuar uma Transformada de Cosseno Discreta Modificada ou uma Transformada de Seno Discreta Modificada, e o segundo módulo de codificação (220) ser configurado para efetuar uma Transformada Superposta Estendida ou uma Transformada Superposta Estendida Modificada.
30. Codificador, de acordo com a reivindicação 28, caracterizado por o terceiro grupo das amostras de áudio de domínio de tempo compreender exatamente 75% das amostras de áudio do quarto grupo das amostras de áudio de domínio de tempo, e em que o quarto grupo das amostras de áudio de domínio de tempo compreende exatamente 75% das amostras de áudio do terceiro grupo das amostras de áudio de domínio de tempo.
31. Codificador, de acordo com a reivindicação 26, caracterizado por um primeiro número de amostras de áudio de domínio de tempo do primeiro grupo das amostras de áudio de domínio de tempo ser igual a um segundo número de amostras de áudio de domínio de tempo do segundo grupo das amostras de áudio de domínio de tempo, em que um terceiro número de amostras de áudio de domínio de tempo do terceiro grupo das amostras de áudio de domínio de tempo é igual a um quarto número de amostras de áudio de domínio de tempo do quarto grupo das amostras de áudio de domínio de tempo, em que o segundo número é igual ao terceiro número dividido por 2, e em que o primeiro número é igual ao quarto número dividido por 2.
32. Codificador, de acordo com a reivindicação 26, caracterizado por o segundo módulo de codificação (220) ser configurado para gerar um quinto grupo dos grupos de amostras de áudio de domínio espectral a partir de um quinto grupo dos grupos das amostras de áudio de domínio de tempo, e em que o segundo módulo de codificação (220) é configurado para gerar um sexto grupo dos grupos de amostras de áudio de domínio espectral a partir de um sexto grupo dos grupos das amostras de áudio de domínio de tempo, em que o terceiro ou o quarto grupo das amostras de áudio de domínio de tempo compreende pelo menos 75% e menos que 100% das amostras de áudio do quinto grupo das amostras de áudio de domínio de tempo, em que o quinto grupo das amostras de áudio de domínio de tempo compreende pelo menos 75% e menos que 100% das amostras de áudio do terceiro ou do quarto grupo das amostras de áudio de domínio de tempo, em que o quinto grupo das amostras de áudio de domínio de tempo compreende pelo menos 75% e menos que 100% das amostras de áudio do sexto grupo das amostras de áudio de domínio de tempo, em que o sexto grupo das amostras de áudio de domínio de tempo compreende pelo menos 75% e menos que 100% das amostras de áudio do quinto grupo das amostras de áudio de domínio de tempo, e em que o módulo de saída (230) é configurado para emitir, adicionalmente, o quinto grupo de amostras de áudio de domínio espectral e o sexto grupo de amostras de áudio de domínio espectral.
33. Codificador, de acordo com a reivindicação 26, caracterizado por o codificador ser configurado para empregar o primeiro módulo de codificação (210) ou o segundo módulo de codificação (220) para geração de um grupo atual de amostras de áudio de domínio espectral dependendo de uma propriedade de sinal de uma porção do sinal de áudio de domínio de tempo.
34. Codificador, de acordo com a reivindicação 33, caracterizado por: o codificador ser configurado para determinar como a propriedade de sinal, se um grupo atual da pluralidade de amostras de áudio de domínio de tempo compreende pelo menos uma dentre as regiões não estacionárias e regiões não tonais, o codificador ser configurado para empregar o primeiro módulo de codificação (210) para gerar o grupo atual de amostras de áudio de domínio espectral dependendo do grupo atual da pluralidade de amostras de áudio de domínio de tempo, se o grupo atual da pluralidade de amostras de áudio de domínio de tempo compreende a dita pelo menos uma dentre as regiões não estacionárias e as regiões não tonais, e o codificador ser configurado para empregar o segundo módulo de codificação (220) para gerar o grupo atual de amostras de áudio de domínio espectral dependendo do grupo atual da pluralidade de amostras de áudio de domínio de tempo, se o grupo atual da pluralidade de amostras de áudio de domínio de tempo não compreende a dita pelo menos uma dentre as regiões não estacionárias e as regiões não tonais.
35. Codificador, de acordo com a reivindicação 33, caracterizado por o módulo de saída (230) ser configurado para emitir um bit que compreende ou um primeiro valor de bit ou um segundo valor de bit dependendo da propriedade de sinal.
36. Codificador, de acordo com a reivindicação 26, caracterizado por o segundo módulo de codificação (220) ser configurado para gerar pelo menos um dentre o terceiro grupo e o quarto grupo de amostras de áudio de domínio espectral dependendo de cs(a (n + b)(k + c)) , em que cs( ) é cos( ) ou sen( ), em que n indica um índice de tempo de uma dentre as amostras de áudio de domínio de tempo do terceiro ou do quarto grupo de amostras de áudio de domínio de tempo, em que k indica um índice espectral de uma dentre as amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral, em que -0,1 < c < 0,1, ou 0,4 < c < 0,6 ou 0,9 < c < 1,1, em que, em que 0,9 • π < q < 1,1 • π, em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral, em que , e em que 1,5 < s < 4,5.
37. Codificador, de acordo com a reivindicação 26, caracterizado por o primeiro módulo de codificação (210) ser configurado para gerar pelo menos um dentre o primeiro grupo e o segundo grupo de amostras de áudio de domínio espectral dependendo de cs1 (a (n1 + b1 )(k + c1 )) , em que cs1 ( ) é cos( ) ou sen( ), em que n1 indica um índice de tempo de uma dentre as amostras de áudio de domínio de tempo do primeiro ou do segundo grupo de amostras de áudio de domínio de tempo, em que -0,1 < c1 < 0,1, ou 0,4 < c1 < 0,6 ou 0,9 < c1 < 1,1, em que
38. Codificador, de acordo com a reivindicação 36, caracterizado por c = 0, ou c = 0,5 ou c = 1, q = π e s = 3.
39. Codificador, de acordo com a reivindicação 37, caracterizado por: q = π, s = 3, cs( ) é cos( ), e cs1( ) é cos( ), e c = 0,5 e c1 = 0,5 ou q = π, s = 3, cs( ) é sen( ), e cs1( ) é cos( ), e c = 1 e c1 = 0, ou q = π, s = 3, cs( ) é sen( ), e cs1( ) é sen( ), e c = 0,5 e c1 = 1, ou q = π, s = 3, cs( ) é cos( ), e cs1( ) é sen( ), e c = 0 e c1 = 1, ou q = π, s = 3, cs( ) é sen( ), e cs1( ) é sen( ), e c = 0,5 e c1 = 0,5, ou q = π, s = 3, cs( ) é cos( ), e cs1( ) é sen( ), e c = 0 e c1 = 0,5, ou q = π, s = 3, cs( ) é cos( ), e cs1( ) é cos( ), e c = 0,5 e c1 = 0 ou q = π, s = 3, cs( ) é sen( ), e cs1( ) é cos( ), e c = 1 e c1 = 0.
40. Codificador, de acordo com a reivindicação 38, caracterizado por o segundo módulo de codificação (220) ser configurado para gerar pelo menos um dentre o terceiro grupo e o quarto grupo de amostras de áudio de domínio espectral dependendo de, ou dependendo de , ou dependendo de, ou dependendo de em que Xi(k) indica uma dentre as amostras de áudio de domínio espectral do terceiro ou do quarto grupo de amostras de áudio de domínio espectral, e em que x i (n) indica um valor de domínio de tempo.
41. Codificador, de acordo com a reivindicação 36, caracterizado por o segundo módulo de codificação (220) ser configurado para aplicar um peso w(n) em uma amostra de áudio de domínio de tempo si (n) do terceiro grupo ou do quarto grupo das amostras de áudio de domínio de tempo de acordo com x i(n ) = w(n ) si(n) para gerar o valor de domínio de tempo x i (n).
42. Codificador, de acordo com a reivindicação 26, caracterizado por: todas as amostras de áudio de domínio de tempo do segundo grupo das amostras de áudio de domínio de tempo se sobreporem com amostras de áudio de domínio de tempo do terceiro grupo das amostras de áudio de domínio de tempo, ou todas as amostras de áudio de domínio de tempo do primeiro grupo das amostras de áudio de domínio de tempo se sobrepõe com o quarto grupo das amostras de áudio de domínio de tempo.
43. Codificador, de acordo com a reivindicação 26, caracterizado por welt ser uma primeira função de janela, em que wtr é uma segunda função de janela, em que uma porção da segunda função de janela é definida de acordo com em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo de amostras de áudio de domínio espectral, em que k é um número com 0 < k < M, em que d é um número real, em que , ou em que , em que L indica um número de amostras de áudio de domínio de tempo do terceiro grupo ou do quarto grupo de amostras de áudio de domínio de tempo, em que o terceiro grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, e em que o segundo módulo de codificação (220) é configurado para aplicar a primeira função de janela welt no quarto grupo de amostras de áudio de domínio de tempo, e em que o segundo módulo de codificação (220) é configurado para aplicar a segunda função de janela wtr no terceiro grupo de amostras de áudio de domínio de tempo, ou em que o quarto grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo, e em que o segundo módulo de codificação (220) é configurado para aplicar a primeira função de janela welt no terceiro grupo de amostras de áudio de domínio de tempo, e em que o segundo módulo de codificação (220) é configurado à segunda função de janela wtr no quarto grupo de amostras de áudio de domínio de tempo.
44. Codificador, de acordo com a reivindicação 43, caracterizado por wtn ser uma terceira função de janela, em que uma porção da terceira função de janela é definida de acordo com NN em que , ou em que , em que N indica um número de amostras de áudio de domínio de tempo do primeiro grupo ou do segundo grupo de amostras de áudio de domínio de tempo, em que o terceiro grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, e em que o segundo módulo de codificação (220) é configurado para aplicar a terceira função de janela wtr1 no segundo grupo de amostras de áudio de domínio de tempo, ou em que o quarto grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo, e em que o segundo módulo de codificação (220) é configurado à terceira função de janela wtr1 no primeiro grupo de amostras de áudio de domínio de tempo.
45. Codificador, de acordo com a reivindicação 43, caracterizado por a primeira função de janela wet ser definida de acordo com em que em que b0, b1 e b2 são números reais, em que 0 < t < L, e em que K é um número inteiro positivo e em que ck indica um número real.
46. Codificador, de acordo com a reivindicação 45, caracterizado por K = 3; em que 0,3 < b0 < 0,4, em que -0,6 < b1 < -0,4, em que 0,01 < b2 < 0,2, em que 0,001 < c 1 < 0,03, em que 0,000001 < C2 < 0,0005, em que 0,000001 < c3 < 0,00002.
47. Codificador, de acordo com a reivindicação 26, caracterizado por wet ser uma primeira função de janela, em que wmlt é uma segunda função de janela, e em que wmlt é uma terceira função de janela, em que a terceira função de janela é definida de acordo com em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral, em que k é um número com 0 < k < M, em que d é um número real, em que n é um número inteiro, e em que pelo menos um dentre o primeiro módulo de codificação (210) e o segundo módulo de codificação (220) é configurado para aplicar a terceira função de janela wmlt em pelo menos um dentre o primeiro e o segundo e o terceiro e o quarto grupos de amostras de áudio de domínio de tempo.
48. Codificador, de acordo com a reivindicação 26, caracterizado por welt ser uma primeira função de janela, em que wss é uma segunda função de janela, em que a segunda função de janela é definida de acordo com em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo das amostras de áudio de domínio espectral, em que k é um número com 0 < k < M , em que d é um número real, em que n é um número inteiro, e em que pelo menos um dentre o primeiro módulo de codificação (210) e o segundo módulo de codificação (220) é configurado para aplicar a segunda função de janela wss em pelo menos um dentre o primeiro e o segundo e o terceiro e o quarto grupos de amostras de áudio de domínio de tempo.
49. Codificador, de acordo com a reivindicação 43, caracterizado por 0,8 < d < 1,25.
50. Codificador, de acordo com a reivindicação 49, caracterizado por
51. Codificador, de acordo com a reivindicação 43, caracterizado por d = 1.
52. Sistema caracterizado por compreender: um codificador (310) para codificação de uma pluralidade de amostras de áudio de domínio de tempo, um sinal de áudio gerando uma pluralidade de grupos de amostras de áudio de domínio espectral de uma pluralidade de grupos das amostras de áudio de domínio de tempo, em que o codificador compreende: um primeiro módulo de codificação (210) para geração de um primeiro grupo dos grupos de amostras de áudio de domínio espectral a partir de um primeiro grupo dos grupos das amostras de áudio de domínio de tempo, e para geração de um segundo grupo dos grupos de amostras de áudio de domínio espectral a partir de um segundo grupo dos grupos das amostras de áudio de domínio de tempo, em que o primeiro grupo de amostras de áudio de domínio de tempo e o segundo grupo de amostras de áudio de domínio de tempo são vizinhos em tempo dentro dos grupos das amostras de áudio de domínio de tempo, em que o primeiro grupo das amostras de áudio de domínio de tempo compreende mais que 5% e no máximo 50% das amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, e em que o segundo grupo das amostras de áudio de domínio de tempo compreende mais que 5% e no máximo 50% das amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo, e um segundo módulo de codificação (220) para geração de um terceiro grupo dos grupos de amostras de áudio de domínio espectral a partir de um terceiro grupo dos grupos das amostras de áudio de domínio de tempo, e para geração de um quarto grupo dos grupos de amostras de áudio de domínio espectral a partir de um quarto grupo dos grupos das amostras de áudio de domínio de tempo, em que o terceiro grupo das amostras de áudio de domínio de tempo compreende mais que 60% e menos que 100% das amostras de áudio do quarto grupo das amostras de áudio de domínio de tempo, e em que o quarto grupo das amostras de áudio de domínio de tempo compreende mais que 60% e menos que 100% das amostras de áudio do terceiro grupo das amostras de áudio de domínio de tempo, e um módulo de saída (230) para emitir o primeiro grupo de amostras de áudio de domínio espectral, o segundo grupo de amostras de áudio de domínio espectral, o terceiro grupo de amostras de áudio de domínio espectral e o quarto grupo de amostras de áudio de domínio espectral, em que o terceiro grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, ou em que o quarto grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo; um codificador (310), conforme definido na reivindicação 1, em o dito codificador é configurado para codificar uma pluralidade de amostras de áudio de domínio de tempo de um sinal de áudio gerando-se uma pluralidade de amostras de áudio de domínio espectral, em que o decodificador (320), conforme definido na reivindicação 1, é configurado para receber uma pluralidade de amostras de áudio de domínio espectral a partir do codificador, em que o decodificador (320), conforme definido na reivindicação 1, é configurado para decodificar a pluralidade de amostras de áudio de domínio espectral.
53. Sistema, de acordo com a reivindicação 52, caracterizado por: o codificador (310) ser um codificador em que 0,8 < d < 1,25, em que welt ser uma primeira função de janela, em que wtr é uma segunda função de janela, em que uma porção da segunda função de janela é definida de acordo com em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo de amostras de áudio de domínio espectral, em que k é um número com 0 < k < M, em que d é um número real, em que , ou em que , em que L indica um número de amostras de áudio de domínio de tempo do terceiro grupo ou do quarto grupo de amostras de áudio de domínio de tempo, em que o terceiro grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, e em que o segundo módulo de codificação (220) é configurado para aplicar a primeira função de janela welt no quarto grupo de amostras de áudio de domínio de tempo, e em que o segundo módulo de codificação (220) é configurado para aplicar a segunda função de janela wtr no terceiro grupo de amostras de áudio de domínio de tempo, ou em que o quarto grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo, e em que o segundo módulo de codificação (220) é configurado para aplicar a primeira função de janela welt no terceiro grupo de amostras de áudio de domínio de tempo, e em que o segundo módulo de codificação (220) é configurado à segunda função de janela wtr no quarto grupo de amostras de áudio de domínio de tempo; e o decodificador (320) ser um decodificador em que 0,8 < d < 1,25, em que welt ser uma primeira função de janela, em que wtr é uma segunda função de janela, em que uma porção da segunda função de janela é definida de acordo com em que M indica um número de amostras de áudio de domínio espectral do primeiro ou do segundo ou do terceiro ou do quarto grupo de amostras de áudio de domínio espectral, em que k é um número com 0 < k < M , em que d é um número real, LL em que , ou em que , em que L indica um número de amostras de áudio de domínio de tempo do terceiro grupo ou do quarto grupo de amostras de áudio de domínio de tempo, em que o adicionador de sobreposição (130) é configurado para adicionar por sobreposição pelo menos o segundo grupo de amostras de áudio intermediário de domínio de tempo com o terceiro grupo de amostras de áudio intermediário de domínio de tempo, em que o segundo módulo de decodificação (120) é configurado para gerar o quarto grupo de amostras de áudio intermediário de domínio de tempo dependendo da primeira função de janela welt , e em que o segundo módulo de decodificação (120) é configurado para gerar o terceiro grupo de amostras de áudio intermediário de domínio de tempo dependendo da segunda função de janela wtr, ou em que o adicionador de sobreposição (130) é configurado para adicionar por sobreposição pelo menos o quarto grupo de amostras de áudio intermediário de domínio de tempo com o primeiro grupo de amostras de áudio intermediário de domínio de tempo, em que o segundo módulo de decodificação (120) é configurado para gerar o terceiro grupo de amostras de áudio intermediário de domínio de tempo dependendo da primeira função de janela welt , e em que o segundo módulo de decodificação (120) é configurado para gerar o quarto grupo de amostras de áudio intermediário de domínio de tempo dependendo da segunda função de janela wtr.
54. Sistema, de acordo com a reivindicação 53, caracterizado por: o codificador (310) ser um codificador em que o decodificador (320) ser um decodificador em que
55. Método para decodificação de uma pluralidade de amostras de áudio de domínio espectral, sendo que o método é caracterizado por compreender: decodificar um primeiro grupo das amostras de áudio de domínio espectral gerando-se um primeiro grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do primeiro grupo das amostras de áudio de domínio espectral, e decodificar um segundo grupo das amostras de áudio de domínio espectral gerando-se um segundo grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do segundo grupo das amostras de áudio de domínio espectral, adicionar por sobreposição exatamente dois grupos de amostras de áudio intermediário de domínio de tempo, sendo que os ditos exatamente dois grupos são o primeiro grupo e o segundo grupo de amostras de áudio intermediário de domínio de tempo, em que os ditos exatamente dois grupos são adicionados de sobreposição com uma sobreposição de mais que 5% e no máximo 50%, em que a dita adição de sobreposição dos ditos exatamente dois grupos resulta na geração de uma primeira pluralidade de amostras de saída de áudio de domínio de tempo de um sinal de áudio, decodificar um terceiro grupo das amostras de áudio de domínio espectral gerando-se um terceiro grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do terceiro grupo das amostras de áudio de domínio espectral, e decodificar um quarto grupo das amostras de áudio de domínio espectral gerando-se um quarto grupo de amostras de áudio intermediário de domínio de tempo a partir das amostras de áudio de domínio espectral do quarto grupo das amostras de áudio de domínio espectral, emitir a primeira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio, de uma segunda pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio e de uma terceira pluralidade de amostras de saída de áudio de domínio de tempo do sinal de áudio, adquirir a segunda pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o terceiro grupo de amostras de áudio intermediário de domínio de tempo com uma sobreposição de mais que 60% e menos que 100% com o quarto grupo de amostras de áudio intermediário de domínio de tempo, e adquirir a terceira pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o segundo grupo de amostras de áudio intermediário de domínio de tempo com o terceiro grupo de amostras de áudio intermediário de domínio de tempo, adquirir a terceira pluralidade de amostras de saída de áudio de domínio de tempo com a utilização de adição de sobreposição de pelo menos o quarto grupo de amostras de áudio intermediário de domínio de tempo com o primeiro grupo de amostras de áudio intermediário de domínio de tempo.
56. Método para codificação de uma pluralidade de amostras de áudio de domínio de tempo de um sinal de áudio gerando-se uma pluralidade de grupos de amostras de áudio de domínio espectral a partir de uma pluralidade de grupos das amostras de áudio de domínio de tempo caracterizado por o método compreender: gerar um primeiro grupo dos grupos de amostras de áudio de domínio espectral a partir de um primeiro grupo dos grupos das amostras de áudio de domínio de tempo, e gerar de um segundo grupo dos grupos de amostras de áudio de domínio espectral a partir de um segundo grupo dos grupos das amostras de áudio de domínio de tempo, em que o primeiro grupo de amostras de áudio de domínio de tempo e o segundo grupo de amostras de áudio de domínio de tempo são vizinhos temporais dentro dos grupos das amostras de áudio de domínio de tempo, em que o primeiro grupo das amostras de áudio de domínio de tempo compreende mais que 5% e no máximo 50% das amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, e em que o segundo grupo das amostras de áudio de domínio de tempo compreende mais que 5% e no máximo 50% das amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo, gerar um terceiro grupo dos grupos de amostras de áudio de domínio espectral a partir de um terceiro grupo dos grupos das amostras de áudio de domínio de tempo, e gerar um quarto grupo dos grupos de amostras de áudio de domínio espectral a partir de um quarto grupo dos grupos das amostras de áudio de domínio de tempo, em que o terceiro grupo das amostras de áudio de domínio de tempo compreende mais que 60% e menos que 100% das amostras de áudio do quarto grupo das amostras de áudio de domínio de tempo, e em que o quarto grupo das amostras de áudio de domínio de tempo compreende mais que 60% e menos que 100% das amostras de áudio do terceiro grupo das amostras de áudio de domínio de tempo, e emitir o primeiro grupo de amostras de áudio de domínio espectral, o segundo grupo de amostras de áudio de domínio espectral, o terceiro grupo de amostras de áudio de domínio espectral e o quarto grupo de amostras de áudio de domínio espectral, em que o terceiro grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do segundo grupo das amostras de áudio de domínio de tempo, ou em que o quarto grupo das amostras de áudio de domínio de tempo compreende amostras de áudio do primeiro grupo das amostras de áudio de domínio de tempo.
BR112018005901-3A 2015-09-25 2016-09-23 Codificador, decodificador e métodos para comutação adaptável a sinal da razão de sobreposição em conversão em código de transformada de áudio BR112018005901B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EPPCT/EP2015/072186 2015-09-25
EPPCT/EP2015/072186 2015-09-25
PCT/EP2015/080334 WO2017050398A1 (en) 2015-09-25 2015-12-17 Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
EPPCT/EP2015/080334 2015-12-17
PCT/EP2016/072739 WO2017050993A1 (en) 2015-09-25 2016-09-23 Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding

Publications (2)

Publication Number Publication Date
BR112018005901A2 BR112018005901A2 (pt) 2018-10-16
BR112018005901B1 true BR112018005901B1 (pt) 2023-10-03

Family

ID=54850315

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112018005901-3A BR112018005901B1 (pt) 2015-09-25 2016-09-23 Codificador, decodificador e métodos para comutação adaptável a sinal da razão de sobreposição em conversão em código de transformada de áudio

Country Status (10)

Country Link
US (1) US10770084B2 (pt)
EP (1) EP3353782B1 (pt)
JP (1) JP6654236B2 (pt)
KR (1) KR102205824B1 (pt)
CN (1) CN108463850B (pt)
BR (1) BR112018005901B1 (pt)
CA (1) CA2998776C (pt)
ES (1) ES2922975T3 (pt)
RU (1) RU2710929C2 (pt)
WO (2) WO2017050398A1 (pt)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI681384B (zh) * 2018-08-01 2020-01-01 瑞昱半導體股份有限公司 音訊處理方法與音訊等化器
TWI718625B (zh) * 2019-08-16 2021-02-11 瑞昱半導體股份有限公司 應用於離散及逆離散正弦餘弦變換的運算電路

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
US7136418B2 (en) * 2001-05-03 2006-11-14 University Of Washington Scalable and perceptually ranked signal coding and decoding
WO2004082288A1 (en) * 2003-03-11 2004-09-23 Nokia Corporation Switching between coding schemes
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
EP1989706B1 (fr) 2006-02-14 2011-10-26 France Telecom Dispositif de ponderation perceptuelle en codage/decodage audio
US8036903B2 (en) * 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
ES2631906T3 (es) 2006-10-25 2017-09-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para la generación de valores de subbanda de audio, aparato y procedimiento para la generación de muestras de audio en el dominio temporal
CN101589623B (zh) * 2006-12-12 2013-03-13 弗劳恩霍夫应用研究促进协会 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法
FR2911228A1 (fr) 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
EP2311034B1 (en) * 2008-07-11 2015-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
ES2592416T3 (es) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
KR101315617B1 (ko) * 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
EP3462450A1 (en) * 2009-09-17 2019-04-03 Unified Sound Systems, Inc. A method and an apparatus for decoding an audio signal
PL2471061T3 (pl) * 2009-10-08 2014-03-31 Fraunhofer Ges Forschung Działający w wielu trybach dekoder sygnału audio, działający w wielu trybach koder sygnału audio, sposoby i program komputerowy stosujące kształtowanie szumu oparte o kodowanie z wykorzystaniem predykcji liniowej
US20110087494A1 (en) * 2009-10-09 2011-04-14 Samsung Electronics Co., Ltd. Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme
RU2591011C2 (ru) * 2009-10-20 2016-07-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Кодер аудиосигнала, декодер аудиосигнала, способ кодирования или декодирования аудиосигнала с удалением алиасинга (наложения спектров)
CN102667923B (zh) * 2009-10-20 2014-11-05 弗兰霍菲尔运输应用研究公司 音频编码器、音频解码器、用于将音频信息编码的方法、用于将音频信息解码的方法
US9275650B2 (en) * 2010-06-14 2016-03-01 Panasonic Corporation Hybrid audio encoder and hybrid audio decoder which perform coding or decoding while switching between different codecs
EP2772914A4 (en) 2011-10-28 2015-07-15 Panasonic Corp DECODER FOR HYBRID SOUND SIGNALS, COORDINATORS FOR HYBRID SOUND SIGNALS, DECODING PROCEDURE FOR SOUND SIGNALS AND CODING SIGNALING PROCESSES
CN103366751B (zh) * 2012-03-28 2015-10-14 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
EP2682941A1 (de) * 2012-07-02 2014-01-08 Technische Universität Ilmenau Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne
US9305559B2 (en) * 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
ES2616434T3 (es) * 2013-01-29 2017-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para seleccionar uno de un primer algoritmo de codificación de audio y un segundo algoritmo de codificación de audio
MX348505B (es) * 2013-02-20 2017-06-14 Fraunhofer Ges Forschung Aparato y método para generar una señal codificada o para decodificar una señal de audio codificada usando una porción multi superpuesta.
GB2515089A (en) * 2013-06-14 2014-12-17 Nokia Corp Audio Processing
WO2015122752A1 (ko) * 2014-02-17 2015-08-20 삼성전자 주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
RU2685024C1 (ru) * 2016-02-17 2019-04-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Постпроцессор, препроцессор, аудиокодер, аудиодекодер и соответствующие способы для улучшения обработки транзиентов

Also Published As

Publication number Publication date
RU2018115190A3 (pt) 2019-10-25
KR102205824B1 (ko) 2021-01-21
WO2017050398A1 (en) 2017-03-30
CN108463850B (zh) 2023-04-04
JP6654236B2 (ja) 2020-02-26
US20190103120A1 (en) 2019-04-04
CA2998776A1 (en) 2017-03-30
KR20180067552A (ko) 2018-06-20
BR112018005901A2 (pt) 2018-10-16
CN108463850A (zh) 2018-08-28
RU2018115190A (ru) 2019-10-25
ES2922975T3 (es) 2022-09-22
US10770084B2 (en) 2020-09-08
JP2018532153A (ja) 2018-11-01
EP3353782A1 (en) 2018-08-01
CA2998776C (en) 2021-07-20
WO2017050993A1 (en) 2017-03-30
EP3353782B1 (en) 2022-05-11
RU2710929C2 (ru) 2020-01-14

Similar Documents

Publication Publication Date Title
JP7126328B2 (ja) 符号化されたオーディオ信号を復号するためのデコーダおよびオーディオ信号を符号化するためのエンコーダ
TWI629681B (zh) 使用頻譜域重新取樣來編碼或解碼多通道信號之裝置、方法及相關電腦程式
CA2978812C (en) Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
ES2678894T3 (es) Procesador de audio y método para procesar una señal de audio usando corrección de fase
ES2728329T3 (es) Aparato y método para decodificar o codificar una señal de audio utilizando valores de información para una banda de reconstrucción
ES2703327T3 (es) Codificador, decodificador y métodos para codificación espacial de objetos de audio de multirresolución retrocompatible
JP5266332B2 (ja) 信号処理方法及び装置
BR112015007649B1 (pt) Codificador, decodificador e métodos para adaptação dinâmica compatível regressiva de resolução de tempo/frequência na codificação do objeto de áudio espacial
BRPI0611505A2 (pt) reconfiguração de canal com informação secundária
BR112016005111B1 (pt) Método e decodificador para decodificar um fluxo de bits de áudio codificado e para gerar extensão de largura de banda de frequência, e um decodificador para processamento de fala
BRPI0514650B1 (pt) Métodos para codificação e decodificação de sinais de áudio, codificador e decodificador de sinais de áudio
BRPI0923749B1 (pt) Aparelho que decodifica um sinal de áudio, métodos para a decodificação e para a codificação de um sinal de áudio
BR112016022466B1 (pt) método para codificar um sinal sonoro, método para decodificar um sinal sonoro, dispositivo para codificar um sinal sonoro e dispositivo para decodificar um sinal sonoro
KR20170087529A (ko) 오디오 인코더 및 디코더
BR112018005901B1 (pt) Codificador, decodificador e métodos para comutação adaptável a sinal da razão de sobreposição em conversão em código de transformada de áudio
BR112021007516A2 (pt) codificador de áudio, processador de áudio e método para processar um sinal de áudio
Helmrich et al. Signal-adaptive switching of overlap ratio in audio transform coding
BR112017019179B1 (pt) Decodificador para decodificar um sinal de áudio codificado e codificador para codificar um sinal de áudio

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 23/09/2016, OBSERVADAS AS CONDICOES LEGAIS